2008-08-15 5 views

ответ

10

Проверьте номер netflix contest. Я считаю, что они предоставили свою базу данных или большое подмножество для облегчения конкурса.

ОБНОВЛЕНИЕ: Their faq говорит, что у них есть 100 миллионов записей в подмножестве, который вы можете скачать.

1

Возможно, вы захотите посмотреть на случайные данные для Fuzz Testing. Это даст вам довольно много неограниченного количества тестовых данных, и вы, скорее всего, столкнетесь с крайними случаями.

Возможно, есть дополнительная информация о том, какие данные теста вы хотите, в каком формате и для каких типов приложений?

1

Я не знаю, какова ваша целевая платформа, но если вы разрабатываете базу данных MSSQL, пройдите Visual Studio for Database Professionals. Он имеет очень классную функцию, где он может генерировать данные для вашей схемы, используя план данных, который вы можете определить.

У Redgate также есть инструмент для создания данных, но я не использовал его.

Преимущество в том, что вы можете создать план формирования данных и использовать его для заполнения базы данных с помощью согласованных больших объемов данных, которые могут быть настроены для проверки определенных областей вашей схемы.

1

Возможно, вы также захотите зарегистрироваться у theinfo от Aaron Swartz.

С сайтом

Это сайт для больших наборов данных и людей, которые любят их: скребки и Искатель, которые собирают их, ученые и вундеркинды, которые перерабатывают их, дизайнеров и художники, которые визуализируют их. Это место, где они могут обмениваться советами и трюками, разрабатывают и совместно используют инструменты, а начинают интегрировать свои конкретные проекты .

2

Я проделал определенную работу с наборами загрузок Wikimedia, которые представляют собой огромные XML-файлы. К сожалению, на их сервере загрузки в настоящее время возникают проблемы с дисковым пространством, поэтому многие из наборов данных недоступны. Но когда он доступен, весь английский набор данных Wikipedia с полной историей составляет 2,8 ТБ (с сжатием 18 ГБ).

5

Возможно, вам стоит взглянуть на данные Американской статистической ассоциации data expo - это детали полета для всех коммерческих рейсов в США за последние 20 лет - 120 миллионов записей, 11 гигабайт данных.

2

Число del.icio.us пользователей (включая меня), которые содержат общедоступные данные с использованием тега publicdata. Вы можете найти этот архив here и подписаться на канал RSS для этого тега here. Подпишитесь на канал, и вы увидите постоянный поток интересных наборов данных, которые появляются в Интернете.

Не все эти наборы данных большие, но они часто интересны.

0

Если вы заинтересованы в персонализации типа данных, которые вы получаете, ознакомьтесь с Kimono Labs.Это программное обеспечение для веб-соскабливания, которое вы можете использовать для очистки любого сайта бесплатно без ограничения количества строк. Просто настройте API на нем (вы можете использовать их генератор url, чтобы очистить кучу URL-адресов одновременно), а затем используйте свой персональный набор данных как JSON, CSV или RSS.

 Смежные вопросы

  • Нет связанных вопросов^_^