1

Любые примеры, советы и рекомендации по следующему сценарию?Разработка информации, классификация, модификация

Я получил обновления с нескольких различных новостных веб-сайтов. Затем я анализирую эту информацию для прогнозирования текущей тенденции в мире.

Я могу найти информацию о добыче данных при поиске выше, но это касается систем баз данных. Хотя интеллектуальный анализ данных аналогичен тому, что я пытаюсь сделать, интеллектуальный анализ данных в базах данных более конкретный, чем то, что я получил с веб-сайтов. Так может ли кто-нибудь вести меня по этому аспекту? Я очень ценю любую помощь, которую вы можете оказать на это.

Спасибо.

+3

На данный момент это еще научная фантастика. – ZippyV

+1

проблема с тем, что вы предлагаете, заключается в том, что это путь к неопределенности. вы ищете любую (?) «текущую тенденцию в мире». Проще говоря, существует много возможных трендов (!!!), и тестирование каждого из них занимает некоторое время. это сложная проблема, как в настоящее время. – twolfe18

ответ

0

Прежде всего, вам нужны данные обучения из прошлого. Смысл, сбор старых новостей и состояние тенденции к анализу в разные моменты времени.

Затем вы должны решить, как количественно определить эту информацию. Если тенденция - это что-то вроде «Проданных мобильных телефонов», вы можете просто взять количество проданных мобильных телефонов. Новости сложнее определить количественно. Например, вы можете измерить частоту слов в новостях обучения и взять хотя бы частые слова в качестве функций (аналогично фильтрам SPAM).

После этого вы обучаете классификатору этих функций и тенденцию из прошлого. Хороший алгоритм «Случайный лес», поскольку он практически не содержит параметров.

Для осуществления этого плана вам понадобится много знаний о фонах. «Элементы статистического обучения» Хасти, Тиббирани и Фридмана - хорошая книга, из которой можно учиться. Его можно скачать бесплатно на главной странице авторов.

+0

«Новости сложнее определить количественно». В этом суть проблемы, найдите способ определить, насколько вероятна тенденция, или какая часть информации, найденной в новостях, повлияет на каждую тенденцию. – givanse

0

Если вы ищете алгоритмы извлечения данных, вы должны проверить кластерный анализ и «неотрицательную матричную факторизацию».
Вы можете выделить общие темы. Получение текущей тенденции от этого относительно легко.
Но какие (если таковые имеются) из других тем получат следующий тренд, называемый магией или нейронными сетями.