2010-01-14 4 views
7

Есть ли исследовательская работа/книга, которую я могу прочитать, которая может рассказать мне о проблеме, какой алгоритм выбора функций будет работать лучше всего.Как выбрать алгоритм выбора функций? - advice

Я пытаюсь просто идентифицировать твиттер-сообщения как pos/neg (для начала). Я начал с выбора функции на основе частоты (начав с книги NLTK), но вскоре понял, что для подобной проблемы различные люди выбрали разные алгоритмы.

Хотя я могу попытаться использовать частотную основу, взаимную информацию, информацию и различные другие алгоритмы. список кажется бесконечным .. и задавался вопросом, есть ли эффективный путь, а затем проб и ошибок.

любые советы

ответ

4

Я сделал NLP курс последний член, и он пришел довольно ясно, что анализ настроений является то, что на самом деле никто не знает, как сделать хорошо (пока). Разумеется, сделать это с помощью неконтролируемого обучения еще сложнее.

Существует довольно много исследований, связанных с этим, некоторые из них коммерческие и, следовательно, не открыты для публики. Я не могу указать вам на какие-либо исследовательские работы, но книга, которую мы использовали для курса, была this (google books preview). Тем не менее, книга охватывает множество материалов и, возможно, не самый быстрый способ найти решение этой конкретной проблемы.

Единственное, на что я могу обратить ваше внимание, это попытаться выполнить поиск в googling, возможно, на сайте scholar.google.com для «анализа настроений» или «интеллектуального анализа».

Посмотрите на NLTK movie_reviews corpus. Оценки уже относятся к категории pos/neg и могут помочь вам в обучении вашего классификатора. Хотя язык, который вы находите в Твиттере, вероятно, сильно отличается от того, который существует.

Как последнее примечание, пожалуйста, напишите о любых успехах (или неудачах в этом отношении) здесь. В какой-то момент эта проблема возникнет позже.

+0

В книге есть какой-либо сопроводительный код или теория тяжелая? –

+0

Это довольно теория тяжелая и в основном фокусируется на математическом фоне методов, а не на их реализации. Я нашел его из книг Google, и вы можете просмотреть его. Я добавлю ссылку на мой оригинальный пост. –

1

К сожалению, нет серебряной пули для чего-либо при работе с машинным обучением. Его обычно называют теоремой "No Free Lunch". В принципе, ряд алгоритмов работает для проблемы, а некоторые лучше справляются с некоторыми проблемами и хуже других. В конце концов, все они выполняют примерно то же самое. Тот же набор функций может привести к тому, что один алгоритм будет работать лучше, а другой - хуже для заданного набора данных. Для другого набора данных ситуация может быть полностью отменена.

Обычно я выбираю несколько алгоритмов выбора функций, которые работали для других по аналогичным задачам, а затем начинаются с них. Если производительность, которую я получаю с использованием моих любимых классификаторов, приемлема, scrounging еще на половину процентного пункта, вероятно, не стоит моего времени. Но если это неприемлемо, тогда пришло время переоценить мой подход или искать другие методы выбора объектов.

6

Вы пробовали книгу, которую я порекомендовал по вашему последнему вопросу? Он свободно доступен онлайн и полностью посвящен вашей задаче: Sentiment Analysis and Opinion Mining от Pang and Lee. Глава 4 («Извлечение и классификация») - это именно то, что вам нужно!

+1

Я не понимал, что он доступен бесплатно - я только что увидел вопрос и нашел pdf - я думаю, что это может быть интересно - я был немного отговорен, когда увидел цену на 99 долларов на Amazon - спасибо за вашу помощь.Я читаю его сейчас. –

+1

Добро пожаловать. Кстати, теперь, когда у вас есть более 15 баллов репутации, вы тоже можете делать upvotes, hehe ... ;-) – ferdystschenko

 Смежные вопросы

  • Нет связанных вопросов^_^