2011-12-04 9 views
1

Я работаю над проектом, частью которого является разработка неконтролируемого тренера HMM для тегов POS, который я теперь хочу проверить на возможные ошибки.Отладка реализации алгоритма Baum Welch (для маркировки POS)

Я использую алгоритм Baum-Welch для обучения модели. Входы представляют собой слова последовательности (взятые из корпуса), а выходы представляют собой последовательность скрытых состояний из набора состояний (s1, s2, ... sn). Теперь я закончил с кодировкой, но я не уверен, что это ошибка.

Может ли кто-нибудь предложить мне некоторые идеи отладки? Как и в каких случаях я должен проверять выходные данные? Как проверить точность моего алгоритма?

ответ

1

Неподдерживаемая маркировка POS - очень интересная тема для новых исследований. Если я правильно понимаю, вы действительно спрашиваете, как оценить точность тегов, а не как отлаживать код. Оценка является известной проблемой при неконтролируемой индукции POS. Короткий ответ на ваш вопрос: get this annotated corpus от NLTK, затем сопоставьте свои состояния с тегами тела, сопоставив состояние с тегом, с которым он чаще всего сталкивается, и найдите процент правильных. Эта процедура оценки называется отображением «много-к-одному».

Вы должны ознакомиться с литературой, так как она ответит на ваши вопросы и многое другое. Вот несколько мест, чтобы начать:

  • ранний документ:

    Марк Джонсон. 2007. Почему EM не находит хорошие HMM POS-метки? В материалах Совместной конференции 2007 года по эмпирическим методам в области обработки естественного языка и компьютерного обучения естественному языку (EMNLP-CoNLL), стр. 296-305.

  • Обзор бумага:

    Christos Христодулопулоса, Шарон Goldwater и Марк Стидман. 2010. Два десятилетия неконтролируемой индукции POS: как далеко мы пришли? В Трудах EMNLP 2010

Когда вы говорите «без присмотра», вы должны спросить себя, хотите ли вы использовать только необработанный текст, или же хотите использовать словарь, например. Есть и работы по этому поводу.

Также есть код, доступный для выполнения задачи.

Другое место, где можно задать вопрос о НЛП: http://metaoptimize.com/qa.

Если у вас есть другие вопросы, не стесняйтесь спрашивать.

+0

HI, Прежде всего, спасибо за ваш ответ и ссылки Я еще не на стадии оценки. Сейчас меня больше беспокоит точность моих методов внедрения. Из моего предыдущего опыта в реализации проблем с НЛП я узнал, что самая маленькая ошибка может привести к другому результату (может быть, из-за моего плохого стиля кодирования). В этом конкретном случае у меня нет контрольных точек образца, которые соответствуют, все, что у меня есть это корпорация Wall Street (корпорация с надписью и без маркировки), и моя цель эксперимента состоит в том, чтобы изучить некоторые неконтролируемые маркировки с различной конфигурацией параметров. – Irtiza

+0

Во-первых, постарайтесь достичь 60% -ной точности с отображением много-к-одному. – cyborg

+0

Спасибо :) .. это отличная идея :) .. – Irtiza