Неподдерживаемая маркировка POS - очень интересная тема для новых исследований. Если я правильно понимаю, вы действительно спрашиваете, как оценить точность тегов, а не как отлаживать код. Оценка является известной проблемой при неконтролируемой индукции POS. Короткий ответ на ваш вопрос: get this annotated corpus от NLTK, затем сопоставьте свои состояния с тегами тела, сопоставив состояние с тегом, с которым он чаще всего сталкивается, и найдите процент правильных. Эта процедура оценки называется отображением «много-к-одному».
Вы должны ознакомиться с литературой, так как она ответит на ваши вопросы и многое другое. Вот несколько мест, чтобы начать:
ранний документ:
Марк Джонсон. 2007. Почему EM не находит хорошие HMM POS-метки? В материалах Совместной конференции 2007 года по эмпирическим методам в области обработки естественного языка и компьютерного обучения естественному языку (EMNLP-CoNLL), стр. 296-305.
Обзор бумага:
Christos Христодулопулоса, Шарон Goldwater и Марк Стидман. 2010. Два десятилетия неконтролируемой индукции POS: как далеко мы пришли? В Трудах EMNLP 2010
Когда вы говорите «без присмотра», вы должны спросить себя, хотите ли вы использовать только необработанный текст, или же хотите использовать словарь, например. Есть и работы по этому поводу.
Также есть код, доступный для выполнения задачи.
Другое место, где можно задать вопрос о НЛП: http://metaoptimize.com/qa.
Если у вас есть другие вопросы, не стесняйтесь спрашивать.
HI, Прежде всего, спасибо за ваш ответ и ссылки Я еще не на стадии оценки. Сейчас меня больше беспокоит точность моих методов внедрения. Из моего предыдущего опыта в реализации проблем с НЛП я узнал, что самая маленькая ошибка может привести к другому результату (может быть, из-за моего плохого стиля кодирования). В этом конкретном случае у меня нет контрольных точек образца, которые соответствуют, все, что у меня есть это корпорация Wall Street (корпорация с надписью и без маркировки), и моя цель эксперимента состоит в том, чтобы изучить некоторые неконтролируемые маркировки с различной конфигурацией параметров. – Irtiza
Во-первых, постарайтесь достичь 60% -ной точности с отображением много-к-одному. – cyborg
Спасибо :) .. это отличная идея :) .. – Irtiza