2013-09-29 5 views
4

У Penn Treebank tagset есть отдельный тег TO для слова 'to', независимо от того, используется ли он в предложении (например, I went to school) или в инфинитивном смысле (например, I want to eat). Какая цель это относится к общей точке зрения НЛП? Просто пометка бесконечности «на» отдельно делает интуитивный смысл, но я не вижу логики сочетания инфинитива и предлога в одном теге.Почему у Penn Treebank POS-метки есть отдельный тег для слова 'to'?

Благодарим и извини, если это не соответствует рекомендациям переполнения стека.

ответ

2

Различные корпуса обеспечивают различные уровни детализации. Сравните это, например, с British National Corpus, which includes three different tags за до.

Я полагаю, что это, возможно, стало собственностью практики тегирования корпусов, а не от такой конкретной цели производительности НЛП. Не так уж маловероятно, что это было дизайнерское решение POS Guidelines for the Penn Treebank Project. (Обращение авторов this paper для дальнейших разъяснений.)

Для того, чтобы POS множество ярлыков не иметь отдельный тег для слова «к», иногда нужно будет помечать «к» в качестве предлога, и иногда теги «to» с другим тегом для «инфинитивного маркера». Чтобы это произошло, человеку-тегереру пришлось бы устранить двусмысленность между двумя ролями «к». Некоторым tricky cases (которые требуют суждения о грамматичности) может потребоваться некоторое дополнительное человеческое время для устранения неоднозначности, что также может привести к некоторому ошибочному признанию с учетом размера тега. Этот компромисс, возможно, ошибся на стороне эффективности и правильности, если оценка информации (из-за степени детализации до) была оценена не так велика или если потенциальные ошибки мечения были оценены как слишком много.