2015-06-18 2 views
0

Я не эксперт в области машинного обучения, поэтому постараюсь быть максимально точным ...Именованное распознавание сущностей. Нужен ли нам внешний список для соответствия результатам?

В настоящее время я анализирую финансовые документы, которые предоставляют информацию о конкретном фонде. То, что я хотел бы сделать, - это получить название фонда.

Для этого я использую Named Entity Recognition (NER) на платформе Azure Machine Learning. После анализа ок. 100 документов, я получаю результаты, классифицированные как организации. В большинстве случаев это действительно организации. Это здорово, но моя проблема в том, что название фонда также классифицируется как организация. Я не могу различать название компании и название фонда.

С некоторых чтений в Интернете я мог обнаружить, что система Gazette может помочь, чтобы мы смогли сопоставить признанные организации с перечнем средств и, следовательно, удостовериться, что у нас есть имя фонда.

Считаете ли вы, что это будет хороший подход? Или есть ли какой-либо другой алгоритм, который я должен попытаться улучшить результаты?

Спасибо за любое предложение!

ответ

1

NER берет свое начало в определении текста, определяющего широкие семантические категории, такие как имена людей или организаций (компаний) в вашем случае. Читая описание вопроса, я не думаю, что это проблема, которую вы действительно хотите решить. В частности вы упомянули:

, что система Gazette может помочь, чтобы мы могли соответствовать признанным организациям по списку фондов

Я подозреваю, что проблема, которую вы действительно хотите решить это один из семантической совместимости - вы хотите, чтобы текст из вашей программы НЛП соответствовал списку, который у вас есть, который является частью другой системы. В этом случае единственно приемлемым способом решения вашей проблемы является отображение всего текста ввода в список/общий стандарт, т. Е. Использование справочника географических названий. Итак, вы на правильном пути.

Единственное предостережение заключается в том, что если вам требуется только, необходимо различать средства и другие типы организаций - без необходимости сопоставлять результаты со списком. Если это так, вы пишете классификатор, чтобы отличать средства от всего остального, и вы можете полностью исключить отображение в свой список. В противном случае используйте справочник географических названий.

+0

Спасибо, озборн за ваш ответ! Поэтому я сосредоточусь на справочнике и попробую классификатор. – DotNetMatt