Я хотел бы использовать структурированную информацию, которую я имею в форме XML для обучения модели CRF для пакета Stanford NLP. XML выглядит примерно так:Преобразование XML для использования в качестве учебного набора для распознавания именных имен (NER)
<dates>
<date>Advance Access publication on
<month>July</month>
<day>11</day>,
<year>2007</year>
</date>
</dates>
По http://nlp.stanford.edu/software/crf-faq.shtml#a я мог бы использовать
java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer sample.xml > date.tok
, чтобы мои жетоны. Но как я могу использовать инкапсуляцию XML, чтобы автоматически пометить мои токены соответствующим классом?
Есть ли такая поддержка/процесс в пакете NLP в Stanford, или мне лучше писать свой токен-файл вручную (например, с помощью XSLT)?