2016-05-09 2 views
1

У меня есть файлы, полученные из CoreNLP в формате .conll, и я хочу десериализовать их в объект Annotation. Предоставляет ли CoreNLP метод CONLL-X DocumentReader для преобразования файла .conll в объект Annotation или мне нужно создать собственный DocumentReader?Как загрузить файл .conll в объект Annotation с помощью Corenlp?

ответ

1

Вы можете попробовать что-то вроде TSVSentenceIterator, которое читает предложения из форматированного TSV-файла в формате CoNLL.

Но обратите внимание, что количество аннотаций, зависающих от объекта Annotation, намного больше, чем количество столбцов в файле CoNLL (например, смещения символов и т. Д.), И поэтому эта сериализация не будет без потерь и может иметь неожиданное поведение, если вы хотите сохранить аннотацию объекта. Это не одна из официально поддерживаемых стратегий сериализации без потерь.

+0

Я загрузил проект, но я не могу найти метод, который принимает файл в качестве входных данных и возвращает объект аннотации в TSVSentenceIterator. – Gha93

+0

. Вы должны сами прочитать файл, а затем передать в список строк конструктору. –

+0

Таким образом, я должен отправить предложение файла предложением в 'public static Sentence toSentence (List fields, List entries)'. Где каждая строка в записях эквивалентна строке токена? – Gha93

 Смежные вопросы

  • Нет связанных вопросов^_^