У меня есть файлы, полученные из CoreNLP в формате .conll
, и я хочу десериализовать их в объект Annotation
. Предоставляет ли CoreNLP метод CONLL-X DocumentReader
для преобразования файла .conll
в объект Annotation
или мне нужно создать собственный DocumentReader?Как загрузить файл .conll в объект Annotation с помощью Corenlp?
1
A
ответ
1
Вы можете попробовать что-то вроде TSVSentenceIterator, которое читает предложения из форматированного TSV-файла в формате CoNLL.
Но обратите внимание, что количество аннотаций, зависающих от объекта Annotation, намного больше, чем количество столбцов в файле CoNLL (например, смещения символов и т. Д.), И поэтому эта сериализация не будет без потерь и может иметь неожиданное поведение, если вы хотите сохранить аннотацию объекта. Это не одна из официально поддерживаемых стратегий сериализации без потерь.
Я загрузил проект, но я не могу найти метод, который принимает файл в качестве входных данных и возвращает объект аннотации в TSVSentenceIterator. – Gha93
. Вы должны сами прочитать файл, а затем передать в список строк конструктору. –
Таким образом, я должен отправить предложение файла предложением в 'public static Sentence toSentence (List fields, List entries)'. Где каждая строка в записях эквивалентна строке токена? –
Gha93