2016-04-29 4 views
1

Когда я использую Stanford Parser для разбора таких предложений, как: «Jirí Hubac - это жемчужина». «Исследование абсорбирующего персонажа Андре Турпином».Как разобрать предложение, которое является многоязычным?

Это вызывает внутреннюю ошибку.

Как бороться с такой ситуацией, что предложение является многоязычным?

ответ

1

Используя полный Stanford CoreNLP инструментарий доступен здесь:

http://stanfordnlp.github.io/CoreNLP/

Я выполнил эту команду:

java -Xmx6g -cp "stanford-corenlp-full-2015-12-09/*" edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,parse -file example.txt -outputFormat text 

У него не было никаких проблем при разборе ваш пример предложения и выход может быть найден в file: example.txt.out

Не могли бы вы предоставить команду, которую вы выпустили, и ошибку, которую вы получили при попытке запустить по этому предложению?

+0

@StanfodNLPHelp Я использую интерфейс Python, указанный в [link] (https://github.com/dasmith/stanford-corenlp-python) только с предоставленной командой 'code server.parse (' some sentence ')' inline 'code in backticks' – Matthew

+0

Я бы не использовал эту оболочку Python. Вы можете попробовать использовать сервер Stanford CoreNLP: http://stanfordnlp.github.io/CoreNLP/corenlp-server.html и использовать эту оболочку Python: https://github.com/smilli/py-corenlp ... хотя я должен заметить, что если вы просто хотите обработать множество предложений, вы можете просто использовать команду, указанную выше в вызове os.system(), а затем обработать вывод ... если вы используете «-outputFormat json» вместо текста наш инструментарий выведет json обработанных предложений – StanfordNLPHelp

+0

@StanfodNLPHelp Это очень помогает мне. Кроме того, как я могу получить бинаризованное дерево синтаксического анализа из Stanford Parser? Есть ли какие-то параметры для этого? Спасибо! – Matthew