Я просмотрел множество инструментов NLP с открытым исходным кодом (OpenNLP в первую очередь), и я не вижу ничего, что автоматизирует задачу обнаружения начала и конца диалога.Обнаружение начала и конца разделов диалога в прозе
Средства обнаружения предложений обнаруживают границы полного предложения. Токенизаторы точно обозначают пунктуацию, но не обнаруживают начало и конец. Я прочитал много научных статей (such as), где предполагается обнаружение диалогов. Но я не вижу никаких инструментов, которые автоматизируют это как обнаружение диалога общего назначения.
Например, текст, как это:
"I am happy," she said.
Должен иметь "Я счастлив," определяется как диалог. Текст так:
"This is a really long piece of dialog spoken by a character.
"That spans across multiple paragraphs."
должны иметь все это идентифицированный как диалог (даже если конец первого абзаца отсутствующей закрывающей кавычки). Также существуют более сложные способы указания диалога. Такие, как с прочерками:
They were walking when Joe spoke up.
--I really like walking.
Plus, часто внутренний диалог будет обозначаться курсивом, например:
Joe walked down the street. *I really hope I don't get hit by a bus.*
Есть ли инструмент NLP, который может обнаружить диалоговые разделы, как это? Или способ сделать это с OpenNLP, который я только что пропустил?
Я думаю, вы правы, что это не стандартная задача, для которой существуют уже существующие инструменты. – Aaron