То, что вы описываете, это на самом деле очень сложная задача, так как в конце концов, была ли ваша программа успешно или не является полностью субъективной мерой. Когда это так, обычно это означает, что создание программы для решения проблемы сложно. Есть люди, которым платят за работу над этими проблемами в университетах.
Если вы хотите нанести удар, я бы попробовал использовать какой-либо инструмент в автоматическом лексическом аналитическом инструменте вместо того, чтобы пытаться вручную анализировать и комментировать, а затем использовать ваше дерево синтаксического анализа. Обычно синтаксические анализы представляют собой синтаксические анализы, т. Е. Структуру предложения. Вы, с другой стороны, скорее озабочены семантическим анализом, то есть тем, что это значит, или, по крайней мере, являются ли два предложения похожими или разными (что на самом деле немного проще, чем что-то означает).
Вы можете изучить некоторые готовые автоматические инструменты для сводки. Они пытаются набрать предложения, насколько важны они для части текста и отфильтровывать предложения, которые менее важны, чем заданный порог. Не то, чтобы это действительно помогло вам так сильно, как вы все еще испытываете проблему необходимости слияния резюме.
Что вы пытаетесь выполнить, точно? Вам действительно нужен семантический разбор или просто лексический анализ? Что такое диграмм, который вы пытаетесь создать? –
В конечном счете, я хочу иметь возможность создать «дерево», которое представляет данные в тексте. Как только я это сделаю, тогда я смогу сделать то же самое для другого фрагмента текста (по одной теме - скажем, лекции) и сравните, где они похожи/разные и включают различия. Это может в конечном итоге дать «дерево», которое имеет наиболее точное представление этой лекции. – inspectorG4dget