2009-11-08 9 views
0

Я пытаюсь разобрать текст и нарисовать его, как и предложение. Я новичок в NLTK и пытаюсь найти что-то в NLTK, которое поможет мне в этом. До сих пор я видел nltk.ne_chunk и nltk.pos_tag. Я считаю, что они не очень полезны, и я не могу найти хорошую онлайн-документацию.chunking/text parsing using NLTK

Я также попытался использовать LancasterStemmer, но я не совсем понимаю, что он делает или как он должен использоваться или почему он существует.

Может кто-нибудь, пожалуйста, помогите мне с этим? Я действительно в растерянности и разочаровываюсь без каких-либо направляющих огней.

Заранее спасибо

+0

Что вы пытаетесь выполнить, точно? Вам действительно нужен семантический разбор или просто лексический анализ? Что такое диграмм, который вы пытаетесь создать? –

+0

В конечном счете, я хочу иметь возможность создать «дерево», которое представляет данные в тексте. Как только я это сделаю, тогда я смогу сделать то же самое для другого фрагмента текста (по одной теме - скажем, лекции) и сравните, где они похожи/разные и включают различия. Это может в конечном итоге дать «дерево», которое имеет наиболее точное представление этой лекции. – inspectorG4dget

ответ

1

То, что вы описываете, это на самом деле очень сложная задача, так как в конце концов, была ли ваша программа успешно или не является полностью субъективной мерой. Когда это так, обычно это означает, что создание программы для решения проблемы сложно. Есть люди, которым платят за работу над этими проблемами в университетах.

Если вы хотите нанести удар, я бы попробовал использовать какой-либо инструмент в автоматическом лексическом аналитическом инструменте вместо того, чтобы пытаться вручную анализировать и комментировать, а затем использовать ваше дерево синтаксического анализа. Обычно синтаксические анализы представляют собой синтаксические анализы, т. Е. Структуру предложения. Вы, с другой стороны, скорее озабочены семантическим анализом, то есть тем, что это значит, или, по крайней мере, являются ли два предложения похожими или разными (что на самом деле немного проще, чем что-то означает).

Вы можете изучить некоторые готовые автоматические инструменты для сводки. Они пытаются набрать предложения, насколько важны они для части текста и отфильтровывать предложения, которые менее важны, чем заданный порог. Не то, чтобы это действительно помогло вам так сильно, как вы все еще испытываете проблему необходимости слияния резюме.

+0

Спасибо. Прямо сейчас, я пытаюсь получить синтаксическую структуру предложения, чтобы позже я смог выполнить семантический анализ. Скажите, пожалуйста, если я пойду в неправильном направлении, потому что я все еще студент и не эксперт и буду благодарен за такую ​​обратную связь. В любом случае вы бы посоветовали какой-нибудь конкретный инструмент/модуль nltk, чтобы помочь с этим? – inspectorG4dget

+0

Если бы я должен был выполнить эту задачу, я не уверен, что буду разбираться в синтаксическом разборе. Я думаю, что вам лучше использовать статистический подход, который обычно использует подход к сумме слов (или аналогичный). Вот как это звучит, просто рассматривая каждое предложение как кучу слов и не беспокоясь о позиционировании слов. Некоторые технологии, которые могут вам помочь, - это основанные на кластерах подходы и, возможно, TF-IDF. Возможно, прочитайте их и посмотрите, думаете ли вы, что они могут вам помочь. NLTK имеет модули для обоих. – nedned

+0

Спасибо, скромный кофе. Возможно ли, что вы могли бы указать мне на какой-либо конкретный модуль nltk? Возможно, что-то, что вы использовали и думаете, может быть уместным для моей проблемы? – inspectorG4dget