Разработка NLTK Остановить слова, слова и слова слова для языка Синдхи

-2

У меня возникла проблема с разработкой NLTK стоп-слов словаря для языка синдхи с использованием среды Python jupyter. Язык синдхи походит на арабский язык. Я прошу любезно помочь мне в том, что я могу развить NLTK Sindhi, останавливая и останавливая слова для кластеризации и анализа.Разработка NLTK Остановить слова, слова и слова слова для языка Синдхи

источник

2017-02-13 user103987

Это не служба написания кода или учебная служба. Только * конкретные * вопросы программирования по теме. –

Мы просим вас показать свои попытки решения с помощью кода с [править] на ваш вопрос. –

См. [Почему «Может кто-то мне помочь?» Не вопрос?] (Http://meta.stackoverflow.com/q/284236) – EJoshuaS

Сначала вы должны разработать штокмер, так как вы можете использовать это, чтобы автоматически развернуть список стоп-слов. Чтобы помочь вам развить стволовые клетки, используйте систему Snowball, разработанную моим Мартином Портером, изобретателем стволовых клеток Портера, который является наиболее широко используемым стеблем на английском языке.

После того, как у вас есть ваш стебельщик, вы можете автоматически создавать список слов, используя горные тексты и применяя закон Zipf. Алгоритм:

Создание списка вытекает срок частот от корпуса
сортировать их в порядке убывания и ранжировать их
Нарисуйте график частот - он должен подчиняться закону Ципфа
Выбрать порог и лечить любые слова выше этого порога, как игнорируемых слов
Запрос система с множеством стоп-слов и оценки точности
повторить при необходимости

Четыре популярных меры термина частоты (поиск для них) являются:

Term Frequency (TF)
Нормированной Term Frequency
Inverse частота документа (IDF)
Нормированной Inverse Частота документа

Недавнее исследование сосредоточилось на использовании Кула lback-Leibler в качестве индикатора того, насколько информативным является слово (менее информативное - скорее всего, это временное слово). Вы можете изучить это.

источник

2017-02-13 21:34:41

Разработка NLTK Остановить слова, слова и слова слова для языка Синдхи

ответ

Смежные вопросы