2017-02-13 10 views
-2

У меня возникла проблема с разработкой NLTK стоп-слов словаря для языка синдхи с использованием среды Python jupyter. Язык синдхи походит на арабский язык. Я прошу любезно помочь мне в том, что я могу развить NLTK Sindhi, останавливая и останавливая слова для кластеризации и анализа.Разработка NLTK Остановить слова, слова и слова слова для языка Синдхи

+1

Это не служба написания кода или учебная служба. Только * конкретные * вопросы программирования по теме. –

+0

Мы просим вас показать свои попытки решения с помощью кода с [править] на ваш вопрос. –

+0

См. [Почему «Может кто-то мне помочь?» Не вопрос?] (Http://meta.stackoverflow.com/q/284236) – EJoshuaS

ответ

1

Сначала вы должны разработать штокмер, так как вы можете использовать это, чтобы автоматически развернуть список стоп-слов. Чтобы помочь вам развить стволовые клетки, используйте систему Snowball, разработанную моим Мартином Портером, изобретателем стволовых клеток Портера, который является наиболее широко используемым стеблем на английском языке.

После того, как у вас есть ваш стебельщик, вы можете автоматически создавать список слов, используя горные тексты и применяя закон Zipf. Алгоритм:

  1. Создание списка вытекает срок частот от корпуса
  2. сортировать их в порядке убывания и ранжировать их
  3. Нарисуйте график частот - он должен подчиняться закону Ципфа
  4. Выбрать порог и лечить любые слова выше этого порога, как игнорируемых слов
  5. Запрос система с множеством стоп-слов и оценки точности
  6. повторить при необходимости

Четыре популярных меры термина частоты (поиск для них) являются:

  • Term Frequency (TF)
  • Нормированной Term Frequency
  • Inverse частота документа (IDF)
  • Нормированной Inverse Частота документа

Недавнее исследование сосредоточилось на использовании Кула lback-Leibler в качестве индикатора того, насколько информативным является слово (менее информативное - скорее всего, это временное слово). Вы можете изучить это.

 Смежные вопросы

  • Нет связанных вопросов^_^