У меня возникла проблема с разработкой NLTK стоп-слов словаря для языка синдхи с использованием среды Python jupyter. Язык синдхи походит на арабский язык. Я прошу любезно помочь мне в том, что я могу развить NLTK Sindhi, останавливая и останавливая слова для кластеризации и анализа.Разработка NLTK Остановить слова, слова и слова слова для языка Синдхи
ответ
Сначала вы должны разработать штокмер, так как вы можете использовать это, чтобы автоматически развернуть список стоп-слов. Чтобы помочь вам развить стволовые клетки, используйте систему Snowball, разработанную моим Мартином Портером, изобретателем стволовых клеток Портера, который является наиболее широко используемым стеблем на английском языке.
После того, как у вас есть ваш стебельщик, вы можете автоматически создавать список слов, используя горные тексты и применяя закон Zipf. Алгоритм:
- Создание списка вытекает срок частот от корпуса
- сортировать их в порядке убывания и ранжировать их
- Нарисуйте график частот - он должен подчиняться закону Ципфа
- Выбрать порог и лечить любые слова выше этого порога, как игнорируемых слов
- Запрос система с множеством стоп-слов и оценки точности
- повторить при необходимости
Четыре популярных меры термина частоты (поиск для них) являются:
- Term Frequency (TF)
- Нормированной Term Frequency
- Inverse частота документа (IDF)
- Нормированной Inverse Частота документа
Недавнее исследование сосредоточилось на использовании Кула lback-Leibler в качестве индикатора того, насколько информативным является слово (менее информативное - скорее всего, это временное слово). Вы можете изучить это.
Это не служба написания кода или учебная служба. Только * конкретные * вопросы программирования по теме. –
Мы просим вас показать свои попытки решения с помощью кода с [править] на ваш вопрос. –
См. [Почему «Может кто-то мне помочь?» Не вопрос?] (Http://meta.stackoverflow.com/q/284236) – EJoshuaS