2016-07-20 11 views
1

Есть ли способ фильтровать уже обработанный набор данных только для текста на английском языке с использованием Python? Возможно, некоторые функции NLTK или что-то в этом роде. Данные были извлечены из Twitter, и это формат выглядит следующим образом:Фильтрация данных в формате Twitter только для текста на английском языке с использованием Python

<tweetid>, <username>, <userid> &8888 <tweet text> 

фильтрации потока не подходит, так как у меня исходные данные только в формате показано выше. Любая помощь будет оценена, спасибо.

ответ

1

Что вам нужно, это модуль определения языка.

from textblob import TextBlob  
textBlob('your tweet').detect_language() 
+0

Спасибо, это очень полезно. – mjackie