2015-01-08 3 views
0

Я добывающие твиты, написанные только на английском языке, и я использовал следующий фильтрОшибка при фильтрации английские твиты языка только

stream.filter(stall_warnings=True, track=['#brain'], languages=['en']) 

Но, к сожалению, этот фильтр возвращает твит, который является сочетание английского и некоторых других языков

См. Твит here

Как извлечь твит, который написан только на английском языке?

Примечание: Извините, если это неправильно для ссылки на твиты другого.

ответ

0

Твиты разделены Twitterем на одном языке. Их классификация не всегда правильная. Если твит использует несколько языков, они просто назначают его одному из них.

Таким образом, вам нужно будет отфильтровать их в своем приложении со словарем или с помощью некоторых библиотек обнаружения языков, чтобы убедиться, что на полученных твитах используется только английский язык.

https://blog.twitter.com/2013/introducing-new-metadata-for-tweets