2016-11-28 6 views
1

Я делаю анализ настроений данных twitter в r. Но имейте больше повторных твитов в данных. влияет ли это на результат?в анализе настроений данных твиттера, повторные ретвиты наводняют результат?

RT @Ananduvi: поддержите ли вы #BharathBandh сегодня против #demonetization ???

RT @Ananduvi: поддержите ли вы #BharathBandh сегодня против #demonetization ???

если да! то как с этим справиться.? Я хочу удалить эти твиты из набора данных twitter.

text<- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", text) 

Этот код удаляет только имя человека, но остается твитом, как есть.

Буду рад, если вы поможете мне.

+0

Определенно это повлияет на результат. Мы можем проверить идентификатор твита, связанный с каждым твитом. Удалите дубликаты идентификаторов. –

ответ

0

Если у вас есть твиты повторяющиеся, это исказит аналитику!

С API-интерфейсом Twitter у вас есть Tweets, возвращенный в формате JSON - вам нужно обработать поле «id» (или лучше поле «id_str») из «Чистого» в качестве уникального идентификатора и выбрать только отдельные экземпляры заданного « id "в вашей аналитике.

{"id": 123456789, "id_str": "123456789"} 

Если вы убедитесь, что у вас есть только один экземпляр каждого твита шпонкой на поле выше, вы сможете избежать этой проблемы.