в анализе настроений данных твиттера, повторные ретвиты наводняют результат?

Я делаю анализ настроений данных twitter в r. Но имейте больше повторных твитов в данных. влияет ли это на результат?в анализе настроений данных твиттера, повторные ретвиты наводняют результат?

RT @Ananduvi: поддержите ли вы #BharathBandh сегодня против #demonetization ???

RT @Ananduvi: поддержите ли вы #BharathBandh сегодня против #demonetization ???

если да! то как с этим справиться.? Я хочу удалить эти твиты из набора данных twitter.

text<- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", text)

Этот код удаляет только имя человека, но остается твитом, как есть.

Буду рад, если вы поможете мне.

источник

2016-11-28 K.Ḵṝựshna

Определенно это повлияет на результат. Мы можем проверить идентификатор твита, связанный с каждым твитом. Удалите дубликаты идентификаторов. –

Если у вас есть твиты повторяющиеся, это исказит аналитику!

С API-интерфейсом Twitter у вас есть Tweets, возвращенный в формате JSON - вам нужно обработать поле «id» (или лучше поле «id_str») из «Чистого» в качестве уникального идентификатора и выбрать только отдельные экземпляры заданного « id "в вашей аналитике.

{"id": 123456789, "id_str": "123456789"}

Если вы убедитесь, что у вас есть только один экземпляр каждого твита шпонкой на поле выше, вы сможете избежать этой проблемы.

источник

2016-11-28 15:30:53

в анализе настроений данных твиттера, повторные ретвиты наводняют результат?

ответ

Смежные вопросы