Я делаю анализ настроений данных twitter в r. Но имейте больше повторных твитов в данных. влияет ли это на результат?в анализе настроений данных твиттера, повторные ретвиты наводняют результат?
RT @Ananduvi: поддержите ли вы #BharathBandh сегодня против #demonetization ???
RT @Ananduvi: поддержите ли вы #BharathBandh сегодня против #demonetization ???
если да! то как с этим справиться.? Я хочу удалить эти твиты из набора данных twitter.
text<- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", text)
Этот код удаляет только имя человека, но остается твитом, как есть.
Буду рад, если вы поможете мне.
Определенно это повлияет на результат. Мы можем проверить идентификатор твита, связанный с каждым твитом. Удалите дубликаты идентификаторов. –