Данные обучения для фишинговых или спамовых твитов

Я хочу сделать обнаружение фишинга/спама в твиттере. У меня есть около 500 000 твитов через Streaming API, предоставляемый твиттером. Затем я извлекаю URL-адрес в этих твитах и отправляю их двум черным спискам - Google safebrowsing и Phishtanks, чтобы получить базовую оценку того, является ли это фишинговой ссылкой или нет. Проблема здесь в том, что, согласно моим результатам эксперимента, я не могу получить достаточно образцов фишингового твита. Есть ли какие-либо существующие данные твита, которые уже были отмечены как злонамеренные/нормальные, чтобы я мог продолжить свою работу?Данные обучения для фишинговых или спамовых твитов

источник

2015-02-09 Charlotte

Черный список URL не работает, потому что есть латентность. u может использовать приостановленную учетную запись как ярлык, но вы должны обратить внимание на то, что не все заблокированные аккаунты являются фишинговыми аккаунтами.

источник

2016-06-27 12:19:06

Данные обучения для фишинговых или спамовых твитов

ответ

Смежные вопросы