По сути, браузеры просто запрашивают огромную базу данных Google известных сайтов вредоносных программ для рассматриваемого URL/домена.
Как Google создает эту базу данных по-другому. Они, вероятно, работают вместе с различными исследователями и антивирусными продуктами для обнаружения уже известных угроз. Кроме того, у них, вероятно, есть автоматическое обнаружение «подозрительных» URL-адресов или содержимого документа (триггеры Flash, PDF, Java или браузера, шелл-код, ROP-цепочки, скрипты с использованием кучи) .... В конце концов, они уже должны смотреть на все содержимое для индексации, поэтому они могут легко выполнять относительно сложный анализ. Они также знают URL-адреса, на которые указывают спам и фишинг-письма через их почтовую службу. То, что они, вероятно, не делают, - это анализ ручного вредоносного ПО с использованием песочницы и т. Д., Это работа охранных/антивирусных компаний.
Итак, в целом, это довольно сложная задача. И нет, нет единого скрипта Python, который выполняет эту работу (хотя, если вы действительно заинтересованы в этом, вы обнаружите, что на самом деле существует множество небольших вспомогательных скриптов, а также более сложные структуры, написанные на динамических языках, таких как Ruby или Python). Некоторые проекты, которые вы могли бы смотреть на то, чтобы начать (и это на самом деле являются достаточно общими, чтобы быть очень полезным для других задач, а):
Возможно, они также используют антивирусное программное обеспечение. –
@NiklasB. Неа! Антивирусы превышают рейтинги. – Ufoguy
@Ufoguy: Да, особенно для обнаружения вредоносных программ. –