2015-09-09 6 views
-1

Предположим, у меня есть сайт WordPress со многими блогами. Я обнаружил, что кто-то там копирует содержимое каждой страницы моего сайта и вставляет его на свой сайт. Я полагал, что он не делает это вручную, поскольку сумма огромна. И я пытаюсь воспроизвести то, что он сделал, и я нахожу, что на самом деле для меня довольно легко сделать то же самое, используя php curl и некоторый Dom Parsing (давая мне знать имя класса, где находится полезный текст).Могу ли я предотвратить программную выборку содержимого с моего сайта?

Могу ли я иметь какие-либо способы предотвратить это или, по крайней мере, сделать это труднее для них сделать это в будущем? Благодаря!

+0

Несмотря на понижение, я не думаю, что это невозможно, по крайней мере, увеличить сложность для него. Я могу скрутить мой сайт, но для некоторых художественных сайтов в Китае я могу получить мусор через завиток.Они не используют JavaScript для разборки скремблированного теста, как это было предложено в ответе, так как даже если я отключу JS в своем браузере, я могу без проблем просматривать обычную версию сайта. Я постараюсь понять, как они это достигают, и может опубликовать ответ, если найду его. – user2335065

ответ

1

Помните, что любая информация, которую вы публикуете для зрителей вашего сайта, всегда извлекается программно. Все веб-браузеры подключаются к веб-серверу и запрашивают информацию, используя HTTP.

Вы можете попытаться заблокировать пользовательский агент любого программного обеспечения, которое он использует (если он вообще предоставляет пользовательский агент), но это, вероятно, будет напрасно. Ваши сообщения в блоге публикуются публично, потому что вы намерены их читать. Как только эта информация будет на стороне клиента, вы не сможете контролировать ее.

+0

Блокировка IP-адреса может быть более эффективной. Изменение пользовательского агента, вероятно, тривиально, если предположить, что он уже не использует общий. –

+0

Как блокирует IP-адрес, действительно. Оба являются краткосрочными мерами для долгосрочной проблемы. –

0

Если человек, отказывающийся от вашего сайта, не выполняет большую конфигурацию через cURL, тогда вы можете использовать синтаксический анализ строки пользовательского агента, чтобы обнаружить пользователя cURL и выбросить 404 или сделать любой другой вид обработки, который вы хотите сделать. (Дополнительная информация: http://www.useragentstring.com/pages/curl/)

Имейте ввиду, что cURL позволяет обрабатывать запросы и позволяет обманывать ваш пользовательский агент и большинство других деталей веб-запроса, чтобы он стал неотличимым от обычного веб-трафика.

Кроме этого, вы можете заблокировать IP-адрес конкретного человека, но это очень специфическое исправление и не затрагивает более широкую проблему любого, кто отказывается от содержимого.

1

Поскольку браузеры просто загружают ваш контент, чтобы показать его пользователю, вы действительно ничего не можете сделать, чтобы полностью его предотвратить.

Есть вещи, которые вы можете сделать, чтобы сделать его более сложным, но они также увеличивают риск того, что ваши обычные читатели столкнутся с некоторыми проблемами.

Вот некоторые идеи, которые я видел в прошлом:

  1. Изображения: Не подходит для полных статей, но по-прежнему популярные вещи, как адреса электронной почты: Не помещайте текст, но некоторое изображение текста.

  2. опубликовать некоторую скремблированную версию, которая затем получает unscrambled с javascript. Если кто-то тянет контент с завитом или похожим, он не выполнит javascript и получит только мусор.

  3. Мутирующие изображения. Часто эти копии кошек извлекают изображения и другие носители из исходного источника. Вы можете использовать реферер на своем сервере для обслуживания разных изображений, например. изображение с сообщением «Этот контент был украден с ...»

  4. Нанять адвоката и подать в суд на них. Может быть трудно, особенно если речь идет о международном праве, но я видел, как это сделано успешно.