Как веб-Сайты Обнаруживают Веб-Скребок

Веб-скребок (бот) и людей можно различать в зависимости от их особенностей или их деятельности. Веб-страницы или службы защиты от соскабливания изучают функции и действия пользователей, посещающих веб-страницу, чтобы определить тип пользователя.Эти инструменты и продукты создают базовые или подробные цифровые отпечатки пальцев на основе характеристик и взаимодействия этих посетителей с веб-сайтом. Все эти данные собираются, и каждому посетителю присваивается вероятность того, что он является человеком или веб-скребком (ботом), и ему либо разрешен доступ к веб-сайту, либо отказано в доступе.Это обнаружение выполняется либо с помощью установленного программного обеспечения, либо поставщиками услуг, включающими эту услугу в свой сервис типа CDN, либо в чисто облачные предложения по подписке, которые перехватывают весь трафик на веб-сайт, прежде чем разрешить доступ кому-либо.Где Сайт может Обнаружить БотаОбнаружение может быть выполнено на стороне клиента i.e. в вашем браузере или на веб-сервере или с помощью обоих этих механизмов. Веб-сервер может использовать встроенное программное обеспечение для обнаружения бота, или они могут использовать поставщиков услуг, таких как AWS или Google cloud. Поскольку это обнаружение основано на вероятности, определенной с учетом различных факторов, оно может пойти не так. Иногда он может блокировать подлинных пользователей и разрешать ботам заходить на веб-страницу.Давайте рассмотрим обе эти техники подробно:Обнаружение ботов на стороне сервераЭтот тип обнаружения происходит на веб-сервере с помощью программного обеспечения или поставщика веб-услуг. Весь трафик направляется через сервер этого программного обеспечения или поставщика услуг, и только подлинным пользователям разрешено фактически попасть на исходный веб-сервер.Существует множество способов сделать такое обнаружение следующим образом:Дактилоскопия HTTP:HTTP-дактилоскопия выполняется путем сканирования некоторой основной информации, отправляемой браузером, например, агентом пользователя, заголовков запросов, таких как файлы cookie, ссылка, кодировка браузера, сжатие gzip и т. Д. Самым важным и простым способом обнаружения является IP – адрес пользователя.Снятие отпечатков пальцев TCP/IP:Любые данные, которые мы отправляем на веб-сервер, отправляются в виде пакетов по протоколу TCP/IP. Эти пакеты содержат такие сведения, парсер yandex как начальный размер пакета, TTL, размер окна браузера, размер сегмента, значение масштабирования окна, флаг «sackOk», флаг «nop» и т.д. Все эти детали объединяются, чтобы создать уникальную подпись машины, которая может помочь в поиске бота.Мониторинг веб-активности и обнаружение паттернов:После создания удостоверения личности с использованием всех перечисленных выше методов детекторы ботов могут отслеживать активность пользователей на веб-сайте или на ряде веб-парсинг сайтов программа, использующих одни и те же службы обнаружения ботов, и если обнаруживается какая-либо необычная активность, например, превышающая обычные запросы, которые могут быть сделаны только ботом. Если пользователь идентифицирован как бот, веб-сайт может попросить решить КАПЧУ, в случае неудачи пользователя его можно пометить или заблокировать.Обпарсер на заказружение Ботов На Стороне КлиентаПоскольку обнаружение ботов на стороне клиента проще, большинство веб-парсер сайтов в excel используют обе технологии. На стороне клиента любой запрос, поступающий не через подлинный браузер, мгновенно блокируется. Самый простой способ определить, поступает ли запрос от бота, – это проверить, может ли он отображать блок java-скрипта. Во всех браузерах включен javascript, в то время как запрос, отправленный лодкой, такой как модуль запроса, не может отображать javascript.В таких случаях необходим настоящий браузер, чтобы получить доступ к веб-странице и парсить ее. Есть библиотеки, парсер для сайта такие как selenium, puppeteer и т. Д., Которые могут управлять реальным веб-браузером, таким как chrome, и выполнять очистку.Обнаружение на стороне клиента происходит путем создания отпечатка пальца с использованием нескольких атрибутов реального браузера, таких как:Агент пользователяТекущий языкНе Отслеживать СтатусПоддерживаемые функции HTML5Поддерживаемые правила CSSФункции Javascript, которые поддерживалиПлагины, установленные в браузереРазрешение экрана, Глубина ЦветаЧасовой поясОперационная СистемаКоличество ядер процессораНазвание поставщика графического процессора и Механизм рендерингаКоличество точек соприкосновенияПоддержка различных типов хранилища в браузереХэш холста HTML5Список шрифтов, установленных на компьютереИспользуя все эти методы, веб-сайт может обнаружить бота. Но опять же, по мере того, как веб-сайты становятся умнее в обнаружении ботов, то же самое делает и веб-скребок. Экспертные службы веб-очистки могут имитировать браузер с использованием selenium или использовать прокси-серверы, ротацию IP-адресов, службы решения капчи и т.д., Чтобы обойти все контрольные точки. Это постоянная борьба между веб-сайтами и скребками, и оба они постоянно разрабатывают новые способы противодействия друг другу. Узнайте больше о том, как использовать файлы cookie и сеансы в веб-очистке Python.

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *