Perplexity нібито знову сканує веб-сайти, які не повинен

Згідно з новим звітом компанії Cloudflare, веб-сканери, розгорнуті компанією Perplexity для сканування веб-сайтів, нібито обходять обмеження. Зокрема, у звіті стверджується, що боти компанії, схоже, “непомітно сканують” сайти, маскуючи свою ідентичність, щоб обійти файли robots.txt і брандмауери.

Robots.txt – це простий файл хосту веб-сайтів, який дозволяє веб-сканерам знати, чи можуть вони сканувати вміст веб-сайтів чи ні. Офіційними ботами Perplexity є “PerplexityBot” та “Perplexity-User”. У тестах Cloudflare Perplexity все ще міг відображати вміст нового, неіндексованого веб-сайту, навіть коли ці специфічні боти були заблоковані файлом robots.txt. Така поведінка поширювалася і на веб-сайти з певними правилами брандмауера веб-додатків (WAF), які обмежували роботу веб-сканерів.

Cloudflare вважає, що Perplexity обходить ці перешкоди, використовуючи “загальний браузер, призначений для імітації Google Chrome на macOS”, коли robots.txt забороняє його звичайних ботів. У тестах Cloudflare незадекларований краулер компанії також міг обертатися через IP-адреси, які не вказані в офіційному діапазоні IP-адрес Perplexity, щоб пройти крізь брандмауери. Cloudflare стверджує, що Perplexity, схоже, робить те ж саме з автономними системними номерами (ASN) – ідентифікатором для IP-адрес, якими керує одна і та ж компанія, – пишучи, що помітив, як кроулер перемикає ASN “через десятки тисяч доменів і мільйони запитів на день”.

Engadget звернувся до Perplexity за коментарем щодо звіту Cloudflare. Ми оновимо цю статтю, якщо отримаємо відповідь.

Актуальна інформація з веб-сайтів є життєво важливою для компаній, які навчають ШІ-моделі, особливо з огляду на те, що такі сервіси, як Perplexity, використовуються як заміна пошуковим системам. У минулому Perplexity також ловили на тому, що він обходив правила, щоб залишатися актуальним. У 2024 році кілька веб-сайтів повідомили, що Perplexity все ще отримує доступ до їхнього контенту, незважаючи на заборону в robots.txt – компанія звинуватила в цьому сторонніх веб-сканерів, які вона використовувала в той час. Пізніше Perplexity уклала партнерство з кількома видавцями, щоб ділитися доходами, отриманими від реклами, що відображається поряд з їхнім контентом, начебто в якості компенсації за свою минулу поведінку.

Заборона компаніям вилучати контент з Інтернету, швидше за все, залишиться грою в “вбити крота”. Тим часом Cloudflare видалила ботів Perplexity зі свого списку перевірених ботів і впровадила спосіб ідентифікації та блокування стелс-краулерів Perplexity від доступу до контенту своїх клієнтів.