
Image by Marco Verch, from Ccnull
AI Лабіринт: новий інструмент Cloudflare обманює AI-переглядачі штучними веб-сторінками
Cloudflare оголосила про “AI Labyrinth”, інструмент, розроблений для боротьби з веб-скрейперами, які використовують штучний інтелект для витягування даних з веб-сайтів без дозволу.
У поспіху? Ось основні факти:
- Інструмент генерує реалістичний, але безглуздий контент, створений AI, щоб витрачати час скрейперів.
- AI Labyrinth бере на мішені ботів, які ігнорують robots.txt, включаючи тих, що належать Anthropic та Perplexity AI.
- Він функціонує як капкан нового покоління, виявляючи та встановлюючи відбитки несанкціонованих краулерів.
Замість того, щоб просто блокувати цих ботів, AI Labyrinth вводить їх в оману, зводячи в безкінечний лабіринт сторінок, створених штучним інтелектом, витрачаючи їх час та обчислювальну потужність.
“Коли ми виявляємо несанкціоноване сканування, замість блокування запиту, ми посилаємо на ряд сторінок, що генеруються AI, які достатньо переконливі, щоб спонукати сканер перебирати їх,” – пояснили в Cloudflare у блоґ-пості.
“Але, хоча вміст виглядає реалістично, це насправді не є вмістом сайту, який ми захищаємо, отже сканер витрачає час та ресурси,” – додали в Cloudflare.
ArsTechnica зазначає, що AI-скрейпери становлять проблему, оскільки вони збирають величезні обсяги даних з веб-сайтів, часто без дозволу, для навчання AI-моделей. Це створює декілька проблем: це може порушувати права інтелектуальної власності, обходячи контролі, які власники веб-сайтів використовують для регулювання доступу.
Крім того, скрейпінг може призвести до неправильного використання конфіденційних або власних даних. Обсяг скрейпінгу значно збільшився, з Cloudflare, який щодня отримує понад 50 мільярдів запитів від скрейперів.
Це масштабне витягування даних виснажує ресурси веб-сайтів, впливаючи на їхню продуктивність та приватність, а також підсилює зростаючу тривогу щодо експлуатації даних у розробці AI.
Традиційно власники веб-сайтів покладаються на файл robots.txt, щоб повідомити ботам, до чого вони можуть і не можуть мати доступ. Однак багато компаній AI, включаючи таких великих гравців, як Anthropic та Perplexity AI, звинувачують у тому, що вони ігнорують ці директиви, як повідомляє The Verge.
AI-лабіринт Cloudflare пропонує більш агресивний підхід до вирішення проблеми з небажаними ботами. Цей інструмент функціонує як “медовий горщик нового покоління”, заманюючи ботів глибше в штучну мережу контенту, який виглядає реальним, але в кінцевому підсумку є абсолютно непридатним для тренування AI.
На відміну від традиційних медових горщиків, які боти вже навчилися ідентифікувати, AI-лабіринт створює реалістично виглядаючу, але нерелевантну інформацію за допомогою AI-платформи Workers від Cloudflare.
“Жодна реальна людина не зануриться на чотири рівні в лабіринт безглуздя, створеного штучним інтелектом,” – зазначила Cloudflare. “Будь-який відвідувач, який це робить, найімовірніше, є ботом, отже, це дає нам зовсім новий інструмент для ідентифікації та виявлення шкідливих ботів.”
Контент, створений штучним інтелектом, розроблений таким чином, щоб бути науково достовірним, але не пов’язаним з реальним сайтом, який захищається.
Це гарантує, що інструмент не сприяє поширенню дезінформації, але при цьому вводить в оману AI-сканери. Оманливі сторінки невидимі для людських відвідувачів і не впливають на рейтинги пошукових систем.
AI Labyrinth доступний як безкоштовна функція за бажанням для всіх користувачів Cloudflare. Адміністратори веб-сайтів можуть активувати його через свою панель керування Cloudflare в налаштуваннях управління ботами.
Компанія описує це лише як початок заходів протидії, які обумовлені штучним інтелектом, з планами на майбутнє робити сторінки-підробки ще більш обманливими.
Гра в “кіт-миша” між сайтами та скреперами, що працюють на основі штучного інтелекту, продовжується, причому Cloudflare використовує новаторський підхід для захисту онлайн-контенту. Однак, залишаються питання про те, наскільки швидко компанії, що працюють в галузі штучного інтелекту, адаптуються до цих пасток, і чи може ця стратегія призвести до ескалації боротьби за дані в Інтернеті.
Лишити коментар
Скасувати