
Image by Oberon Copeland, from Unsplash
Боти ШІ перевантажують сервери Вікіпедії
Фонд Wikimedia висловлює стурбованість через зростаючий тиск на свої сервери через автоматизоване скрапінг даних ботами для тренування моделей штучного інтелекту.
У поспіху? Ось основні факти:
- AI боти збирають контент з Wikimedia на рекордних рівнях.
- Боти спричинили зростання використання мультимедійної пропускної здатності на 50%.
- 65% дорогого трафіку тепер надходить від сканерів.
Фонд повідомив у своєму недавньому пості, що машинно-генерований трафік продовжує зростати з небувалими темпами, тоді як люди складають лише невелику частину цього трафіку.
“З січня 2024 року ми спостерігаємо зростання пропускної здатності, використовуваної для завантаження мультимедійного контенту, на 50%”, – говориться в повідомленні.
“Це зростання не зумовлене людськими читачами, а в основному автоматизованими програмами, які сканують каталог зображень Wikimedia Commons з відкритою ліцензією, щоб надавати зображення AI моделям”, – додається в повідомленні.
Боти, відомі як роботи-переглядачі, вкрадають великі обсяги даних з проектів Вікімедіа, включаючи Вікіпедію та Вікімедіа Коммонс, без належного визнання або офіційних інструментів доступу. Цей процес ускладнює новим користувачам виявлення Вікімедіа та створює надмірне навантаження на їхні технічні системи.
Наприклад, повідомлення вказує, що сторінка Джиммі Картера в Вікіпедії отримала понад 2,8 мільйони переглядів за день його смерті у грудні 2024 року. Відео з дебатів 1980 року спричинило значне збільшення трафіку на вебсайті. Відео з його дебатів 1980 року також спровокувало пік трафіку. Вікімедіа впоралася з цим – але тільки-но. Справжня проблема, за словами інженерів, полягає в постійному потоці трафіку від ботів.
“65% нашого найбільш дорогоцінного трафіку приходить від ботів,” – написала Фундація. Боти “масово читають” контент, особливо менш популярні сторінки, що викликає дорогі запити до основних дата-центрів Wikimedia.
Хоча контент Wikimedia є безкоштовним для використання, його сервери – ні. “Наш контент безкоштовний, наша інфраструктура – ні”, – сказала Фундація. Команда продовжує розробляти методи підтримки “відповідного використання інфраструктури”, заохочуючи розробників використовувати API, замість скрапінгу всього сайту.
Проблема впливає як на Вікімедіа, так і на численні інші веб-сайти та видавці. Проте для найбільшої в світі платформи відкритих знань, вона загрожує стабільності сервісів, на які покладаються мільйони людей.
Лишити коментар
Скасувати