Reddit заблокує Internet Archive

Reddit виявив, що компанії, що займаються штучним інтелектом, крадуть його дані з Wayback Machine Інтернет-архіву. У зв’язку з цим платформа вирішила заблокувати індексацію своєї інформації в цьому сервісі. Wayback Machine більше не зможе переглядати сторінки деталей постів, коментарі чи профілі користувачів, а зможе лише індексувати домашню сторінку Reddit.com. Це означає, що Інтернет-архів зможе лише зберігати інформацію про популярні заголовки новин та пости за певний день.

Представник Reddit, Тім Ратшмідт, заявив, що Інтернет-архів виконує важливу функцію для відкритого вебу, але стали відомі випадки, коли компанії штучного інтелекту порушували політику платформи, зокрема й Reddit, шляхом збору даних з Wayback Machine.

Метою Інтернет-архіву є збереження цифрового архіву веб-сайтів та інших культурних артефактів. Wayback Machine дозволяє переглядати сторінки так, як вони виглядали у певні дати, але Reddit вважає, що не весь його контент повинен бути збережений таким чином. Ратшмідт зазначає, що поки Інтернет-архів не зможе захистити свій сайт і дотримуватися політики платформи (зокрема поважати конфіденційність користувачів і видаляти вміст, що був видалений), Reddit обмежить доступ до своїх даних для захисту своїх користувачів.

Обмеження вступлять в силу сьогодні. Reddit вжили заходів, щоб заздалегідь повідомити Інтернет-архів про ці обмеження, зазначив Ратшмідт. Він також підкреслив, що Reddit неодноразово висловлював занепокоєння щодо здатності збору вмісту з Інтернет-архіву.

Reddit має нещодавню історію обмеження доступу до інструментів збору даних у міру того, як компанії зі штучним інтелектом почали їх масово використовувати і зловживати ними, але готовий надавати ці дані, якщо за них платять. Рік тому Reddit укладено угоду з Google для надання даних як для пошуку, так і для навчання штучного інтелекту, а кілька місяців потому почалася блокування великих пошукових систем від збору його даних без оплати. Також платформа повідомила, що її суперечливі зміни API 2023 року, які змусили деякі сторонні додатки закритися, були викликані зловживанням цими API для навчання моделей штучного інтелекту.

Reddit також уклав угоду з OpenAI, але в червні подав до суду на Anthropic, стверджуючи, що та все ще продовжувала збір даних з Reddit, попри запевнення Anthropic, що більше не займається збором.

Директор Wayback Machine Марк Грем зазначив у своїй заяві, що Інтернет-архів має тривалі відносини з Reddit і продовжує з ними обговорення цих питань.