Claude AI завершить тривалі шкідливі або образливі взаємодії з користувачами

Чат-бот Claude від Anthropic тепер має змогу завершувати розмови, які вважаються «постійно шкідливими або кривдними». Ця функція вже доступна в моделях Opus 4 і 4.1 та дозволяє чат-боту закінчувати бесіди як «остання інстанція» після того, як користувачі неодноразово просять його створити шкідливий контент, незважаючи на численні відмови та спроби перенаправлення. Anthropic заявляє, що метою є забезпечення «потенційного добробуту» AI-моделей шляхом завершення взаємодій, які викликають у Claude «очевидний дискомфорт».

Claude від Anthropic сам завершуватиме розмови

Якщо Claude обере закінчити розмову, користувачі не зможуть надсилати нові повідомлення в цій бесіді. Проте вони можуть створювати нові чат-кімнати, а також редагувати та повторювати попередні повідомлення, якщо бажають продовжити конкретну тему.

Під час тестування Claude Opus 4 компанія Anthropic відзначила, що Claude має «сильну і постійну непереносимість до шкоди», зокрема, коли його просять створити сексуальний контент за участю неповнолітніх або надати інформацію, яка може сприяти насильству та тероризму. У таких ситуаціях, за словами Anthropic, Claude виявляв «схему очевидного дискомфорту» і «схильність закінчувати шкідливі розмови, коли отримував таку можливість».

Anthropic зазначає, що розмови, які викликають таку реакцію, є «екстремальними випадками», і додає, що більшість користувачів не зіткнеться з цією перешкодою, навіть коли обговорюють спірні теми. Компанія також вказала Claude не завершувати розмови, якщо користувач демонструє ознаки бажання завдати шкоди собі або іншим. Anthropic співпрацює з Throughline, онлайн-сервісом кризової підтримки, щоб допомогти розробити відповіді на запити, пов’язані з самопошкодженням і психічним здоров’ям.

Минулого тижня Anthropic також оновила політику використання Claude, оскільки швидкий розвиток AI-моделей викликає все більше занепокоєння щодо безпеки. Тепер компанія забороняє використання Claude для розробки біологічних, ядерних, хімічних або радіологічних озброєнь, а також для створення шкідливого коду або використання вразливостей мережі.