Claude AI завершить тривалі шкідливі або образливі взаємодії з користувачами

Чат-бот Claude від Anthropic тепер має змогу завершувати розмови, які вважаються «постійно шкідливими або кривдними». Ця функція вже доступна в моделях Opus 4 і 4.1 та дозволяє чат-боту закінчувати бесіди як «остання інстанція» після того, як користувачі неодноразово просять його створити шкідливий контент, незважаючи на численні відмови та спроби перенаправлення. Anthropic заявляє, що метою є забезпечення «потенційного добробуту» AI-моделей шляхом завершення взаємодій, які викликають у Claude «очевидний дискомфорт».

Claude від Anthropic сам завершуватиме розмови

Якщо Claude обере закінчити розмову, користувачі не зможуть надсилати нові повідомлення в цій бесіді. Проте вони можуть створювати нові чат-кімнати, а також редагувати та повторювати попередні повідомлення, якщо бажають продовжити конкретну тему.

Під час тестування Claude Opus 4 компанія Anthropic відзначила, що Claude має «сильну і постійну непереносимість до шкоди», зокрема, коли його просять створити сексуальний контент за участю неповнолітніх або надати інформацію, яка може сприяти насильству та тероризму. У таких ситуаціях, за словами Anthropic, Claude виявляв «схему очевидного дискомфорту» і «схильність закінчувати шкідливі розмови, коли отримував таку можливість».

Anthropic зазначає, що розмови, які викликають таку реакцію, є «екстремальними випадками», і додає, що більшість користувачів не зіткнеться з цією перешкодою, навіть коли обговорюють спірні теми. Компанія також вказала Claude не завершувати розмови, якщо користувач демонструє ознаки бажання завдати шкоди собі або іншим. Anthropic співпрацює з Throughline, онлайн-сервісом кризової підтримки, щоб допомогти розробити відповіді на запити, пов’язані з самопошкодженням і психічним здоров’ям.

Минулого тижня Anthropic також оновила політику використання Claude, оскільки швидкий розвиток AI-моделей викликає все більше занепокоєння щодо безпеки. Тепер компанія забороняє використання Claude для розробки біологічних, ядерних, хімічних або радіологічних озброєнь, а також для створення шкідливого коду або використання вразливостей мережі.

IT Insider

Або перегляньте наші популярні категорії...

IT Insider

Або перегляньте наші популярні категорії...

Claude AI завершить тривалі шкідливі або образливі взаємодії з користувачами

Claude від Anthropic сам завершуватиме розмови

Демченко Галина

Related Posts

Втрачені собаки, система спостереження та Ring: Як технології змінюють наше життя

LG презентує новий мікро RGB телевізор: що знати про революційні технології в кожному кадрі

You Missed

Glovo таємно знімає “чайові” з користувачів: що потрібно знати про нові платіжні хитрощі

Потужний Ryzen 7 9850X3D від AMD: Чому варто чекати на його запуск 29 січня за $499

Втрачені собаки, система спостереження та Ring: Як технології змінюють наше життя

Revolut прагне до нових висот: ліцензія для банківських послуг у Перу

Krafton досліджує можливості технологій у фізичному AI та робототехніці: відкриття нових горизонтів

В Україні безкоштовне повернення міжнародних посилок від “Укрпошти” — що це означає для вас?