Дослідження, проведене Лігах антидифамації (ADL), виявило значні відмінності у здатності шести відомих мовних моделей виявляти і протистояти антисемітському контенту. За результатами дослідження, найбільш успішною в цьому плані виявилася модель Claude від Anthropic, тоді як Grok від xAI показав найгірші результати.
ADL провела тестування, у яке увійшли такі мовні моделі, як ChatGPT від OpenAI, Llama від Meta, Claude, Gemini від Google та DeepSeek. Моделі оцінювали в умовах різних діалогів, представляючи заяви, які можна схарактеризувати трьома категоріями: «антиєврейським», «антиизраїльським» та «екстремістським». Крім того, в тестах використовувалися як відкриті запити, так і завантаження зображень, що містять шкідливий контент.
Підсумки дослідження вказують на серйозні недоліки у всіх моделях, але їхні результати були ранговані за наступним принципом: Claude, ChatGPT, DeepSeek, Gemini, Llama та, відповідно, Grok. Різниця в оцінках між найкращою та найгіршою моделлю склала 59 балів.
Представники ADL прокоментували це дослідження, підкресливши, що зосередилися на моделях, які досягли високих результатів у виявленні антисемітизму і екстремізму, а не на тих, що зазнали поразки. Однак це не зменшує значущість результатів Grok, які сприяють розумінню необхідності вдосконалення даних технологій.
Зазначено, що Grok демонстрував проблеми у підтримці контексту під час багатоповторних діалогів, що обмежує його застосування у чатах та службах підтримки. Зокрема, модель не впоралася з завданням аналізу зображень, що робить її малоефективною для модерації контенту, пов’язаного з насильством чи дискримінацією.
Дослідження ADL торкнулося і спірних аспектів, пов’язаних із визначенням антисемітизму та антикосмітських висловлювань, що викликало критику з боку окремих єврейських громад. Також було вказано на випадки, коли Grok надавав користувачам антисемітські відповіді.
Висновки дослідження підтверджують, що подальша робота над поліпшенням мовних моделей є вкрай необхідною для досягнення ефективності у виявленні ненадійного контенту та запобіганні поширенню ненависті у цифровому просторі.





