
Google DeepMind представила нову версію своєї моделі штучного інтелекту, яка отримала назву Genie 3. Ця модель здатна створювати 3D-середовища, в яких користувачі та агенти штучного інтелекту можуть взаємодіяти в реальному часі. Компанія обіцяє, що користувачі зможуть довше перебувати у цих світах, і модель зможе запам’ятовувати місце розташування об’єктів, навіть якщо на деякий час відвернетесь від них.
### Що таке моделі світу?
Моделі світу – це система штучного інтелекту, яка може симулювати середовища для таких цілей, як освіта, розваги або навчання роботів та агентів штучного інтелекту. З моделями світу достатньо ввести запит, і система створить простір, в якому можна вільно переміщатися, як у відеогрі. Проте на відміну від відеоігор, створення середовища відбувається не вручну, а за допомогою штучного інтелекту. Google активно розвиває цей напрямок; у грудні компанія продемонструвала Genie 2, яка могла створювати інтерактивні світи на основі зображення, і формує команду, що займається моделями світу, під керівництвом колишнього спільного керівника інструменту генерації відео Sora від OpenAI.
### Чи мають недоліки?
Проте нинішні версії моделей мають суттєві недоліки. Наприклад, світи, створені за допомогою Genie 2, могли бути використані лише протягом однієї хвилини. Нещодавно я спробував “інтерактивне відео” від компанії, яку підтримує співзасновник Pixar, і це було схоже на прогулянку через розмиту версію Google Street View, де об’єкти змінювалися несподіваним чином, коли я оглядав навколишнє середовище.
### Нові можливості Genie 3
Genie 3 обіцяє стати суттєвим кроком вперед. Користувачі зможуть створювати світи, виходячи з запиту, що дозволяє взаємодію протягом “декількох” хвилин безперервного використання, в порівнянні з 10-20 секундами для Genie 2. За інформацією зі зворотного зв’язка Google, Genie 3 може зберігати візуальну пам’ять про простори протягом приблизно хвилини. Це означає, що якщо ви відвернетеся від об’єкта, а потім повернетеся, такі елементи, як фарба на стіні чи текст на дошці, залишаться на місці. Світи також матимуть роздільну здатність 720p та працюватимуть на 24 кадрах у секунду.
### Додаткові функції
DeepMind вводить також те, що вони називають “управляємими світовими подіями” у Genie 3. Використовуючи запити, користувачі зможуть змінювати погодні умови у світі чи додавати нових персонажів.
### Доступ до моделі
Однак, навряд чи цей продукт буде доступний для широких мас. Він запускатиметься в рамках “обмеженого наукового попереднього перегляду”, що буде доступний “невеликій групі науковців та творців”, щоб розробники могли краще зрозуміти ризики та оптимальні способи їх усунення. Існує чимало обмежень, таких як обмежені способи взаємодії користувачів з згенерованими світами, а також те, що читабельний текст “часто генерується лише, якщо його вказано в описі світу”. Google заявила, що “досліджує” можливість залучення “додаткових тестувальників” у майбутньому.