Грок тепер досить добре відповідає на запитання про Baldur's Gate

Дмитро Сизов

Різні лабораторії штучного інтелекту мають різні пріоритети. Наприклад, OpenAI традиційно зосереджується на споживчих користувачах, тоді як його конкурент Anthropic, як правило, орієнтується на підприємства. Як ми нещодавно дізналися, xAI Ілона Маска приділяє особливу увагу покроковим інструкціям до відеоігор.

У п'ятницю Грейс Кей з Business Insider опублікувала детальний та масштабний звіт про xAI , стартап у сфері штучного інтелекту, нещодавно придбаний SpaceX , з особливим акцентом на тому, як Маск ускладнює життя співробітникам. Але цей конкретний анекдот виділявся:

В одному випадку минулого року випуск моделі був відкладений на кілька днів, оскільки Маск був незадоволений тим, як чат-бот відповідав на детальні запитання про відеогру «Baldur's Gate», за словами людей, знайомих з цим питанням. За їхніми словами, висококваліфікованих інженерів відкликали з інших проектів, щоб покращити відповіді перед запуском.

Звісно, ​​ви можете уявити собі розчарування будь-якого шанованого та досвідченого інженера, який приходить на роботу, думаючи, що вирішуватиме фундаментальні проблеми знань та машинного інтелекту, а потім його відволікає допомога 54-річному чоловікові у розробці відеогри. Але цей анекдот піднімає ще більш нагальне питання: чи здобув Маск бажані ігрові навички?

Щоб відповісти на це запитання, наш постійний ентузіаст RPG Рам Айєр склав набір із п'яти загальних запитань про Baldur's Gate, які ми провели порівняно з xAI та трьома основними моделями у своєрідному квазі-бенчмарку, який я вирішив назвати «BaldurBench».

Заради прозорості журналістської роботи я оприлюднив усі стенограми чатів, тож ви можете переглянути їх тут: Grok , ChatGPT , Claude та Gemini .

По-перше, гарні новини: Grok насправді надає досить хорошу інформацію. Його відповіді були дещо переповнені геймерським жаргоном — «збереження-скаммінг» замість збереження та «DPS» замість пошкодження — але відповіді були корисними та обґрунтованими, за умови, що ви розуміли, про що йдеться. Grok також дуже любить столи та теорії , чого приблизно й слід було очікувати.

Існує багато посібників з Baldur's Gate, і моделі загалом були засновані на одних і тих самих, тому найбільші відмінності були стилістичними. ChatGPT надає перевагу маркованим спискам та фрагментам речень, тоді як Gemini любить виділяти важливі слова жирним шрифтом.

Найбільшим сюрпризом став Клод, який особливо хвилювався, що не дасть мені інформації, яка зіпсує мені враження від гри. Коли я запитав про хороші склади для груп, він завершив інструкцію словами: «Не переймайся надто сильно і просто грай у те, що тобі подобається». Дякую, Клоде!

Важливо пам’ятати, що це тематична область, на якій, як ми знаємо (завдяки звітам Business Insider ), xAI спеціально зосередився на досягненні паритету. Тому не варто надто надавати значення тому факту, що після опублікованого спринту порада Грока виявилася приблизно такою ж, як і в інших моделях. Тим не менш, приємно знати, що xAI може змусити це працювати, якщо спробує.