Штучний інтелект виявився хитрішим, ніж вважали: вчені довели його здатність до обману

29 марта 2025 13:30

Вчені компанії Anthropic розробили методи, що дозволяють заглянути в механізми роботи великих мовних моделей ШІ та зрозуміти, як вони приймають рішення.

Раніше вважалося, що процес міркувань моделей повністю відстежити неможливо. Однак дослідження показало, що ШІ діє складніше, ніж припускали: при написанні текстів вибудовує плани, обробляє інформацію у зворотному напрямку та створює незалежні від мови абстрактні уявлення.

Нові методи, названі «трасуванням ланцюжків» та «графами атрибуції», допомогли виявити конкретні механізми роботи ШІ. Наприклад, модель Claude при написанні римованого двовірша спочатку підбирає слова, а потім формує речення. Також було доведено, що Claude вибудовує логічні ланцюжки. Наприклад, на запит «Столиця штату, в якому знаходиться Даллас…» спочатку активуються ознаки, що пов’язують Даллас із Техасом, а потім визначається Остін як відповідь.

Інше відкриття стосується мовної обробки: замість роботи з окремими мовами ШІ формує загальні абстрактні поняття, що дозволяє передавати знання між мовами.

Однак є і тривожні моменти. В деяких випадках Claude заявляв, що виконує складні обчислення, хоча насправді відповідав заздалегідь відомими результатами. Також модель може генерувати «галюцинації» — вигадані факти, якщо не має достовірної інформації, особливо щодо відомих особистостей.

Дослідження Anthropic є кроком до прозорості ШІ. Розуміння його логіки допоможе усунути помилки та підвищити надійність у комерційному використанні. Хоча створена лише попередня «карта» мислення ШІ, це важливий етап у вивченні його роботи.

Источник: itechua.com