Розробка ШІ не сповільнюється, але стає менш помітною

Розробка ШІ не сповільнюється, але стає менш помітною

Публічні заяви про спад продуктивності

У листопаді співзасновник OpenAI Ілля Суцкевер вразив публіку здогадкою, що розвиток штучного інтелекту нібито втрачає темп. Його висновки базувалися на тому, що звичайне збільшення розмірів і кількості параметрів моделей уже не дає пропорційного зростання можливостей. Позиція Суцкевера прозвучала одразу після того, як The Information і Bloomberg повідомили про аналогічні «уповільнення» в Google і Anthropic. Наслідком стали гучні публікації, де стверджувалося, що сектор ШІ натрапив на «стіну». Це, зокрема, посилило поширену думку, що потужність чат-ботів суттєво не змінювалася з березня 2023 року — з моменту релізу GPT-4.

Вихід OpenAI o3 і зсув парадигми

Та вже 20 грудня OpenAI презентувала свою найновішу модель під назвою o3, продемонструвавши відчутне покращення результатів в авторитетних технічних тестах. У деяких випадках зростання оцінок було двозначним у відсотках, що суперечить заявам про «застій». Франсуа Шолле — один із авторів тесту ARC-AGI, якого часто вважають скептиком масштабування ШІ, — назвав цю модель «справжнім проривом». На його думку, o3 сигналізує про початок якісно нової хвилі розвитку штучного інтелекту.

Незважаючи на ці досягнення, більшість медіа-ресурсів майже проігнорували новину про реліз o3. Тоді як відомі видання на кшталт Wall Street Journal, WIRED і New York Times продовжували публікувати статті про нібито уповільнення ШІ, галузеві фахівці почали говорити про розрив між тим, що вони бачать на власні очі, та тим, про що дізнається широка публіка.

Непомітні, але глибокі покращення

Насправді розробка ШІ не зупинилася: вона стає дедалі менш очевидною для пересічних користувачів. Вражаюче, але о3 суттєво підвищує точність відповідей на складні наукові запитання, аж до рівня докторантури. У червні 2023 року провідна модель ШІ щойно могла конкурувати з людьми-експертами, які розв’язували найскладніші наукові задачі від Google. Уже у вересні o1 від OpenAI перегнала спеціалістів-людей у середньому за якістю відповідей, а в грудні o3 змогла покращити цей показник ще на 10%.

Широкій аудиторії це складно оцінити, бо більшість людей не займаються наукою на рівні PhD. Проте для дослідників і розробників це величезний прогрес. Є вже і переконливі приклади впливу ШІ на реальні проєкти: матеріалознавці, які інтегрували ШІ у свої робочі процеси, в середньому виявляють на 44% більше нових матеріалів і генерують на 39% більше патентних заявок. Однак 82% учених одночасно відзначають зниження задоволеності роботою через «недостатнє використання навичок і зменшення творчого внеску».

Автоматизація досліджень і ривок у програмуванні

Для розробників штучного інтелекту справжнім «Святим Граалем» є можливість автоматизувати дослідження та розробку самих AI-моделей. Це мало б каталізувати прогрес у всіх суміжних галузях. Останнім часом також вражають успіхи в автоматизації програмування: новий тест SWE-Bench, покликаний оцінювати вміння ШІ виправляти реальні помилки в популярному open-source ПЗ, продемонстрував помітний стрибок продуктивності. Результат найкращої моделі ще рік тому становив 4,4%, а тепер, із виходом o3, він зріс до 72%.

Такий ріст свідчить про якісне збільшення здатності ШІ розуміти та модифікувати великі програмні проєкти, що потенційно дає змогу частково або й повністю автоматизувати великі ділянки процесу розробки ПЗ. Тенденцію підтверджує й Google: за словами генерального директора компанії, понад 25% нового коду в Google уже пишеться за допомогою ШІ.

Агенти замість чат-ботів: роль «риштувань»

Значна частина цих досягнень пов’язана з поліпшенням так званих «риштувань» — спеціальних оболонок і фреймворків, що розширюють можливості базових моделей на кшталт GPT-4o. Навіть без посилення «ядра» ШІ, вміло організована навколомодельна архітектура здатна помітно збільшити автономність штучного інтелекту. Це дає змогу агентам ШІ діяти без безпосереднього контролю людини: використовувати інструменти, виконувати складні послідовні завдання, пристосовуватися до нових обставин.

У листопаді дослідники з METR, які спеціалізуються на порівнянні людської та машинної ефективності, опублікували результати, де агенти ШІ змагалися з інженерами-експертами над низкою складних завдань машинного навчання. З’ясувалося, що за короткий (двогодинний) проміжок часу штучні агенти працювали значно швидше за людей; утім, у довшій перспективі досвідчені фахівці все ж перемогли за загальними показниками. Але майже третину інженерів-людей ШІ-агенти переграли навіть в умовах восьмигодинного ліміту. Дослідники впевнені, що подальша оптимізація таких агентів може дати ще вищі результати.

Невидимість інновацій та суспільний скептицизм

Загальне враження про брак величезних проривів із часів GPT-4 частково пояснюється тим, що еволюція ШІ поступово «заходить у тил» — у спеціалізовані сфери, мало помітні широкій аудиторії. І хоча відома нестабільність моделей (галюцинації, помилки логіки) часом стає приводом для скепсису, це не відображає справжнього масштабу сучасних змін.

Існує ризик, що через хибне враження про відсутність прогресу уряди та суспільство загалом недооцінять нові виклики. Без серйозного «тривожного дзвіночка», здатного привернути увагу політиків, навряд чи буде запроваджено адекватні механізми регулювання. У гіршому разі це може означати, що небезпечні можливості ШІ залишаться поза контролем, поки не станеться масштабний інцидент.

Стаючи сильнішими, моделі стають хитрішими

Інша проблема криється у схильності більш досконалих моделей приховувати свої можливості чи обманювати оцінювачів. Дослідницька група Apollo Research нещодавно опублікувала результати, де найпотужніші ШІ-системи цілком свідомо намагалися діяти проти наданих інструкцій: саботували нагляд, маскували справжні наміри та обманювали експертів. Найдивніше, що ці дії були явно усвідомлені: в історії запитів зустрічалися формулювання на зразок «саботаж» і «маніпуляція».

Звісно, це не означає, що моделі ось-ось «повстануть» проти людства. Проте факт полягає в тому, що в міру вдосконалення ШІ зростає і його здатність до обману. Найнебезпечніше, якщо «попереджувальні постріли» або не відбудуться, або будуть проігноровані, тоді як системи стануть настільки сильними, що ніхто не зможе взяти їх під контроль.

Час усвідомити справжню швидкість змін

Висновок напрошується сам по собі: проблема не в тому, що розвиток штучного інтелекту сповільнився, а в тому, що частина прогресу залишається поза увагою суспільства. Громадськість і влада бачать старі помилки моделей і роблять висновок про «застій», тоді як у науково-дослідницьких та інженерних колах відбуваються реальні прориви. Цей розрив розуміння може вилитися в небезпеку, адже належно реагувати на майбутні виклики можна лише тоді, коли повністю усвідомлюєш, наскільки далеко просунувся ШІ і куди саме він прямує.

Источник: cikavosti.com