DeepSeek рекламує новий метод навчання

Дмитро Сизов
DeepSeek рекламує новий метод навчання

DeepSeek опублікував статтю, в якій викладено ефективніший підхід до розробки штучного інтелекту, ілюструючи зусилля китайської індустрії штучного інтелекту конкурувати з такими компаніями, як OpenAI, попри відсутність вільного доступу до чіпів Nvidia Corp.

У документі , співавтором якого є засновник Лян Веньфен , представлено фреймворк під назвою Manifold-Constrained Hyper-Connections. За словами авторів, він розроблений для покращення масштабованості та одночасного зниження обчислювальних та енергетичних вимог до навчання передових систем штучного інтелекту.

Такі публікації від DeepSeek вже передвіщали випуск основних моделей у минулому. Стартап з Ханчжоу рік тому приголомшив галузь моделлю міркувань R1, розробленою за ціною, що значно менша за вартість його конкурентів із Кремнієвої долини. Відтоді DeepSeek випустив кілька менших платформ, але очікування щодо їхньої наступної флагманської системи, яка отримала широку назву R2, очікується приблизно на Весняному фестивалі в лютому, зростають.

Китайські стартапи продовжують працювати в умовах значних обмежень, оскільки США забороняють доступ до найсучасніших напівпровідників, необхідних для розробки та запуску штучного інтелекту. Ці обмеження змусили дослідників використовувати нетрадиційні методи та архітектури.

Що каже Bloomberg Intelligence

Майбутня модель R2 від DeepSeek, яка може бути запущена протягом наступних кількох місяців, має потенціал знову перевернути світовий сектор штучного інтелекту, незважаючи на нещодавні успіхи Google. Модель Gemini 3 від Google обігнала OpenAI у листопаді, посівши трійку лідерів у рейтингу LiveBench за продуктивністю глобальних моделей великих мов програмування (LLM). Китайські недорогі моделі, які розробляються за ціною, що значно нижчою, ніж у конкурентів, зайняли два місця в топ-15.

DeepSeek, відомий своїми неортодоксальними інноваціями, опублікував цього тижня свою останню статтю через відкритий репозиторій arXiv та платформу з відкритим кодом Hugging Face. У статті перелічено 19 авторів, ім'я Лянга згадується останнім.

Засновник, який послідовно керував дослідницькою програмою DeepSeek, спонукав свою команду переосмислити те, як задумуються та створюються великомасштабні системи штучного інтелекту.

У останньому дослідженні розглядаються такі проблеми, як нестабільність навчання та обмежена масштабованість, зазначаючи, що новий метод включає «ретельну оптимізацію інфраструктури для забезпечення ефективності». Тести проводилися на моделях з діапазоном від 3 до 27 мільярдів параметрів, спираючись на дослідження ByteDance Ltd. 2024 року щодо архітектур гіперз'єднань.

Автори заявили, що ця методика є перспективною «для еволюції фундаментальних моделей».