DeepSeek показала метод, що робить великі ШІ-моделі ефективнішими

3 января 2026 07:00

Китайська компанія DeepSeek у 2025 році опублікувала дослідження, в якому запропонувала новий підхід до навчання базових моделей штучного інтелекту. Один із авторів роботи – голова компанії Лян Веньфен (Liang Wenfeng).

Метод називається “гіперзв’язки з обмеженням на різноманіття” (mHC). Він допомагає моделям працювати ефективніше, зберігаючи конкурентоспроможність із американськими розробками, які мають більше обчислювальних ресурсів. Статті DeepSeek виходять у відкритому доступі, що відображає культуру відкритого обміну знаннями в Китаї, і дають уявлення про технології, що готуються до комерційного використання.

Метод mHC тестували на моделях із 3, 9 і 27 млрд параметрів. Він не збільшує значно обчислювальне навантаження порівняно зі звичайними гіперзв’язками (HC), які ByteDance запропонувала ще у 2024 році як модифікацію ResNet – популярної архітектури глибокого навчання. ResNet допомагає навчати дуже глибокі мережі, зберігаючи ключову інформацію через усі шари. Але стандартні гіперзв’язки навантажують пам’ять і ускладнюють масштабування великих моделей.

Метод mHC вирішує цю проблему, зберігаючи потік даних і ефективність, але без сильного збільшення навантаження на пам’ять. Це відкриває нові шляхи для розвитку архітектур нового покоління. За прогнозами, DeepSeek може представити нову велику модель уже у середині лютого 2026 року.

Источник: itechua.com