DeepSeek анонсує нову модель штучного інтелекту

Китайська лабораторія штучного інтелекту DeepSeek випустила дві попередні версії своєї найновішої моделі великої мови програмування DeepSeek V4 , довгоочікуваного оновлення торішньої моделі V3.2 та супутньої моделі міркувань R1 , яка штурмом підкорила світ штучного інтелекту .
Компанія стверджує, що DeepSeek V4 Flash та V4 Pro є моделями змішаного експертного підходу з вікнами контексту по 1 мільйону токенів кожне — достатньо, щоб дозволити використання великих кодових баз або документів у підказках. Підхід змішаного експертного підходу передбачає активацію лише певної кількості параметрів для кожного завдання, щоб знизити витрати на виведення.
Модель Pro має загалом 1,6 трильйона параметрів (49 мільярдів активних), що робить її найбільшою моделлю з відкритим обсягом даних, випереджаючи Kimi K 2.6 від Moonshot AI (1,1 трильйона), M1 від MiniMax (456 мільярдів) та більш ніж удвічі більшу DeepSeek V3.2 (671 мільярд). Менша версія, V4 Flash, має 284 мільярди параметрів (13 мільярдів активних).
DeepSeek стверджує, що обидві моделі є ефективнішими та продуктивнішими, ніж DeepSeek V3.2, завдяки архітектурним покращенням, і майже «скоротили розрив» із поточними провідними моделями, як відкритими, так і закритими, у тестах на логічне мислення.
Компанія стверджує, що її нова модель V4-Pro-Max перевершує аналоги з відкритим кодом у тестах на логічне мислення, а також випереджає OpenAI GPT-5.2 та Gemini 3.0 Pro у деяких завданнях. У тестах на змагання з кодування DeepSeek заявила, що продуктивність обох моделей V4 «порівнянна з GPT-5.4».
Однак, схоже, що ці моделі дещо відстають від передових моделей у тестах на знання, зокрема від GPT-5.4 від OpenAI та останньої версії Gemini 3.1 Pro від Google. Це відставання свідчить про «траєкторію розвитку, яка відстає від найсучасніших передових моделей приблизно на 3-6 місяців», – пише лабораторія.
Як V4 Flash, так і V4 Pro підтримують лише текст, на відміну від багатьох своїх аналогів із закритим кодом, які пропонують підтримку для розуміння та створення аудіо, відео та зображень.
Примітно, що DeepSeek V4 набагато доступніший за будь-яку передову модель, доступну сьогодні. Менша модель V4 Flash коштує $0,14 за мільйон вхідних токенів та $0,28 за мільйон вихідних токенів, що нижче за GPT-5.4 Nano, Gemini 3.1 Flash, GPT-5.4 Mini та Claude Haiku 4.5. Тим часом більша модель V4 Pro коштує $0,145 за мільйон вхідних токенів та $3,48 за мільйон вихідних токенів, що також нижче за Gemini 3.1 Pro, GPT-5.5, Claude Opus 4.7 та GPT-5.4.
Запуск відбувся через день після того, як США звинуватили Китай у крадіжці інтелектуальної власності американських лабораторій штучного інтелекту в промислових масштабах з використанням тисяч проксі-акаунтів. Саму DeepSeek Anthropic та OpenAI звинуватили у « дистиляції », по суті, копіюванні, їхніх моделей штучного інтелекту.