Від «Дії» до «Мрії»: де і як запрацює українська LLM «Сяйво»
Українську велику мовну модель тренують на серверах Google, але чутливі державні дані залишаться вдома, у суверенній інфраструктурі на обладнанні NVIDIA. У Мінцифри на запит SPEKA розповіли, як саме побудована архітектура проєкту «Сяйво» і хто за нею стоїть.
Як розробляють українську LLM «Сяйво»
- Для забезпечення технологічного суверенітету та безпеки даних Україна дотримується гібридного підходу до використання інфраструктури залежно від критичності завдань.
- Розробка національної великої мовної моделі «Сяйво» відбувається у партнерстві з найбільшим телеком-оператором, компанією «Київстар», а тренування моделі — на хмарних потужностях від Google.
- Водночас Мінцифра розробляє власну державну ШІ-інфраструктуру AI Factory на базі обладнання та експертизи від компанії NVIDIA.
- Це залізо, на якому працюватиме ШІ, базуватиметься безпосередньо в Україні, щоб дані залишалися в наших суверенних датацентрах із міркувань національної безпеки.
- AI Factory стане основою для державних АІ-рішень у сфері освіти, науки, оборони, зокрема для української LLM «Сяйво», ШІ-агента Дія.АІ та АІ-тьютора в «Мрії».
- Такий гібридний формат дає змогу ефективно поєднувати високий рівень безпеки локальних рішень із гнучкістю та масштабованістю сучасних хмарних технологій.
Раніше SPEKA розповідала про Дія.АІ докладніше, а тепер стало зрозуміло, яка модель стоятиме за ним.
Звідки українська LLM «Сяйво» бере дані для навчання
Головна роль експертів — консультувати технічну команду щодо створення LLM, дібрати дані для тренування моделі та розробити бенчмарки, тобто «тести» для оцінки якості роботи моделі з погляду етичності, недискримінації, мови, культури й історії.
Наймасштабнішим є напрям збирання даних з публічного сектору, оскільки вони часто найменше представлені у відкритому доступі, тому є унікальними для тренування мовної моделі. Фактично вперше в історії України збирають державні дані в одному сервісі й об’єднують їх у національний корпус даних.
Це повноцінний проєкт, вплив якого виходить за межі розробки національної LLM «Сяйво», адже надалі плануємо сформувати корпус, який буде доступний широкому колу осіб для проведення експериментів з використанням штучного інтелекту та запуску власних продуктів.
Окрім прямого партнерства, Мінцифра відкрила open call, запрошуючи українські організації та авторів «задонатити» свої тексти, щоб допомогти закарбувати цифрову ДНК нашої мови.
Як українська LLM навчається на сучасних даних
- Питання авторського права із сучасними медіа, письменниками та видавництвами вирішують відповідно до законодавства про інтелектуальну власність.
- Щодо обʼєктів інтелектуальної власності, які захищені авторським правом, укладаються відповідні ліцензійні договори для дозволу на використання даних з метою включення їх у корпус та подальшого тренування моделі.
- Окрім цього, компанія «Київстар» разом з експертами робочої групи формує бенчмарки — профільні еталонні тести для перевірки якості роботи моделі за різними параметрами, як-от перевірки на недискримінацію, антипропаганду, мовну якість відповіді та історичні й культурні питання.
- Крім того, весь процес навчання LLM контролює етико-правовий комітет, до якого входять профільні юристи, представники органів захисту даних та науковці. Вони стежать за прозорістю, комплаєнсом і відповідністю моделі нормам європейського AI Act та українським правовим реаліям.
- Важливо, що система повністю виключає використання персональних даних або чутливої інформації з реєстрів завдяки обов’язковій функції анонімізації.
Що «Сяйво» змінить у Дія.АІ та освітній платформі «Мрія»
Національна LLM «Сяйво» стане основою для державних сервісів, зокрема для Дія.АІ та АІ-тьютора в «Мрії». Завдяки цьому ШІ-помічники можуть спілкуватися природною «людською» мовою, розуміти життєві контексти, надавати інформацію без упереджень та пропаганди.
В освітній екосистемі «Мрія» ШІ діятиме як персоналізований AI-тьютор, який допомагатиме самостійно навчатися, створюватиме інтерактивні матеріали для потреб учнів та детально пояснюватиме складні теми.
Нагадаємо, що паралельно з держсектором в Україні з'являються і комерційні рішення на суверенній інфраструктурі. Нещодавно SPEKA розповідала про Lapathoniia — перший вітчизняний ШІ-чатбот, розгорнутий на українських GPU-кластерах NVIDIA H100. Тренд очевидний: питання суверенітету ШІ-інфраструктури перейшло з теорії в практику.
Источник: speka.ua