Microsoft запускає Phi-3, свою найменшу модель AI

Дмитро Сизов 25 апреля 2024 09:30

Microsoft випустила наступну версію своєї легкої моделі AI Phi-3 Mini, першої з трьох невеликих моделей, які компанія планує випустити.

Phi-3 Mini вимірює 3,8 мільярда параметрів і навчається на наборі даних, меншому порівняно з великими мовними моделями, такими як GPT-4. Тепер він доступний на Azure, Hugging Face і Ollama. Microsoft планує випустити Phi-3 Small (параметри 7B) і Phi-3 Medium (параметри 14B). Параметри вказують на те, скільки складних інструкцій може зрозуміти модель.

У грудні компанія випустила Phi-2 , який працював так само добре, як і більші моделі, такі як Llama 2. Microsoft каже, що Phi-3 працює краще, ніж попередня версія, і може надати відгуки, близькі до того, як модель, яка в 10 разів більша за неї.

Ерік Бойд, корпоративний віце-президент платформи Microsoft Azure AI, каже, що The Verge Phi-3 Mini настільки ж потужний, як LLM, як-от GPT-3.5, «просто в меншому форм-факторі».

Порівняно з більшими аналогами, малі моделі AI часто дешевші в експлуатації та працюють краще на персональних пристроях, таких як телефони та ноутбуки. На початку цього року в The Information повідомлялося, що Microsoft створює команду, зосереджену саме на легких моделях ШІ . Разом з Phi компанія також створила Orca-Math , модель, орієнтовану на розв'язання математичних задач.

Конкуренти Microsoft також мають власні невеликі моделі штучного інтелекту, більшість з яких націлені на простіші завдання, такі як узагальнення документів або допомога в кодуванні. Gemma 2B і 7B від Google підходять для простих чат-ботів і роботи, пов’язаної з мовою. Claude 3 Haiku від Anthropic може читати щільні дослідницькі статті з графіками та швидко підсумовувати їх, тоді як нещодавно випущений Llama 3 8B від Meta можна використовувати для деяких чат-ботів і для допомоги в кодуванні.

Бойд каже, що розробники навчали Phi-3 за «навчальною програмою». Їх надихнуло те, як діти вчилися з казок перед сном, книг із простішими словами та структурами речень, які розповідають про більші теми.

«Дитячих книжок недостатньо, тому ми склали список із понад 3000 слів і попросили магістра створити «дитячі книжки» для навчання Фі», — каже Бойд.

Він додав, що Phi-3 просто спирався на те, що навчилися попередні ітерації. Тоді як Phi-1 зосередився на кодуванні, а Phi-2 почав вчитися міркувати, Phi-3 кращий у кодуванні та міркуванні. Хоча сімейство моделей Phi-3 володіє деякими загальними знаннями, воно не може перевершити GPT-4 чи іншого LLM за широтою — є велика різниця у типі відповідей, які ви можете отримати від LLM, навченого всьому Інтернету, проти меншої моделі, як Phi-3.

Бойд каже, що компанії часто виявляють, що менші моделі, такі як Phi-3, краще працюють для їхніх користувальницьких програм, оскільки для багатьох компаній їхні внутрішні набори даних все одно будуть меншими. А оскільки ці моделі споживають менше обчислювальної потужності, вони часто набагато доступніші.