Alibaba запускає модель ШІ, яка може розуміти зображення та вести складніші розмови
Alibabaу п’ятницю випустила нову модель штучного інтелекту, яка, за словами компанії, може розуміти зображення та здійснювати більш складні розмови, ніж попередні продукти компанії, оскільки глобальна гонка за лідерство в цій технології нагрівається.
Китайський технологічний гігант заявив, що дві його нові моделі, Qwen-VL і Qwen-VL-Chat, будуть мати відкритий вихідний код, тобто дослідники, науковці та компанії по всьому світу зможуть використовувати їх для створення власних програм штучного інтелекту без необхідності навчання власних систем. , що економить час і кошти.
Alibaba каже, що Qwen-VL може відповідати на відкриті запити, пов’язані з різними зображеннями, і створювати підписи до зображень.
Тим часом Qwen-VL-Chat обслуговує більш «складну взаємодію», згідно з Alibaba, таку як порівняння кількох введених зображень і відповіді на кілька раундів запитань. Деякі завдання, які, за словами Alibaba, може виконувати Qwen-VL-Chat, включають написання історій і створення зображень на основі фотографій, які вводить користувач, а також розв’язування математичних рівнянь, зображених на зображенні.
Одним із прикладів, який Alibaba навів, є вхід із табличкою лікарні китайською мовою. ШІ може відповісти на запитання про розташування певних відділень лікарні, інтерпретуючи зображення знаку.
Поки що більшість генеративних штучних інтелектів, де технологія генерує відповіді на основі людського введення, зосереджувалися на відповідях на текст. Остання версія OpenAI ChatGPT також має здатність розуміти зображення та відповідати в тексті, подібно до Qwen-VL-Chat.
Дві останні моделі Alibaba побудовані на основі великої мовної моделі компанії Tongyi Qianwen, випущеної на початку цього року . LLM — це модель штучного інтелекту, навчена на величезних обсягах даних і лежить в основі додатків чат-ботів.
Цього місяця компанія зі штаб-квартирою в Ханчжоу відкрила вихідний код для двох інших моделей ШІ . Незважаючи на те, що Alibaba не заробляє жодних ліцензійних зборів, розповсюдження з відкритим вихідним кодом допоможе компанії отримати більше користувачів для своєї моделі штучного інтелекту — у той час, коли хмарний підрозділ компанії прагне відновити зростання, оскільки він готується вийти на біржу .