DeepMind представила языковую модель с 280 млрд параметров
Британская ИИ-лаборатория DeepMind разработала большую языковую модель Gopher, содержащую 280 млрд параметров. По словам исследователей, чем крупнее модель, тем точнее она работает.
Ученые с помощью собственного исследования подтвердили гипотезу, что от размера языковой модели зависит точность ее работы. В результате увеличения количества параметров производительность Gopher повысилась в наиболее распространенных эталонных тестах, таких как анализ настроений и обобщение.
«Один из ключевых выводов статьи заключается в том, что прогресс и возможности больших языковых моделей все еще увеличиваются. Это не та область, которая вышла на плато», — сообщил исследователь DeepMind Джек Рэй.
Однако ученые выявили ряд недостатков у данного подхода. По словам Рэя, существует множество вариантов, когда модель может выйти из строя:
«Некоторые из этих способов связаны с тем, что модель просто недостаточно хорошо понимает то, что она читает».
Рэй считает, что проблему непонимания контекста можно решить увеличением количества обучающих данных и масштабированием моделей.
Он добавил, что есть и другие проблемы, такие как укрепление стереотипных предубеждений, распространение дезинформации или токсичная лексика. В DeepMind считают, что масштабирование не поможет устранить эти недостатки.
«В этих случаях языковые модели потребуют “дополнительных процедур обучения”, таких как отзывы пользователей-людей», — отметил Рэй.
О том, появится ли Gopher в открытом доступе неизвестно. В DeepMind намерены продолжить изучение языковых моделей, чтобы сделать приложения с искусственным интеллектом безопасными и прозрачными.
Источник: forklog.com