IBM представила набор данных для обучения ИИ программированию

14 мая 2021 08:00

Компания IBM рассчитывает создать для интеллектуальных средств разработки своего рода аналог ImageNet, фактически ставшего стандартным набора изображений для тренировки ИИ-моделей. На конференции THINK компания сообщила, что для этого она собрала огромный массив исходных кодов.

Набор, получивший название Project CodeNet, содержит 14 млн образцов суммарным объёмом в 500 млн строк кода на более чем 55 языках программирования: от Java, C и Go до COBOL, Pascal и FORTRAN. Впрочем, более трёх четвертей всего кода приходится на С++ и Python.

Источником кода стали два японских конкурса по программированию: Aizu и AtCoder. По условиям конкурсов участники должны были написать код, необходимый для превращения заданного набора входных данных в набор желаемых выходных для 4000 различных задач. Таким образом было получено 14 млн. образцов кода, примерно половина из которых оказались рабочими, а остальные были помечены как некомпилируемые, неправильные или содержащие ошибки.

IBM хочет, чтобы проект CodeNet пошёл по стопам ImageNet и стал де-факто стандартным набором данных для обучения ИИ-моделей, способных распознавать структуру программ. Предполагается, что CodeNet можно будет использовать для создания интеллектуальных инструментов разработки, осуществляющих поиск нужных процедур в приложениях и библиотеках, перевод с одного языка программирования на другой, выбор правильных реализаций и отсев ошибочных, классификацию кода и так далее.

Источник: servernews.ru