IBM представила набор данных для обучения ИИ программированию

IBM представила набор данных для обучения ИИ программированию

Компания IBM рассчитывает создать для интеллектуальных средств разработки своего рода аналог ImageNet, фактически ставшего стандартным набора изображений для тренировки ИИ-моделей. На конференции THINK компания сообщила, что для этого она собрала огромный массив исходных кодов.

Набор, получивший название Project CodeNet, содержит 14 млн образцов суммарным объёмом в 500 млн строк кода на более чем 55 языках программирования: от Java, C и Go до COBOL, Pascal и FORTRAN. Впрочем, более трёх четвертей всего кода приходится на С++ и Python.

Источником кода стали два японских конкурса по программированию: Aizu и AtCoder. По условиям конкурсов участники должны были написать код, необходимый для превращения заданного набора входных данных в набор желаемых выходных для 4000 различных задач. Таким образом было получено 14 млн. образцов кода, примерно половина из которых оказались рабочими, а остальные были помечены как некомпилируемые, неправильные или содержащие ошибки.

IBM хочет, чтобы проект CodeNet пошёл по стопам ImageNet и стал де-факто стандартным набором данных для обучения ИИ-моделей, способных распознавать структуру программ. Предполагается, что CodeNet можно будет использовать для создания интеллектуальных инструментов разработки, осуществляющих поиск нужных процедур в приложениях и библиотеках, перевод с одного языка программирования на другой, выбор правильных реализаций и отсев ошибочных, классификацию кода и так далее.

Источник: servernews.ru