Гаррі Поттер виявився улюбленим персонажем для експериментів у галузі ШІ

29 декабря 2023 12:45

Через двадцять років після того, як Джоан Роулінг (Joanne Rowling) відкрила світові чарівний всесвіт, головний персонаж її книг, Гаррі Поттер (Harry Potter) знайшов нову актуальність у зовсім іншій галузі — галузі досліджень штучного інтелекту. На це звертає увагу Bloomberg.

Бестселери про Гаррі Поттера все частіше використовуються для експериментів з технологіями ШІ через невпинний вплив серії на масову культуру, широкий спектр мовних даних і складну гру слів на сторінках книг. Список досліджень та наукових статей, що посилаються на Гаррі Поттера, дає уявлення про передові проекти в галузі ШІ та деякі складні питання, що стоять перед цією областю.

У науковій статті "Хто такий Гаррі Поттер?" описується методика, що допомагає великим мовним моделям вибірково забувати інформацію. Це важливе завдання для області ШІ: великі мовні моделі навчаються на величезних масивах онлайн-даних, включаючи захищені авторським правом матеріали та інший проблемний контент — у результаті розробників цих систем дедалі частіше подають до суду, які роботи привертають дедалі пильнішу увагу громадськості. Автори статті, співробітники Microsoft Марк Руссинович (Mark Russinovich) та Ронен Елдан (Ronen Eldan), продемонстрували, що ШІ-моделі можна змінювати, видаляючи будь-яку інформацію про існування книг про Гаррі Поттера, включаючи персонажів та сюжети, не жертвуючи при цьому творчими та аналітичними. здібностями системи. Вчені кажуть, що обрали книги про юного чарівника через їхню популярність — про елементи сюжету та персонажів знають навіть ті, хто їх не читав.

Подібні питання порушують у своєму дослідженні вчені Вашингтонського університету в Сіетлі, Каліфорнійського університету в Берклі та Інституту штучного інтелекту Аллена. Вони розробили мовну модель Silo, у якій підтримується видалення даних зниження юридичних ризиків. Дослідники звертають увагу, якщо виключити з навчального масиву захищені авторським правом матеріали та урядові документи, і залишити лише тексти з низьким рівнем ризику, то продуктивність моделі знижується. Видаляючи книги про Гаррі Поттера з навчальних масивів, вони виявили підвищення перплексії - коефіцієнта невизначеності, на основі якої оцінюється якість мовної моделі: чим він нижчий, тим якісніший результат видає ШІ.

Дослідники ШІ цитують Гаррі Поттера не менше десяти років, і сьогодні книги про нього згадуються в роботах все частіше, оскільки і вчені, і технології все більше зосереджені на інструментах ШІ, які допомагають у обробці природної мови та механізмів реакції на неї. Присутнє в книгах про Гаррі Поттера «багато сцен, діалогів, емоційних моментів робить його дуже актуальним для конкретної галузі обробки природної мови» , зазначила дослідник університету Карнегі Меллона Лейла Вебе (Leila Wehbe), яка в 2014 році провела серію експериментів, збираючи дані МРТ у читають книги про юного чарівника людей, щоб глибше вивчити мовні механізми.

Пошук на відкритому порталі arXiv.org серед нещодавніх публікацій показує такі назви статей як «Машинне навчання при створенні зілля в Гоґвортсі», «Гаррі Поттер та великі мовні моделі», а також «Виявлення заклинань у фентезійній літературі за допомогою штучного інтелекту на основі [архітектури ] трансформера». У деяких проектах Гаррі Поттер хоч і не є центральним об'єктом дослідження, але залишається улюбленим літературним персонажем вчених. В одному з досліджень книги Роулінг використовують для оцінки рівня інтелекту ШІ-систем. А, на думку Терренса Сейновскі (Terrence Sejnowski), керівника лабораторії обчислювальної нейробіології при Інституті біологічних досліджень Солка, чат-боти просто відображають інтелект і упередження своїх користувачів, як «Дзеркало Еіналеж» з першої книги про Гаррі Поттера, яке показувало самі , хто дивився в нього. Гаррі Поттер популярний серед молодих дослідників. Вони читали їх [ці книги] у дитинстві чи в юності, от і вибирають їх як письмові чи усні масиви тексту» , — уклала доцент Вебе.