Google використовує архівні публікації та штучний інтелект для прогнозування раптових повеней

Раптові повені є одними з найсмертоносніших погодних явищ у світі, щороку вбиваючи понад 5000 людей. Вони також є одними з найважчих для прогнозування. Але Google вважає, що їм вдалося вирішити цю проблему несподіваним чином — читаючи новини.
Хоча людство зібрало багато даних про погоду, раптові повені є занадто короткочасними та локалізованими, щоб їх можна було виміряти всебічно, так само, як температура чи навіть стік річок контролюються з часом. Ця прогалина в даних означає, що моделі глибокого навчання, які дедалі більше здатні прогнозувати погоду, не здатні передбачити раптові повені.
Щоб вирішити цю проблему, дослідники Google використали Gemini — велику мовну модель Google — для сортування 5 мільйонів новинних статей з усього світу, виділивши повідомлення про 2,6 мільйона різних повеней та перетворивши ці повідомлення на часовий ряд із геотегами під назвою «Groundsource». За словами Гіли Лойке, менеджера продукту Google Research, це перший випадок, коли компанія використовувала мовні моделі для такої роботи. Дослідження та набір даних були оприлюднені у четвер вранці.
Використовуючи Groundsource як реальну базову модель, дослідники навчили модель, побудовану на нейронній мережі з довгостроковою пам'яттю (LSTM), для обробки глобальних прогнозів погоди та генерації ймовірності раптових повеней у заданому районі.
Модель прогнозування раптових повеней від Google тепер виявляє ризики для міських районів у 150 країнах на платформі Flood Hub компанії та надає доступ до своїх даних службам реагування на надзвичайні ситуації по всьому світу. Антоніо Хосе Белеза, співробітник відділу реагування на надзвичайні ситуації в Південноафриканському співтоваристві розвитку, який випробував модель прогнозування з Google, сказав, що вона допомогла його організації швидше реагувати на повені.
Модель все ще має обмеження. По-перше, вона має досить низьку роздільну здатність, визначаючи ризик на ділянках площею 20 квадратних кілометрів. І вона не така точна, як система оповіщення про повені Національної метеорологічної служби США, частково тому, що модель Google не враховує дані локальних радарів, які дозволяють відстежувати опади в режимі реального часу.
Частково суть полягає в тому, що проєкт був розроблений для роботи в місцях, де місцеві органи влади не можуть дозволити собі інвестувати в дорогу інфраструктуру для вимірювання погоди або не мають великих баз метеорологічних даних.
«Оскільки ми збираємо мільйони звітів, набір даних Groundsource фактично допомагає перебалансувати карту», – сказала журналістам цього тижня Джульєт Ротенберг, керівник програми команди Google Resilience. «Це дозволяє нам екстраполювати на інші регіони, де інформації не так багато».
Ротенберг сказав, що команда сподівається, що використання LLM для розробки кількісних наборів даних з письмових якісних джерел може бути застосоване до зусиль зі створення наборів даних про інші ефемерні, але важливі для прогнозування явища, такі як теплові хвилі та зсуви.
Маршалл Мутено, генеральний директор Upstream Tech, компанії, яка використовує аналогічні моделі глибокого навчання для прогнозування річкових потоків для таких клієнтів, як гідроенергетичні компанії, заявив, що внесок Google є частиною зростаючих зусиль щодо збору даних для моделей прогнозування погоди на основі глибокого навчання. Мутено є співзасновником dynamical.org , групи, яка курує колекцію метеорологічних даних, готових до машинного навчання, для дослідників та стартапів.
«Дефіцит даних — одна з найскладніших проблем у геофізиці», — сказав Мутено. «Одночасно даних про Землю забагато, а потім, коли потрібно оцінити їх на предмет достовірності, їх виявляється недостатньо. Це був справді креативний підхід до отримання цих даних».