Новий Google SGE зі ЩІ вигадує факти та неправильно тлумачить запитання

Новий Google може робити деякі корисні речі. Але, як ви побачите, він іноді також вигадує факти, неправильно тлумачить запитання, надає застарілу інформацію та просто балакає. Що ще гірше, дослідники виявляють, що ШІ часто підносить сайти нижчої якості як надійні джерела інформації.

SGE від Google абсолютно неправильно тлумачить зміст запитання про сюжет популярного телешоу «Теорія великого вибуху». Традиційні результати Google приведуть вас прямо до короткого опису. (Ілюстрація Washington Post; Джеффрі А. Фаулер/The Washington Post через Google)

Зазвичай я б не ставив огляд продукту, який не закінчений. Але це випробування майбутнього Google триває вже майже рік, і вибір, який робиться зараз, впливатиме на те, як мільярди людей отримають інформацію. На кону також стоїть основна ідея, яка лежить в основі нинішнього божевілля ШІ: що технологія може замінити потребу самостійно досліджувати речі, просто даючи нам відповіді. Якщо компанія з грошима та обчислювальною потужністю Google не може змусити це працювати, то хто зможе?

SGE є відповіддю на те, що деякі люди, включно зі мною, починають звертатися до штучного інтелекту, як-от ChatGPT, для більш складних запитань або коли нам не хочеться читати купу різних сайтів. Onely , фірма з оптимізації пошуку, підрахувала, що використання SGE може скоротити загальну дослідницьку подорож користувача в 10-20 разів, зібравши плюси і мінуси, ціни та іншу інформацію в одному місці.

Всезнаючий бот-відповідач звучить корисно, враховуючи, що рівень нашої уваги скорочується. Але Google має над чим працювати. Ми очікуємо, що пошук буде швидким, але генерація відповідей ШІ Google займає болісну секунду-дві. Google має збалансувати і без того крихку економіку Інтернету, де її відповіді ШІ можуть красти трафік у видавців, які виконують дорогу та важку роботу з фактичного дослідження речей.

І найголовніше, новий Google має виконати обіцянку, що він може послідовно та правильно відповідати на наші запитання. Саме на цьому я зосередив своє тестування — і продовжував знаходити приклади, коли наддув Google із штучним інтелектом показав гірші результати, ніж його попередник.

Перевірте відповіді Google на основі ШІ

Часто, коли ви шукаєте в Google, вам дійсно потрібна коротка інформація або посилання. У повсякденному житті новий Google часто дратує, бо його штучний інтелект дуже балакучий.

Тупий приклад: «Що їдять трансформери?»

Що їдять роботи-трансформери? Google SGE дає розгорнуту відповідь, яка пропускає низьку відповідь. Традиційний пошук у Google дає однослівну відповідь: Енергон. (Ілюстрація Washington Post; Джеффрі А. Фаулер/The Washington Post через Google)

Відповідь ШІ сказала мені, що вигаданим роботам насправді не потрібно їсти чи пити, хоча їм потрібне якесь паливо. Тим часом старий Google мав однослівну відповідь, яку я шукав: Energon. (Це своєрідне магічне паливо.) Ви отримали цю відповідь від нового Google, лише прокрутивши сторінку вниз.

Це трапляється не тільки з роботами-інопланетянами. Коли SE Ranking, фірма, що спеціалізується на пошуковій оптимізації, протестувала SGE за допомогою 100 000 ключових запитів, виявилося, що середня відповідь, яку вона згенерувала, становила 3485 символів — або приблизно третину довжини цього стовпця. Одним із завдань Google є з’ясування того, коли його ШІ краще просто мовчати; іноді SGE просить вас натиснути кнопку «генерувати», перш ніж написати відповідь.

Найбільше, коли ми шукаємо, ми очікуємо правильної інформації. Google стверджує, що SGE має перевагу в ChatGPT, оскільки її знання актуальні.

Проте я виявив, що новий Google все ще має проблеми з недавніми справами. Через три дні після останньої церемонії вручення премії «Оскар» я шукав «Оскар 2024». Мені сказали, що «Оскар» ще попереду, і перерахували деяких номінантів.

Це включає факти про вас насправді. Я запитав його про відзначений нагородами серіал, який я написав для The Washington Post, і він приписав це якомусь незнайомцю, а потім дав посилання на якийсь інший веб-сайт.

Потім був час, коли SGE надто щасливо вигадувала інформацію про те, чого навіть не існує. Я запитав про ресторан у Сан-Франциско під назвою Danny's Dan Dan Noodles, і він сказав мені, що там «божевільний час очікування», і описав їжу.

Google SGE винайшов «довгі черги та божевільний час очікування» для ресторану, якого не існує. Через кілька днів відповідь на той самий запит була, що черги середні. (Ілюстрація Washington Post; Джеффрі А. Фаулер/The Washington Post/Google) (Ілюстрація Washington Post; Джеффрі А. Фаулер/The Washington Post через Google/TWP)

Проблема в тому, що це уявний магазин, який я назвав на честь моєї улюбленої китайської страви. ШІ Google не мав проблем із винаходом інформації про це.

Так звані галюцинації щодо справжніх і фейкових тем є відомою проблемою сучасного ШІ. Застереження над результатами SGE говорить: «Generative AI є експериментальним», але це не розв'язує проблему. Google має з’ясувати, як сказати «Я не знаю», коли він не впевнений.

Підозрілі джерела

Щоб дати нам відповіді на всі питання, ШІ Google має вирішити, які джерела є надійними. Я не дуже впевнений у його судженні.

Професійний дослідник — а також звичайний старий Google — може запропонувати перевірити список мільярдерів від Forbes . ШІ-відповідь Google спиралася на дуже дивну сторінку ZipRecruiter для «Вакансії Марка Цукерберга», речі, якої не існує.

У моїх тестах підозрювані джерела були зразком. За пропозицією Onely я запитав у нового Google, що надійніше: Apple iPhone чи Samsung. Як давній рецензент, я міг би розповісти вам багато хороших джерел інформації з цього приводу, включно з професійними журналістами та ремонтними організаціями, такими як iFixit.

Чому Google SGE вважає, що погляд одного випадкового користувача Reddit корисний у питанні про загальну надійність брендів смартфонів? (Ілюстрація Washington Post; лише через Google) (Ілюстрація Washington Post; Джеффрі А. Фаулер/The Washington Post через Google/TWP)

Натомість штучний інтелект наводить випадкові погляди людей із соціальних мереж. Окрім обмеженої корисності досвіду одного користувача Reddit, як Google дізнається, що це не був підроблений відгук, опублікований виробником телефону?

«Google SGE діє за іншими правилами порівняно з традиційною пошуковою системою, яку ми знаємо сьогодні», — сказав Томек Рудзкі, керівник відділу досліджень і розвитку Onely.

SEO-компанії намагаються провести кількісні дослідження цінностей SGE, хоча вони обмежені вимогами Google щодо тестових облікових записів. Але вони виявили подібну закономірність у розриві між сайтами, на які посилаються старий і новий Google. Наприкінці березня компанія-виробник програмного забезпечення SEO Authoritas протестувала пошукові запити з тисячею термінів покупок і виявила, що в 77% випадків домен традиційного результату пошуку № 1 ніде не відображався у відповіді, написаній ШІ.

У своєму дослідженні 100 000 пошукових запитів за ключовими словами SE Ranking виявив, що служба запитань і відповідей Quora є джерелом з найбільшою кількістю посилань SGE; LinkedIn і Reddit посіли п'яте і шосте місця. Як часто ці джерела були б прийнятними для курсової роботи для восьмого класу?

Під час пошукових запитів на технічні теми , включно з великою кількістю запитань «як це зробити», рейтинг SE виявив, що найчастіше посилається домен simplilearn.com . Я ніколи не чув про це раніше; сайт описує себе як «онлайн-навчальний табір».

«Ця тенденція не тільки погіршує якість результатів пошуку, але й зменшує відвідуваність і дохід для багатьох малих підприємств, включаючи веб-сайти афілійованих сайтів», — каже керівник SEO SE Ranking Анастасія Коцюбинська.

Робота в процесі

У Google кажуть, що SGE – це експеримент із підключенням. Але в грудні минулого року Google вже закінчився , і поки не повідомляє, коли почне шукати всіх. Цілком можливо, що Google вважає SGE недостатньо точним, швидким або прибутковим, і в кінцевому підсумку це кардинально змінить.

Їм доцільно діяти повільно, навіть якщо Google виглядає так, ніби він відстає в гонці ШІ. Конкурентна пошукова система Bing від Microsoft здійснила аналогічну реконструкцію штучного інтелекту в лютому 2023 року, але її штучний інтелект досі найбільш відомий тим, що не працює.

В інтерв’ю Елізабет Рейд, віце-президент Google, яка керує SGE, охарактеризувала це як роботу, що триває.

«Ми справді зосереджені на тому, щоб отримати правильний досвід. На це впливає багато різних факторів — наприклад, затримка, точність, корисність», — сказав Рейд. «Під час ітерації та навчання ми виявили, що це досить нюанси». Іншими словами, інколи штучний інтелект допомагає, а інколи ні — і Google усе ще намагається з’ясувати, де провести межу.

Коли я поділився прикладами в цій колонці, Рейд сказала мені, що показники галюцинацій у SGE є «дуже низькими» і «суттєво» зменшилися з моменту запуску SGE у травні, хоча вона відмовилася говорити конкретно.

«Я не хочу применшувати це — це виклик із технологією», і те, над чим «ми справді працюємо», — сказав Рейд. Вона додала, що розміщувати посилання поруч із відповідями ШІ важливо, щоб люди могли самостійно перевірити факти.

Ось пропозиція: оскільки Google визнає, що правдиві факти є проблемою, він повинен оприлюднити власні дані щодо точності, перш ніж представити SGE ширшій аудиторії. З мільярдами пошукових запитів щодня навіть 0,001 відсотка може додати багато неправильної інформації.

Інша сфера уваги Google — це «спроба допомогти нам якнайшвидше дійти до суті питання, а потім дати додаткові деталі», — сказала Рейд.

Що стосується посилань на неякісні джерела, Google заперечив зовнішнє дослідження SGE, заявивши, що воно базується на пошуках, які є більш обмеженими, ніж те, що Google бачить на практиці. Але він відмовився ділитися власними даними.

Рейд каже, що стандарт SGE не відрізняється від стандарту старого Google. «Ми бачимо більше різноманітних джерел, які надходять. Але насправді наша мета полягає в тому, щоб продовжувати розміщувати високоякісний контент на першому місці», — сказала вона.

Людям досить важко вибрати, кому вірити. Чому Google думає, що його поточна технологія ШІ, відома як LLM, або великі мовні моделі, справляється з цим завданням?

«Вони не ідеальні», — сказала Рейд. «Ми хочемо застосувати цей продуманий підхід, тому що довіра людей до Google дуже важлива».

Від цього залежить майбутнє нашої інформації.

SGE поєднує знайому вам пошукову систему з можливостями чат-бота. Крім традиційних результатів, SGE пише прямі відповіді на запити, які перемежовуються посиланнями, щоб копати глибше.