Google AI搜尋翻車?揭秘幻覺背後的真相與挑戰

Featured Image
Google AI Overview 幻覺 AI
2023 年 2 月,追趕 ChatGPT 的 Bard,公開犯了事實錯誤;2023 年 12 月,Gemini 侃侃而談如同賈維斯,然而卻被爆出影片是經過後製處理;2024 年 2 月,Gemini 生成多種膚色的歷史人物,被批評歧視白人。這回,厄運降臨到 Google 的看家本領「搜尋」功能。國外網友看熱鬧不嫌事大,甚至上演了一波鬥圖狂歡。

剛結束不久的 Google I/O 大會,推出的其中一項功能是 AI Overview。顧名思義,AI Overview 在網頁頂部生成綜合多個內容來源的摘要,同時附有連結。

當時,Google 對 AI Overview 很有信心,宣佈當即向所有美國用戶推出,很快也會推廣到更多國家,預計年底超過 10 億人都可以使用。然而沒過幾天,AI Overview 先在美國用戶這裡翻車了。

自製披薩的奶酪容易掉下來怎麼辦?Google 建議:往醬汁裡添加約 1/8 杯的膠水即可。特意強調是無毒的,真是令人感到窩心。

Google 並非隨意編故事,而是從 Reddit 一位用戶 11 年前的評論照搬了答案,可惜它讀不懂人類的幽默。

人一天裡應該吃多少石頭補充營養?Google 沒有反駁問題本身的不合理,一本正經地胡說八道,根據加州大學伯克利分校地質學家的說法,應該一天至少吃一塊小石頭,以便攝取維生素和礦物質。

答案的源頭是 2021 年的一篇報導,出自以假新聞和諷刺文章聞名的新聞內容。AI Overview 也不精通美國歷史,掉進了陰謀論的陷阱,說奧巴馬是第一位穆斯林總統。

一時間,X 等社交媒體掀起了一股抽象的浪潮:曬截圖,比拼誰的 Google 回答最荒謬。競爭異常激烈,在 AI 的世界里,前總統從威斯康辛大學畢業了 21 次,一隻狗曾在 NBA、NFL 和 NHL 打過球,蝙蝠俠是一名警察。針對這樣的狀況,Google 回應表示大部分 AI Overview 提供的訊息還是正確的,也提供了有用的連結供使用者深入瞭解,很多「翻車」例子,都是一些比較不常見的問題,結果無法重現甚至被篡改過。比如,一張流傳甚廣的截圖顯示,治療憂鬱症的方法是跳下金門大橋一了百了。事關人命,Google 特意解釋了,這個結果是偽造的。

與此同時,Google 沒有闢謠其他例子,而是把它們作為改進 AI 的養分。火眼金睛的網友還發現,之前 Google I/O 精挑細選的示範中,其實也出現了事實錯誤,只不過更加隱蔽。被問到如何修復卡住的底片相機,Google 建議打開相機蓋並輕輕地取下底片,但如果實際這樣操作基本上會直接毀掉整卷底片。

流年不利的 Google,也不是第一次在萬眾矚目的公共場合犯錯了。2023 年 2 月,Google Bard 在展示時說,詹姆斯·韋伯太空望遠鏡是第一個拍攝太陽系外行星的望遠鏡。事實上,第一張太陽系外行星圖像是在 2004 年拍攝的。一個錯誤,付出市值縮水 1000 億美元的代價。這次,除了 AI Overview 本身犯錯,還有一個糟糕的地方:這個功能,它不好關。一些熱心的開發者,連夜製作了幾個擴充功能,強制讓 Google 搜尋只顯示傳統的搜尋結果。沒有方便的退出機制是 Google 的不對,AI Overview 基於傳統搜尋頁面,用戶量極大,萬一有不熟悉 AI 的用戶,盲目信任它的結果並被誤導,後果就不好說了。

「Google 怎麼會錯 30%?」
其實,AI Overview 被曝光的問題並不新鮮。AI 會犯錯,早就是公開的秘密。就像是「吸煙有害健康」的標語一樣,AI Overview 下方標注著「生成式 AI 是實驗性的。」ChatGPT 也小字提醒「可能會犯錯。」大型語言模型的基本原理,是利用預測下一個單詞或者短語生成出現機率最大的內容,有時可能會選擇不正確但看似合理的詞語,也就導致了虛假訊息或者說「幻覺」。AI Overview 的胡言亂語也是幻覺的表現,它結合了大型語言模型生成的語句和網際網路的連結,可以引用內容來源,但不保證這些引用內容的準確。哪怕用到了 RAG(檢索增強生成)等技術,將檢索系統與生成模型相結合,限制回答問題的範圍,也只能抑制幻覺,而非根治幻覺。

並且,內容來源本身的可信度存疑。就像是美國版的 PTT 論壇 Reddit 就是由網友貢獻內容,而非權威媒體。今年 2 月,Google 與 Reddit 達成協議,將其內容用於訓練 AI 模型。當時就有人懷疑,會否導致「garbage in, garbage out」(垃圾進,垃圾出)的尷尬情況。被「幻覺」困擾的不只 Google。去年 5 月,一位網友提問微軟的 New Bing 時,答案明顯錯誤,他點開參考連結時發現,作為引用來源的回答,居然也是 AI 生成的,遣詞造句盡顯 AI 風味。既然 AI 搜尋都有幻覺,為什麼總是 Google 被炎上?

創立於 1998 年的 Google,如今成為搜尋的代名詞,身為 AI 巨擘,勢必拉高了外界的期待,也必須承擔犯錯的後果。相反,Perplexity 的 CEO Aravind Srinivas 表示,輕裝上陣就是他們的優勢,字裡行間還有些驕傲。「如果你使用我們的產品,80% 表現不錯,你可能覺得印象深刻,但如果你使用 Google 的產品,只有 70% 正確,你可能會不解,Google 怎麼會錯 30%?」

另外,AI 搜尋也導致了一個使用者認知上的轉變。我們以前說「用 Google 搜尋」,而介紹搜尋的生成式 AI 功能時,Google 自己在官方部落格下的標題是「讓 Google 為你進行搜尋」,把主要和次要的關係微妙地倒轉了。過去,Google 搜尋結果提供了那些可以回答你問題的連結。現在,Google 自己用 AI 回答你的問題。也因此,傳播錯誤內容的矛頭,從訊息來源本身,轉移到了引用訊息內容的 Google 身上。這鍋,Google 不得不背。AI 搜尋在提供事實之外,還有哪些可能性

既然幻覺已然是前提,我們應該換個角度看待 AI 搜尋,問自己一個問題:是不是我們的預期出了錯誤?其實在 AI Overview 被批評前,Google CEO 就在近日 The Verge 的採訪中提到過,「幻覺」問題仍未解決,甚至可以說是大型語言模型固有的特徵。他認為,大型語言模型不一定是瞭解事實的最佳管道,但這不代表大型語言模型是個廢柴,非黑即白的思維不可取,比如它可以創造詩歌、引入搜尋。

CEO 接受採訪也好,I/O 大會也罷,都是在向用戶傳遞一個觀念:不要只把 AI 搜尋當作對現有網頁的簡單總結,AI 發光發熱的地方還有很多。但 AI Overview 沒能讓人滿意,怪不到用戶頭上,相比發表會上展示的神奇效果,現在的 AI Overview 並非完全形態,很多功能還沒有上線。Google 搜尋主管 Liz Reid 在 I/O 示範了一個「多步推理」的例子,輸入「找到波士頓最好的瑜伽教室,提供優惠訊息,以及從燈塔山出發的步行時間」,AI 一步到位,以前要搜尋三次的,現在一次就夠了。

同時,AI Overview 未來還將有「規劃」能力,比如要求 AI 規劃三天的晚餐,使用者可以直接拿到一份食譜,並在這個過程中進行客製化,加上「素食」等需求,然後把這些結果輸出到文件中。

Google 的思路,和其他 AI 搜尋產品殊途同歸,就是讓搜尋更加可視化、更有互動性和個性化,用人話而非關鍵字溝通,節省查詢內容的時間,並且回答更加複雜和具體的問題。平時的大多數問題,天氣如何,匯率多少,跳轉官網,其實利用簡單的傳統搜尋就可以得到答案。但相對複雜的場景,AI 搜尋被寄予了厚望,畢竟它比起 ChatGPT 這類內容生成式 AI 相比,多了內容來源,更加方便查證,比起傳統搜尋,又能進行更多的研究、創作、規劃、創意發想…等。與其說是比傳統搜尋更好的百科全書,不如說更有助理的樣子。

當然,餅畫得再多,AI 艘下雲的幻覺還是讓人在使用這些功能時不免擔憂。為此有人建議,安全起見,用生成式 AI,別只看摘要,再用傳統的 Google 搜尋檢查一下。

Share this content: