Google AI搜尋引擎「翻車」:網友爆笑鬥圖狂歡全紀錄

Featured Image
福無雙至,禍不單行,Google再次「翻車」。2023年2月,Google展示Bard時犯了事實錯誤,想要追趕ChatGPT的Bard,卻犯了錯;2023年12月,Gemini像賈維斯一樣侃侃而談,但實際上影片有進行後製;2024年2月,Gemini生成了各種膚色的歷史人物,卻被評為歧視白人。這次厄運降臨在Google的拿手好戲-搜尋引擎上。網友們熱衷於觀看這場烏龍秀,紛紛上傳笑料。

Google AI搜尋引擎的愚蠢之處引起了大家的嘲笑。剛結束的2024 Google I/O大會上,AI概述(AI Overview)是新功能之一。AI概述在網頁頂部生成多源摘要,當然還附有連結。Google對AI概述非常有信心,宣布立即在全美國推出,然後會擴展到更多國家,到年底將有超過10億人可以使用。

但是沒過多久,AI概述就翻車了。**做披薩時,如果乳酪容易掉下來該怎麼辦?** Google建議您,在醬汁中添加大約八分之一杯膠水。特別強調這是無毒的,這個原因令人動容。Google AI並不是編造這個建議,而是直接引用了11年前一個「美版PTT」Reddit的使用者留言,可惜AI並不了解人類的幽默。

**人一天應該吃多少石頭補充營養?** AI沒有反駁這個不合理的問題,只是一本正經地胡說八道:據加州大學柏克萊分校的地質學家所說,一天至少應該吃一塊小石頭,以攝取維生素和礦物質。這個答案來自於2021年的一篇「報導」,出自以假新聞和諷刺文聞名的洋蔥新聞。AI概述還不熟悉美國的歷史,掉進了陰謀論的陷阱,聲稱奧巴馬是第一位穆斯林總統。各個社交媒體平台立刻掀起了一股浪潮:晒截圖,看誰家的Google AI回答最荒謬。競爭非常激烈,AI世界中的前總統從威斯康辛大學畢業了21次,一隻狗曾在NBA、NFL和NHL打球,蝙蝠俠是警察。

在這個充滿了渾水摸魚和顛倒是非的鄉民聚集地,Google解釋說大部分AI概述的資訊都是正確的,並且提供有效的連結供用戶深入了解。並且很多「翻車」的例子都不常見,無法重現結果甚至篡改,像廣泛傳播的截圖顯示,治療憂鬱症的方法是跳下金門大橋一了百了。Google對此特別解釋這是假的。但Google沒有解釋其他例子,而是把它們當作改進AI的養分,這可是現成的人類回饋強化學習(RLHF)的機會呢。敏銳的網友還發現,在2024 I/O大會上精心挑選的示範也有事實錯誤,只不過不太明顯。比如修復卡住的底片相機?Google建議打開背蓋並輕輕取下底片,但這樣會毀掉整捲底片。

Google真是倒霉,這已經不是第一次在備受矚目的場合犯錯了。2023年2月,Google展示Bard時說詹姆斯·韋伯太空望遠鏡是第一個拍攝太陽系外行星的太空望遠鏡,但實際上第一張系外行星圖是在2004年拍攝的。一次錯誤,市值蒸發了數千億美元。

除了AI概述出了問題,還有一個問題是這個功能很難關閉。熱心的開發者趕緊開發了外掛,強制只顯示傳統搜尋結果。沒有方便的退出機制是Google的失策,而且AI概述基於傳統搜尋,用戶量非常大,萬一有不熟悉AI的用戶,盲目相信結果卻被誤導,後果將會很可怕。

「Google錯誤率怎麼有30%?」AI概述出問題並不是什麼新鮮事,AI犯錯早已成為公開的秘密,就像「吸菸有害健康」這樣的標語一樣,AI概述網頁底部也有標註:「生成式AI只是實驗性的」,ChatGPT也小字提醒:「可能會犯錯,請核查重要資訊」。大型語言模型的基本原理就是預測下個單詞或片語的機率最高,有時會選擇不正確但合理的詞語,導致假資訊或「幻覺」。AI概述的胡言亂語也是其中的一種幻覺,結合了大型語言模型生成的句子和網絡連結,雖然可以引用來源,但不能保證正確性。即使是RAG(檢索增強生成)技術,將檢索系統與模型結合,限制回答範圍,也只能抑制幻覺,無法完全消除。

而且來源的可信度本來就存在疑問。Reddit是由網友提供內容,而不是權威媒體。2021年2月,Google與Reddit達成協議,將論壇內容提供給AI模型進行訓練,有人質疑這只是「垃圾進,垃圾出」。Google並不是唯一受困於「幻覺」的公司。去年5月,一位網友在提問微軟的新版Bing時發現明顯錯誤的答案,他點擊了參考連結後發現,答案來源是知乎的回答,也是由AI生成的,用字和措辭充滿了AI的風格,遠遠超出人類的能力。AI搜尋如何引用資料,這也是一個令人困惑的問題。以簡體中文搜尋「如何幫柴犬洗澡」,Perplexity的來源有搜狐、YouTube、豆瓣日記、B站,而天工的來源是知乎和百度文庫,真不知道哪個更可信。

既然AI搜尋都會出現幻覺,為什麼總是Google成為焦點呢?Google成立於1998年,幾乎是搜索的代名詞,也是AI巨頭,自然會受到高度期待,也必須承擔犯錯的後果。相比之下,Perplexity的首席執行官Aravind Srinivas表示,輕量級的公司是他們的優勢,他的語氣相當自豪。「如果你使用我們的產品,有80%的答案是正確的,你可能會對我們印象深刻;但如果使用Google的產品只有70%的答案是正確的,你可能會感到困惑,Google錯誤率怎麼高達30%?」

AI搜尋也導致了用戶認知的轉變。以前我們說「Google搜索」,介紹生成式AI功能時,Google的標題是「讓Google幫您搜索」,主次角色微妙地倒過來了。過去Google展示的是哪些連結可以回答問題,現在則是自己用AI回答問題。

從源頭來看,傳播錯誤資訊的矛頭轉向了只是引用資訊的Google,但這個黑鍋Google不得不背。AI概述回答事實以外的問題還有哪些可能性?既然幻覺是固定前提,那麼我們應該從另一個角度來看待AI搜尋,問自己:是不是人類的預期出了問題?在AI概述受到批評之前,Google的CEO皮蔡在最近接受The Verge的採訪時提到,「幻覺」仍然是未解決的問題,甚至可以說是大型語言模型的特點。大型語言模型不一定是獲取事實的最佳途徑,但這並不意味著大型語言模型是無用的,非黑即白是不可取的。CEO接受採訪或者在I/O大會上宣傳,都是向用戶傳遞一個理念:不要把AI搜尋僅僅當作網頁的簡單總結,AI還有很多發光發熱的地方,但AI概述讓人不滿意,這並不是用戶的錯。相對於示範,現在的AI概述還不是完全體,還有很多功能尚未上線。Google的搜尋主管Liz Reid展示了「多步推理」,只需輸入「找到波士頓最好的瑜伽教室,顯示優惠資訊,以及從燈塔山出發的步行時間」,AI就能一次回答,以前需要進行三次搜索,現在只需要一次。AI概述將來還將具備「規劃」功能,例如要求AI規劃三天的晚餐,使用者可以直接獲得食譜,並添加更多細節,如「素食」等需求,然後將其匯出為多種文件格式。

Google的思路和其他AI搜尋產品不謀而合:使搜索更可視化、更具互動性和個性化,用人類的語言而不是關鍵詞進行交流,節省檢查資訊的重複時間,回答更複雜的問題。祕塔提供了簡潔、深入和研究等模式,研究模式甚至列出了大綱和思維導圖,生成示範文件;Perplexity可以控制搜索範圍,既可以搜索整個互聯網,也可以根據需求縮小到學術論文、YouTube、Reddit等;天工將AI搜尋作為入口,提供更多的生產力工具,如AI速讀、音樂創作等智能體,相當於在AI搜尋之外搭建了AIGC創作平台。

在平常的大多數問題中,像天氣、匯率等只需要跳轉到官網,簡單的傳統搜尋就可以得到答案。但對於複雜的問題,AI搜尋被寄予厚望,畢竟相比ChatGPT等只有來源的限制,AI搜尋更方便查證,並且比傳統搜尋還具備研究、創作、規劃、腦力激盪等更多功能。與其說是比傳統搜尋更好的百科全書,不如說AI搜尋更像一個AI助手。

當然,AI搜尋的幻覺問題仍然令人討厭。有人建議為了安全起見,使用生成式AI時不要只看摘要,還要用傳統的Google搜尋進行核對。看來風水雖然輪流轉

Share this content: