智慧耳機革命:AI目標語音聽覺系統,清晰隔離噪音

Featured Image
降噪耳機在隔絕外界聲音、創造一個安靜的聽覺環境方面已經做得非常好,但是要如何選擇性地讓佩戴者想聽的特定聲音穿透這層隔絕,仍然是研究人員面臨的挑戰。例如,最新版的 Apple AirPods Pro在偵測到使用者在交談時,會自動為佩戴者調整聲音音量,但使用者幾乎無法控制要收聽誰的聲音或這種情況發生的時間。 華盛頓大學的一個團隊開發了一種人工智慧系統,讓佩戴耳機的使用者看著說話的人三到五秒鐘來「註冊」他們。該系統稱為「目標語音聽覺」(TSH),的系統隨後會消除環境中的所有其他聲音,並即時播放已註冊說話者的聲音,即使聽者在嘈雜的地方四處走動,不再面向說話者也是如此。 該團隊於 5 月 14 日在檀香山的人機互動會議(ACM CHI Conference on Human Factors in Computing Systems)上展示了他們的研究成果。概念驗證設備的程式碼已經公開,可以讓其他人使用,不過這個系統目前尚未商業化。 「我們現在往往將 AI 視為可以回答問題的網路聊天機器人,」華盛頓大學艾倫計算機科學與工程學院教授、該專案的主要作者施亞姆·戈拉科塔(Shyam Gollakota)說。「但在這個專案中,我們開發了AI來根據使用者偏好改變佩戴耳機者的聽覺體驗。使用我們的裝置,即使你身處吵雜的環境中有很多人在說話,也能清晰地聽到單個講話者的聲音。」 使用這個系統時,佩戴帶有麥克風的常見耳機的人會在頭部朝向講話的對象時點擊一個按鈕。該講話者的聲波就應該同時抵達耳機兩側的麥克風;有16度的誤差容忍範圍。耳機會將該訊號發送到內建置的嵌入式電腦,團隊的機器學習軟體會學習所需講話者的語音模式。系統會鎖定那個講話者的聲音並持續將其播放給聽者,即使雙方都在移動也是如此。當講話者繼續說話、為系統提供更多訓練數據時,系統對註冊語音的專注力會更強。 該團隊在 21 名受試者身上測試了他們的系統,他們平均對註冊說話者聲音清晰度的評分幾乎是未經過濾的音訊的兩倍。 這項工作建立在該團隊之前的「語義聽覺」研究的基礎上,該研究允許使用者選擇他們想要聽到的特定聲音類別(例如鳥鳴或人聲音),並消除環境中的其他聲音。 目前 TSH 系統一次只能註冊一個說話者,並且只有當沒有其他來自與目標說話者聲音相同方向的響亮聲音時,才能註冊說話者。如果使用者對音質不滿意,可再次對講話者進行註冊以提高清晰度。 該團隊正在努力,將來把這一系統推廣到耳機和助聽器。

Share this content: