文:Owen
智能眼鏡一直被視為 AI 走入現實世界的重要入口,可是並非人人都願意戴一副有鏡頭的眼鏡出街。美國華盛頓大學研究團隊最近就提出另一條路線:與其叫人戴智能眼鏡,不如把微型相機直接放入大家本來已經習慣使用的無線耳機之中。這套名為 VueBuds 的原型系統,便是在現成無線耳機塞中加入米粒大小的相機,讓用家可以直接向 AI 詢問眼前看到的東西。
VueBuds 的概念,與早前傳聞中 Apple 為將來的 AirPods 加入鏡頭頗為相似。它的相機並不是用來拍攝高質素照片或影片,而是擷取低解像度黑白影像,再透過 Bluetooth 傳送至附近手機或裝置,由本地 AI 模型分析畫面並回答問題。例如用家望向一包韓文食品,然後說:「Hey Vue,幫我翻譯。」系統便可辨識包裝上的文字,並以語音回應大意。整個過程約一秒完成,重點不是影像好不好看,而是 AI 能否理解眼前資訊,並即時轉化成用家聽得明白的答案。
VueBuds 沒有支援串流影片,也沒有使用高質素彩色感光元件,原因很現實:電力與傳輸限制。藍牙並不適合長時間傳送大量影像資料,高解像感光元件亦會大幅增加耗電。因此研究團隊選擇偶爾拍攝低解像度黑白靜態影像,既節省電力,也足以支援文字辨識、物件理解與基本場景分析。不過,由於目前只拍攝灰階影像,系統暫時無法回答與顏色有關的問題。研究人員亦承認,未來若加入彩色相機或更專門的 AI 模型,功能會更完整,但同時會增加耗電與硬件負擔。
耳機位於頭部兩側,不像眼鏡鏡框般接近視線中心,臉部亦有機會遮擋視野。研究團隊最初便要處理這個問題:耳機相機是否會被面部擋住?又能否可靠捕捉用家的前方視野?結果他們發現,只要把相機略微向外傾斜約 5 至 10 度,就能取得約 98 至 108 度視角。雖然當物件非常接近臉部、約 7.8 吋距離時會出現小盲點,但研究人員認為,這在日常使用中並不算大問題。換句話說,耳機未必能完全取代眼鏡式視角,但已足以捕捉大部分前方環境。
在影像科技侵略生活的年代,穿戴式相機最讓人提心吊膽的,莫過於私隱安全。VueBuds 的核心靈魂在於「全本地端運算」,所有擷取下來的低清黑白相片只會在隨身手機內部的輕量化模型中進行即時分析,絕不上傳到雲端伺服器,從源頭上切斷了數據洩漏的風險。同時,耳機外面配備了實體的錄影指示燈,每當相機啟動時便會亮起提醒旁人;系統亦大方給予用家「即時刪除」的權限。在實驗室實測中,這套「低清黑白配方」在識別書名、作者以及翻譯外語食品標籤時,竟然交出了高達 83% 至 93% 的恐怖準確度,在實用性上完全不輸身價高昂的 Meta 智能眼鏡。
資料來源:PetaPixel




