在2014年底正式推出Echo聲控揚聲器,並可透過其內建的Alexa語音助理,為使用者提供種種應用服務,帶起了語音助理進軍智慧家庭的浪潮。從硬體設計的觀點,智慧揚聲器的使用者體驗好壞,主要涉及三大環節,分別是收音麥克風、語音處理器、語音辨識引擎。其中,為了追求最好的語音接收效果,甚至具備聽聲辨位的能力,陣列式麥克風將成為標準配備。
泉聲電子董事長溫增豐表示,利用語音指令來控制電子產品,對使用者來說,是最自然的人機介面。但要讓機器設備清楚地聽到指令,背後涉及許多聲學上的專業。
在家庭環境中,其實存在著許多背景噪音,麥克風本身也有底噪。要避免這些噪音蓋過使用者所發出的語音指令,可分成兩個層次來談。針對外部的背景噪音,硬體製造商可透過多顆麥克風元件搭配噪聲消除演算法,來消除使用者以外的雜音。這部分涉及麥克風製造商及語音處理器的搭配。至於麥克風的底噪,則要看電聲元件業者的功力,以及所選用的麥克風設計架構。
一般來說,駐極體麥克風(ECM)的訊噪比(SNR)是最好的,可達70dB以上。截至目前為止,專業錄音室所使用的麥克風,基本上都還是ECM的天下。不過,微機電(MEMS)麥克風的訊噪比近年來也有顯著改善,目前業界的水準可以做到64~65dB,與ECM的差距正在拉近。
不過,ECM有一個先天的缺點,就是採用陣列式設計時,ECM麥克風模組的組裝加工較為困難,MEMS則沒有這個問題,在大量生產時,加工相對簡便。不過,MEMS麥克風先天上對低頻的反應不如ECM麥克風,這也是應用開發商在選擇麥克風元件時,必須特別注意的。
因此,溫增豐總結指出,就智慧揚聲器應用來說,未來應該會是以MEMS麥克風為主流。畢竟,在採用陣列式架構的前提下,MEMS麥克風有很明顯的優勢。目前市面上的智慧揚聲器,絕大多數都是採用陣列式麥克風,例如中國科大訊飛和電商平台京東聯合成立的靈隆科技,便推出了採用五顆麥克風的叮咚音箱;亞馬遜的Echo則內建七顆麥克風(圖3);Google Home則只有兩顆。雖然聲音接收效果與麥克風的顆數未必成正比,但就智慧揚聲器應用來說,單一麥克風絕對是不夠的。