物聯網www.tdiaot.live

這顆芯片或讓手勢交互進入主流

時間:2019-10-23 08:32:41

來源:半導體行業觀察

作者:佚名

上周,谷歌在其Made by Google發布會上一口氣發布了數款新硬件,包括最新的Pixel 4手機,Pixel Bud 2智能耳機,Nest Mini智能音箱等。這些新硬件除了形態上與傳統硬件的不同之外,在用戶交互上也有創新之處,而這些新的用戶交互特性也讓相關芯片進入我們的視野。

新硬件形態需要新的交互方式

上周谷歌的硬件發布會是近來一系列互聯網公司硬件發布會的延續。在谷歌之前,亞馬遜和微軟也發布了其新硬件。

如果我們仔細分析這些互聯網公司發布的硬件,我們首先看到的是互聯網公司希望從傳統智能硬件格局中突圍的決心。這些互聯網公司發布的新硬件更注重智能化,往往會使用一些非傳統的硬件形態(例如亞馬遜的智能眼鏡)配合人工智能來實現讓用戶耳目一新的效果。互聯網公司做硬件的最終目標還是希望用戶能通過硬件作為入口來使用自己的互聯網服務,因此即使每個硬件的出貨量都不大,但是只要能帶來一定的流量就算成功。因此,我們會看到亞馬遜和谷歌都采用了類似的打法,即一次發布許多款不同的硬件,而并非集中所有資源去開發一兩款重點硬件。

如前所述,這類互聯網公司開發的新硬件擁有全新的形態,而其最終目的是希望和用戶做交互并且把用戶接入到互聯網公司的服務中去。那么,如何在這些新的硬件形態上搭配新的用戶交互界面就變得非常重要。目前主流的觸摸屏交互方案已經無法滿足新形態智能硬件的需求,因此探索下一代用戶接口以及相關的硬件芯片就勢在必行。

終端語音交互

在新的用戶接口中,目前較廣為接受的是語音交互。語音交互正式進入大規模消費應用始于蘋果推出Siri,之后亞馬遜的Echo系列智能音箱的發布則真正點燃了整個消費語音交互市場。谷歌也不甘落后,在推出Google Home系列智能音箱之后,這次發布會上發布的Pixel 4手機、Pixel Bud 2智能耳塞和Nest Mini都擁有最新的語音交互接口,同時擁有相關的機器學習芯片支持。

那么,谷歌最新發布的硬件中的語音交互與之前的語音接口有什么不同呢?我們認為,其最大的不同就是強調終端計算,將語音交互的計算盡可能都放在終端完成,而無需傳輸到云端。從功能上來說,使用終端計算的語音交互接口可以滿足在無網絡連接的時候也能完成基本的交互,從而大大拓寬了實用的場景。

從性能上來說,網絡傳輸會引入很大的能量消耗和延遲,因此如果能在本地做大部分語音交互運算,則可以大大延長智能設備的電池使用時間并在更短時間內便完成用戶需求響應以提升用戶體驗。最后,從合規角度來看,目前對于互聯網公司對于數據的監管越來越多,因此把語音交互運算在本地完成而非上傳到云端就可以盡可能避免侵犯用戶隱私的嫌疑。

從計算復雜度來說,本地語音交互接口可以分成兩類,一類是低復雜度計算(例如關鍵詞識別),這類計算的復雜度不高,但是需要能消耗盡可能低的能量,且延遲需要盡可能小。另一類計算復雜度較高(例如實時語音轉錄成文字以及Assistant類需要對用戶的語音輸入做一定語義理解的任務)。

在這次發布會中,Pixel Bud 2的語音交互接口就屬于前一種。Pixel Bud 2語音交互的主要特性是可以根據用戶的指令去完成發送短信、閱讀短信、播放音樂等功能。根據谷歌的說法,Pixel Bud 2內部包含了一塊專用的機器學習芯片以完成這類語音接口。

仔細分析Pixel Bud 2這些智能助手的實現方式后我們認為Pixel Bud 2的語音助手主要作用是識別用戶的語音指令,并且通過藍牙連接的手機來完成相關指令的需求。

例如,如果用戶通過語音給出“閱讀短信”的指令,則智能耳機里的語音助手首先需要識別出用戶是在下語音指令,其次需要識別出語音指令的大致內容(“閱讀短信”)并且將指令發送給手機,之后手機端的TTS算法把短信轉換成聲音再通過藍牙傳送給耳機并播放。在這樣一個過程中,耳機端的語音接口關鍵詞識別算法需要完成較傳統單一關鍵詞喚醒更復雜的功能。

除了Pixel Bud 2之外,谷歌在Nest Mini和Pixel 4上也使用了離線語音模型來支持語音接口。按照谷歌官方的說法,在Nest Mini上的專用機器學習加速芯片可以讓Google Assistant更快完成相應,而在Pixel 4手機上的離線語音模型則可以完成更復雜的語音交互,例如離線語音轉錄成文字,復雜的多輪語音指令等等(例如可以讓assistant去查找一張圖片,并且把它發送給某個聯系人)。

從技術上來說,第一類低復雜度的語音關鍵詞識別算法目前通常會使用卷積神經網絡來實現。相較于使用在計算機視覺應用中的卷積神經網絡,語音接口中的卷積神經網絡對于性能的需求較低,然而由于應用場景對于硬件的限制(例如耳機中的芯片不太可能搭配DRAM),如何在硬件成本較低、功耗最小的條件下完成高精準度的關鍵詞識別仍然具有挑戰性。

例如,為了最小化功耗,會需要芯片中的相關模組工作在非常低的電源電壓下,甚至比Fab提供的較低電壓還要低,這就給低功耗設計流程帶來了挑戰。此外,由于這類應用中無法搭載DRAM,因此對于神經網絡模型帶來了不少挑戰,如何在模型尺寸和精確度之間達成一個較好的平衡需要很多工作。

總體而言,這類設計需要做軟硬件結合設計以保證合理的精確度和盡可能低的功耗。根據現有的消息,我們估計Pixel Bud 2中使用的機器學習專用芯片很可能是在傳統TWS無線耳機芯片上再集成了一塊DSP或者谷歌自己的IP來完成這樣的低功耗計算。由于對于成本和硬件尺寸的限制,我們認為未來針對該方向的超低功耗語音關鍵詞交互芯片方案較有可能是以IP的形式存在,或者集成在耳機的主控芯片中,或者和前端麥克風集成在一起。

而Pixel 4手機上的語音交互屬于典型的高復雜度語音模型(第二類計算),這類模型往往會需要使用循環神經網絡而非卷積神經網絡。雖然循環神經網絡的計算主要還是矩陣計算,但是如何優化模型和片上內存以盡量減少內存訪問帶來的消耗仍然是較關鍵的設計要點。

與卷積神經網絡不同,循環神經網絡中的數據復用程度并不高,因此如何開發和優化相應的模型/硬件必須要使用和卷積神經網絡不同的方法,這也是目前循環神經網絡計算硬件的主要挑戰。相較于傳統的卷積神經網絡,循環神經網絡的硬件支持在業界目前還處于較早期的研發階段,但是相信隨著這類復雜離線語音交互應用的普及,會有越來越多的設計方案和芯片解決方案出現。

我們估計未來可能的解決方案有幾種形態:首先是對于功耗和性能要求并不嚴格的場合,通過把循環神經網絡的模型設計成非常小的尺寸,可以通過類似DSP或者NEON這類支持矩陣加速的IP模塊去做計算。這種方法的好處是可以快速部署,只需要設計軟件即可,硬件上不用做太大改動,但是問題是沒法優化循環神經網絡對于內存訪問。在對于性能和功耗有更高需求的場合,則可望會出現更專用的硬件架構以完成加速。例如,目前用于語音應用的循環神經網絡往往稀疏度較高,因此通過設計支持稀疏矩陣存取和運算的專用加速器可望能實現更高的性能和更低的功耗。

總而言之,隨著語音接口的普及,我們可望在更多語音相關的硬件上看到DSP類IP的出現,同時隨著離線語音復雜交互的普及,我們可望會看到專用的語音加速芯片/IP。

隔空手勢操作

除了語音交互之外,谷歌此次發布的Pixel 4手機上的另一個亮點是使用毫米波雷達來實現隔空手勢交互。

Pixel 4上的毫米波雷達芯片系原谷歌先進研究項目(ATAP)project soli的商業化,該毫米波芯片使用60GHz頻段,并且可以用雷達的方法去檢測到目標與手機之間的距離變化,從而實現隔空手勢操作。

具體來說,雷達傳感器芯片的技術原理是首先發射出電磁波,而發射的電磁波經過用戶手的反射回到傳感器端,就能根據回波來檢測用戶手的位置和動態,并借此完成三維非接觸手勢檢測。

Pixel 4上雷達芯片使用的是57-64GHz的頻段,理論上可以實現毫米級別的分辨精度。根據之前Project Soli發布的毫米波雷達傳感芯片(屬于此次使用在Pixel 4中雷達芯片的原型版本),芯片大小約為8mm x 10mm, 芯片上還有天線陣列(綠色框內)用來實現波束成型,根據官方信息該芯片上集成了四個發射機和兩個接收機,使用波束成形來提升分辨率。

使用毫米波雷達也有局限性。主要問題就是硬件對于尺寸和功耗的需求——毫米波雷達如果需要做高精度高分辨率檢測需要使用復雜的天線和/或多個雷達收發陣列。在60GHz頻段上,復雜的天線陣列的體積很大,而如果使用多個雷達收發陣列則會大大增加系統功耗。本次媒體對于Pixel 4中毫米波雷達的測評中分辨率并不高,據說也是因為Pixel 4硬件設計中留給雷達的空間過小以至于無法安放下能實現高分辨精度的雷達收發機陣列和天線陣列。當然,這個問題可望在之后能通過優化硬件設計來解決。

事實上,使用手勢操作智能設備一直是業界開發的方向。傳統的方法是使用攝像頭結合機器視覺的方法。2D攝像頭難以檢測到手勢在深度方向的變化,因此限制了交互。微軟 Xbox的Kinect使用ToF 3D攝像頭的方法來支持手勢操作,但是3D攝像頭的使用環境會受到限制:機遇結構光的方案速度太慢,而基于ToF的方案在明亮的環境中性能會打折扣。

除了視覺方案之外,超聲波也是一個可行的方案。超聲波方案與毫米波方案原理相似,只是超聲波方案使用的是超聲波而不是電磁波。超聲波方案的優勢是功耗較小(可以小于1mW而毫米波方案的功耗在10-100mW),缺點是必須使用CMOS工藝無法實現的超聲波元件,而毫米波方案可以完全使用CMOS電路實現,集成度較高。因此,在智能設備的隔空交互領域,毫米波雷達和超聲波在具體技術指標上可以說是各有千秋。

如果把視角拉遠一些,我們則認為基于電磁波和毫米波的方案有更大的可擴展性。我們認為,在手機中加入毫米波雷達只是這類交互的第一步。基于電磁波(包括毫米波)的交互將在未來幾年內出現在更多的智能電器中。除了手勢交互之外,電磁波還可以檢測房間內的人員情況和物體識別,并且有望能無縫與WiFi設備相銜接,因此省去了安裝攝像頭的麻煩和對于隱私問題。因此,用于交互應用的射頻芯片有望成為未來幾年內的一個新品類。

展望未來,用于人機交互的毫米波雷達主要需要克服模組尺寸和功耗的瓶頸,為此必須優化雷達本身設計提高信噪比,從而可以在減少天線尺寸/陣列中收發機數量的情況下仍然能實現分辨精度;或者優化天線設計,以滿足在小尺寸下仍然能提供很低的衰減。我們認為,隨著這些技術瓶頸被逐漸突破,我們有望看到更多基于毫米波的交互方案出現在智能設備中。

免責聲明: 凡注明來源本網的所有作品,均為本網合法擁有版權或有權使用的作品,歡迎轉載,注明出處。非本網作品均來自互聯網,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。

關注我們

掃一掃
關注“慧聰安防”

慧聰會員登錄

忘記用戶名?

忘記密碼?

登錄

注冊

沒有會員賬號?只需一分鐘注冊,您可獲得: 海量買賣家資源,成單機會就在眼前

湖北30选5开奖奖结果