AI智能助手更有針對(duì)性地實(shí)時(shí)解答你的“十萬(wàn)個(gè)為什么”;AI卡片錄音機(jī)能幫你實(shí)時(shí)轉(zhuǎn)寫會(huì)議內(nèi)容,還隨手就羅列好了會(huì)議總結(jié)、要點(diǎn)分析和待辦事項(xiàng);AR眼鏡戴上后就能看到文字、圖片、視頻中的實(shí)時(shí)多語(yǔ)言字幕;智能門鎖會(huì)根據(jù)來訪人士定制主人的聲音,模仿你的聲音取快遞、拿外賣,或者改變聲音語(yǔ)調(diào)以恐嚇無關(guān)逗留人士;毛絨小熊真的成為孩子的知心朋友,可以一起聊聊煩惱、疑惑和心事……
就在上周六,RTE 2024第十屆實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)IoT分論壇圓滿結(jié)束。多位AI智能硬件賽道的資深人士齊聚一堂,共同探討如何讓“智能硬件產(chǎn)品們”迎頭趕上AI的好時(shí)代。聲網(wǎng)IoT行業(yè)負(fù)責(zé)人吳昌儒、曠視增值業(yè)務(wù)部負(fù)責(zé)人史澤鴻,海馬爸比聯(lián)合創(chuàng)始人譚國(guó)豪、佐臻科技技術(shù)經(jīng)理徐偉恩、小米Xiaomi Vela開源負(fù)責(zé)人杜超、蓮偶科技軟件部總裁楊旺分享了他們?cè)诖蛲ˋI與智能硬件屏障方面的實(shí)戰(zhàn)經(jīng)驗(yàn)。
在傳統(tǒng)的硬件設(shè)備中,人機(jī)交互大多通過按鍵、觸摸屏等圖形用戶界面(GUI)來完成。但隨著AI技術(shù)的引入,尤其是對(duì)話用戶界面(CUI)的崛起,用戶可以通過語(yǔ)音、視覺、手勢(shì)等多種方式與設(shè)備進(jìn)行互動(dòng),帶來了更加自然、直觀的交互體驗(yàn)。
“AI驅(qū)動(dòng)的智能硬件不再單純依賴固定的功能按鈕或菜單,而是通過對(duì)用戶意圖的理解,圍繞用戶想要完成的任務(wù)進(jìn)行設(shè)計(jì)?!甭暰W(wǎng)IoT行業(yè)負(fù)責(zé)人吳昌儒舉例說道,智能家居中,用戶僅用一句話便可觸發(fā)多個(gè)設(shè)備的聯(lián)動(dòng),說出“我要看電影”,AI系統(tǒng)隨之做出自動(dòng)調(diào)節(jié)燈光、開啟電視、調(diào)整空調(diào)溫度等操作。這種基于任務(wù)導(dǎo)向的設(shè)計(jì),讓用戶體驗(yàn)更為絲滑和智能,大幅減少了手動(dòng)操作的繁瑣。
住著一個(gè)AI Agent的智能硬件不用再孤立工作,而是能夠與其他智能硬件之間形成互聯(lián),彼此協(xié)作。也就是說,每個(gè)設(shè)備中的AI Agent都能獨(dú)立執(zhí)行特定任務(wù),同時(shí)也能根據(jù)需求與其他AI Agent協(xié)作,整體上是一個(gè)復(fù)雜且靈活的智能系統(tǒng)。
長(zhǎng)期以來,AI與AR的結(jié)合都是智能眼鏡的理想答案。對(duì)于聽音樂、拍視頻、翻譯等需求,不少市面上在售的AR眼鏡都基本能滿足,佐臻科技則為AR眼鏡找到了更多個(gè)性化的應(yīng)用場(chǎng)景。
其最新款的AR眼鏡不僅適用于跌倒檢測(cè)、呼吸監(jiān)測(cè)等看護(hù)場(chǎng)景,還可以滿足AI或XR多人混合實(shí)時(shí)互動(dòng)算繪場(chǎng)景的需求。也許在不久的將來,只要一副AR眼鏡,人們就能遠(yuǎn)程觀展、跨國(guó)云旅游、多語(yǔ)言同聲傳譯、實(shí)時(shí)共享影片、異地協(xié)同查看云端文件和3D模型。
按照徐偉恩的設(shè)想,裝備了AI引擎的AR眼鏡未來將即時(shí)提供更多個(gè)性化的反饋。舉個(gè)例子,你佩戴著AI眼鏡,剛好路過了一輛停在路邊的車,你多看了幾眼這輛車的Logo,AI眼鏡會(huì)猜到你可能對(duì)這個(gè)汽車品牌感興趣,隨之提供相關(guān)的信息。值得一提的是,這種呈現(xiàn)信息的方式是私人化的,可以降低人們對(duì)信息共享的顧慮。
在徐偉恩看來,聲網(wǎng)的語(yǔ)音交互技術(shù)充當(dāng)了AI智能硬件實(shí)時(shí)人機(jī)交互的關(guān)鍵神經(jīng)元。而AI智能硬件只有真正實(shí)現(xiàn)隨時(shí)隨地調(diào)用資料、與人交互、與環(huán)境交互后,才能與真實(shí)生活串聯(lián)起來。
當(dāng)?shù)讓拥恼Z(yǔ)音技術(shù)還較為稚嫩時(shí),人們很難想象手上一枚小小的戒指,也能將AIoT的風(fēng)吹到直播出海這一領(lǐng)域。
蓮偶科技最新的空間戒指TOALL L-Ring 2通過多模態(tài)大模型落地了錄音轉(zhuǎn)寫、AI對(duì)話、同聲傳譯等功能,有助于人們?cè)谥辈?、講課件、播放PPT、看電視以及駕駛過程中盡可能解放雙手。未來,外貿(mào)主播在直播過程中,戴上它“揮揮手”就可以完成口型視頻合成、情緒模擬、聲紋模擬、語(yǔ)音合成等,從而同步、同時(shí)生成多語(yǔ)種的直播間。
水準(zhǔn)較高、穩(wěn)定可靠的實(shí)時(shí)AI語(yǔ)音交互技術(shù),可謂是AIoT的強(qiáng)心劑。AI智能硬件若能及時(shí)語(yǔ)音反饋危險(xiǎn)情況,在關(guān)鍵時(shí)刻或許能“救命”。
基于高精度的數(shù)據(jù)訓(xùn)練,海馬爸比的嬰兒看護(hù)機(jī)可以實(shí)時(shí)監(jiān)測(cè)嬰兒的睡眠情況和哭聲,判斷嬰兒是否“遮臉”,并針對(duì)可能窒息的情況做出提醒。海馬爸比聯(lián)合創(chuàng)始人譚國(guó)豪告訴智東西,有了AIoT智能硬件技術(shù)的加持,新一代的嬰兒看護(hù)器對(duì)嬰兒哭聲、狀態(tài)的識(shí)別更敏感,可以及時(shí)發(fā)現(xiàn)吐奶等其他可能引發(fā)窒息的情況?,F(xiàn)在,AI智能硬件或許比新手爸媽更能聽懂嬰言嬰語(yǔ)。
海馬爸比下一步計(jì)劃將這些AI智能硬件融入個(gè)性化育兒教育、優(yōu)化睡眠的嬰兒房環(huán)境、互動(dòng)式講故事、協(xié)作式育兒支持等場(chǎng)景,為每個(gè)有娃家庭安排一個(gè)工作經(jīng)驗(yàn)“無上限”、具備專業(yè)知識(shí)的“智能保姆”。
譚國(guó)豪稱,聲網(wǎng)的AI x IoT智能硬件解決方案可以有效解決“自動(dòng)化場(chǎng)景但被動(dòng)化輸出”的AI技術(shù)應(yīng)用困境,推動(dòng)了智能硬件從工具轉(zhuǎn)向服務(wù)。在他看來,AIoT中的AI智能硬件不應(yīng)是被動(dòng)地監(jiān)測(cè)和響應(yīng),而是生成有意義的內(nèi)容,并與用戶展開有效互動(dòng)。
小米則選擇用一個(gè)面向輕量AI智能硬件的系統(tǒng)“Xiaomi Vela”,來串聯(lián)起不同生活場(chǎng)景中的智能硬件。將來借助該系統(tǒng),小米的智能手表、智能手機(jī)、智能平板和智能電視等硬件可以在其AIoT網(wǎng)絡(luò)中實(shí)現(xiàn)聯(lián)動(dòng)。
曠視科技的AI生產(chǎn)力平臺(tái)Brain++已實(shí)現(xiàn)AI視覺算法的快速量產(chǎn),并將其與智能門鎖、寵物智能用品、養(yǎng)老機(jī)器人、體育及訓(xùn)練等場(chǎng)景相結(jié)合。
其中,在寵物智能用品方面,Brain++可以提供諸如寵物檢測(cè)、貓臉識(shí)別、貓砂檢測(cè)和寵物Vlog等功能。在智能門鎖方面,其可以實(shí)現(xiàn)生物特征識(shí)別、人員分析、快遞和外賣提醒、兒童和寵物離家、鄰居隱私保護(hù)、AOV和時(shí)光濃縮等功能。
相較于觸控、空間手勢(shì)等人機(jī)交互方式,語(yǔ)音交互的技術(shù)和形態(tài)更成熟,上手難度也更低,在AI時(shí)代仍具有獨(dú)特的發(fā)展前景。吳昌儒提出多模態(tài)交互、對(duì)話式交互、大模型三者共同構(gòu)成了AI Agent(智能體)。
同時(shí),語(yǔ)音交互技術(shù)作為AI智能硬件的底層技術(shù)之一,其即時(shí)性、準(zhǔn)確性水平高低,在很大程度上影響著用戶的人機(jī)交互體驗(yàn)。從“喂,Siri”,到紅極一時(shí)的智能音箱、故事機(jī),再到當(dāng)前快速迭代的多模態(tài)大模型,人機(jī)語(yǔ)音交互的體驗(yàn)正在不斷優(yōu)化。
吳昌儒認(rèn)為,實(shí)時(shí)、準(zhǔn)確、跨平臺(tái)是AI Agent真正能夠引入智能硬件的關(guān)鍵,聲網(wǎng)AI x IoT智能硬件方案應(yīng)運(yùn)而生。該方案能夠在低功耗、低算力芯片上快速實(shí)現(xiàn)大模型的接入,具備低延時(shí)實(shí)時(shí)互動(dòng)、低成本靈活適配的特性,通過豐富的功能在智能硬件場(chǎng)景中構(gòu)建真實(shí)、自然的 AI 語(yǔ)音交互體驗(yàn)。
例如其對(duì)交互延遲進(jìn)行優(yōu)化,語(yǔ)音交互延時(shí)低至1s內(nèi);支持多模態(tài) AI 語(yǔ)義識(shí)別和理解;支持AI降噪,保證清晰的語(yǔ)音交互;支持小包體、低內(nèi)存、低功耗;適配超70種主流、高性價(jià)比的芯片等,幫助開發(fā)者與企業(yè)快速構(gòu)建適配自身硬件的 AI 實(shí)時(shí)語(yǔ)音對(duì)話服務(wù)。
聲網(wǎng)AI x IoT智能硬件解決方案進(jìn)一步優(yōu)化了端到端互動(dòng)體驗(yàn),實(shí)現(xiàn)了人與設(shè)備之間基于大模型(LLM)的毫秒級(jí)互動(dòng)體驗(yàn),并且在80%丟包情況,即網(wǎng)絡(luò)較差的環(huán)境下,仍能做到音頻通話流暢。
為了讓整個(gè)集成更加簡(jiǎn)單,聲網(wǎng)還提供了模塊化的組件。企業(yè)無需額外集成STT、TTS這些模塊化的組件,就可以達(dá)到音頻的端到端對(duì)話目的。
除此之外要讓AI聽得懂,收集的信息更有效,AI降噪算法和VAD控制是非常重要的一環(huán)。為此,聲網(wǎng)自研了AI降噪算法,可以有效抑制鍵盤、腳步、雜音、嘯叫等超100種常見噪聲,同時(shí)為了改善駕駛、商場(chǎng)等場(chǎng)景的收聲效果,也針對(duì)性地優(yōu)化了算法。
在流暢和清晰的基礎(chǔ)上,聲網(wǎng)還追求語(yǔ)音對(duì)話過程中自然的交流感。其AI x IoT智能硬件方案支持AI-VAD技術(shù),具有較高的語(yǔ)義理解能力,可以隨時(shí)打斷說話,模擬了人類對(duì)話時(shí)的真實(shí)反應(yīng)。
除了推出內(nèi)嵌多模態(tài)大模型的AI原生設(shè)備,AI智能硬件廠商還可以通過一套AIoT智能硬件解決方案和系統(tǒng),復(fù)用現(xiàn)有的IoT資源,提供更進(jìn)階的人機(jī)交互體驗(yàn)。對(duì)此,聲網(wǎng)最新的AI x IoT智能硬件方案也能在兼容性和商業(yè)化落地上提供支持。
該方案適配超70種主流、高性價(jià)比的芯片或模組,包括展銳Cat.1系列芯片、樂鑫ESP32-S2/S3、BK7256、BK7258、杰理AC7916、博流BL808等RTOS芯片,以及高通、聯(lián)發(fā)科、君正、Sigmastar、全志、海思、Mstar等Linux芯片。
在低功耗、低算力芯片上快速接入多模態(tài)大模型這一特點(diǎn),解決了部分采用端側(cè)AI的智能硬件由于算力不足,AI功能開發(fā)受限的痛點(diǎn)。這也意味著,許多做IoT的企業(yè)可以利用聲網(wǎng)的模塊化組件快速掛上AI Agent,擁有AI能力,并獲得新的商業(yè)化引擎。
總的來說,聲網(wǎng)的AI x IoT智能硬件解決方案針對(duì)生產(chǎn)力、情感陪伴、穿戴式裝置優(yōu)化了AI語(yǔ)音交互體驗(yàn),具備低延時(shí)實(shí)時(shí)互動(dòng)、低成本靈活適配的特性,從而在智能硬件場(chǎng)景中提供真實(shí)、自然的AI語(yǔ)音交互體驗(yàn)。
聲網(wǎng)為獨(dú)居人士提供了AI對(duì)話式的智能門鎖解決方案;曠視科技自研算法生產(chǎn)平臺(tái)AIS首次應(yīng)用于非遺文化保護(hù);海馬爸比為自閉癥兒童推出了一款心理咨詢機(jī)器人,心理醫(yī)生可以通過此類機(jī)器了解到患者更真實(shí)的想法,從而提供更準(zhǔn)確的心理療愈方案。
有了AI Agent的加持,物聯(lián)網(wǎng)中各個(gè)組件之間可以更高效、靈活地通信和任務(wù)調(diào)度。AI智能硬件的角色也從“管家”變成“衛(wèi)士”,未來不僅可以幫人們減少一些重復(fù)性的勞動(dòng),還可以執(zhí)行更多人們?cè)倦y以兼顧的工作。