劃重點:

車載語音智能化的短板在“語義理解”,AI 圈大火的 對車載語音智能化加成明顯。

上車,主要還是成本的問題,這背后包括使用成本、云服務成本、針對性的訓練成本。

云知聲董事長 & CTO_梁家恩對 表示, 技術肯定會在車載、家居等智能交互應用有建樹,但需要結合應用場景針對性優化。

思必馳汽車事業部產品總監葛付江對 表示,新技術發展一定會存在商業落地的挑戰,AI 技術創新要結合場景應用,類 在車載的應用會在算力優化、云和端智能融合技術等方面形成挑戰。

的火,一下子就燒到了車載領域。

眾所周知,語音交互是車內最簡潔、最人性化、最安全的交互方式,也是未來最主要的車內交互方式。隨著 AI 和硬件性能的增強,語音交互是未來汽車的絕對主流。語音交互主要是車載自然語音識別與語音助手,也可以簡單地說是 NLP 和 NLU 技術。既然是 NLP,那么理應是最近在 AI 圈大火的 的用武之地。事實真的如此嗎?

理想L9內飾官圖發布,或45萬起,元芳你怎么看?_搜狐汽車_搜狐網

車載語音智能化,短板在“智能”

從技術角度看,智能語音交互主要有三大重點,分別是識別、理解、執行。在目前提供解決方案的廠商中,識別部分已經趨于成熟,識別率可以達到 90% 以上,有的識別率已達 95% 左右。行業的痛點主要聚焦于“理解”部分,大部分的車載語音交互系統在“理解”上并不智能,導致整個系統功能單一、命令詞單一。

那么問題來了,如何讓車載語音交互系統像人一樣理解我們的話語?

這就涉及到 NLP(自然語言處理)技術,它們對于用戶輸入語音的理解與本身的場景策略、多輪對話有著密不可分的關系,并直接決定著車載語音交互系統的智能化程度。而提及 NLP,正中近期大“火”的 的下懷,是 的用武之地。

歷史上,NLP 的發展有幾個關鍵節點,其中,最重要的兩個當屬 2012 年和 2018 年。

2012 年,深度學習開始應用于 NLP 領域;2018 年開始,以谷歌 BERT 為代表的語義表示預訓練取得了巨大突破,橫掃各大 NLP 任務基準;2020 年 5 月, 斥巨資打造的 GPT-3 一經發表就引發行業轟動,這一版本的模型有 1750 億參數量,被稱為 NLP 領域的最強 AI 模型。

而最近大“火”的 是基于大規模預訓練語言模型(GPT-3.5),借助其強大的語言理解和生成能力,通過在人工標注和反饋的大規模數據上進行學習chatgpt 交互創新,從而讓預訓練語言模型能夠更好地理解人類的問題并給出更好的回復。

思必馳汽車事業部產品總監 葛付江對 表示, 目前是以文本交互機器人的形式呈現的,適用多種文本處理任務,常用于智能問答和對話、文本創作等領域;車載語音以對話交互為主,多用于進行例如“導航去 XXX?打開音樂”有明確指令的行動,“語音助手”用高度擬人化的語音輸出來回應車主訴求。車載語音交互用于解放駕駛員雙手,聚焦其注意力帶來更安全、便利的駕駛體驗。未來車內有了 技術的應用,不僅是完成固定指令的任務型對話,車、人能進行更高效、更直接、高靈活度的出行、知識和閑聊交流;

“”的爆火讓市場看到了認知智能應用潛力。 在推理和學習能力上優勢明顯,不僅可以用于理解和對話,更可以通過上下文交流和自我學習,來實現輔助創作和知識進化。這些能力同樣適用車載語音交互領域,融合對話智能技術、深度學習大模型技術、工程化能力、大數據的潛力,帶來更流暢、更有效的響應。在車內有限的空間,結合聲場定位和多說話人判斷,提升多角色、長上下文對話的邏輯一致性;更可以拓展滿足方言、外語的統一識別和對話需求,快速實現更靈活、自由、個性化的交互。”葛付江說道。

從目前諸多對于 的使用(包括我們自己),我們認為,僅就車載智能語音的 NLP,目前它應該是最好和最智能的。這是否意味著,其就一定會在短期內應用在車載智能語音系統中嗎?

市場空間有限,產業鏈、市場挑戰猶存

眾所周知,一個新的技術或者產品能否最終落地得到規模的應用,除了技術因素外,還會受到其所處產業或者市場的產業鏈、市場競爭強弱、市場空間等諸多因素密切相關。

具體到車載智能語音系統,雖然 在“智能”上表現出色,但其在整個產業鏈條中比較偏后段,需要依賴很長的前端鏈條,比如信號處理、語音識別、文字輸出之后才會用到它,前端鏈條上的因素對后端流程都會產生影響,例如信號處理會影響語音識別,語音識別如果出錯就會影響 NLP 的判斷,鏈條上每個模塊都需要提高可靠性,才能保證最后出來的整體結果可靠。這意味著, 在“智能”能力的輸出上,并非完全取決于自身的能力,其產業鏈上任何一個環節都會對其造成正或負的影響。

云知聲董事長 & CTO_梁家恩對 表示, 技術肯定會在車載、家居等智能交互應用有建樹,但需要結合應用場景針對性優化,提高體驗并降低服務成本等。

“車載等智能交互應用場景有很大體驗升級空間,但目前 是一個超大模型,如何保持體驗情況下,顯著降低服務成本是個關鍵問題“。

而從市場競爭的強弱看,據相關統計,目前車載語音系統市場除了已經被科大訊飛和 壟斷,且它們在此領域具有多年的產品和合作經驗外,還有許多規模不同的企業參與其中,更為重要的是,目前車載語音市場已經遇到了增長的天花板,這使得在競爭激烈的同時,就連科大訊飛和 都開始除了語音之外,開始走車內多模態交互,云服務集成等服務的路線,以綜合實力提升競爭力。作為后來者的 一旦決定進入車載智能語音市場勢必會面臨強大對手的挑戰。

葛付江補充稱,從成本來看, 的研究需要巨大的資金和人才投入,他們需要超算平臺、算法、數據等各核心力量支撐,這些都是成本。巨頭平臺公司目前來看具備這方面的優勢,對于科技企業可以更多從場景融合入手,尋求創新機會。

從商業化場景看,目前 更適用于基于一定背景知識的創作型產業,以及剛需 AIGC 的場景、SOP(標準作業程序)的行業,比如智能寫作、智能客服、文檔管理、代碼生成、甚至游戲 NPC 等。

班門弄斧主理人孫永杰指出,從單純的車載語音市場看,其市場空間并不大chatgpt 交互創新,這點從已經壟斷該市場的科大訊飛和 的財報可見一斑。這種情況下chatgpt 交互創新,能否吸引成本高昂的 進入也是個未知數。畢竟 訓練成本高昂,且其所屬的 Open AI 依然處在虧損當中。

未來仍可期,合作和開放 API 或是更好選擇

如前述可知, 只是在車載智能語音的 NLP 環節具備優勢,雖然 據稱也在進行語音識別和合成上進行 AI 訓練,希望未來可以借此進入車載智能語音市場。但鑒于 只是文本交互方式,即便是進行語音識別和合成的 AI 訓練,最后效果如何?能否超過目前市面上存在和已經應用的車載智能語音系統仍是未知。

當然,鑒于 強大的能力, 認為未來的市場空間會隨著智能汽車應用場景的不斷擴大, 找到自己真正的用武之地并非沒有可能。更值得期待的是,除了智能汽車本身外,站在整個汽車產業的高度,其未來在汽車設計、制造等領域的應用都充滿想象的空間。

葛付江表示:“ 上車的應用具體如何發展,目前形勢還不明朗。可預見的是,在車載場景下,大模型技術學習能力優勢明顯,通過強化上下文理解能力、思維鏈推理、增強指令學習,來實現持續學習,達成可以“回答類似問題”的效果,除指令需求外,日常的知識和閑聊對話交流可以更加流暢和有用。總體來說,技術會向統一多模態交互發展,強化語音、文本、圖像等深度融合的多模態交互技術,形成“汽車大腦”,應對車內、公共空間等復雜場景的交互需求。”

小鵬技術團隊對 表示, 的語言組織能力很強,以及知識庫也比較龐大,涉及領域更廣,所以可能會給用戶的體驗更好更智能。至于我們未來要 不要引入這個技術接口,還是做類似技術的融合開發,我們也在進一步探索~

基于此, 認為,合作應該是 切入車載智能語音市場最經濟和有效的方式。所謂各取所長就是這個道理。實際的情況是,近日國內集度汽車宣布將融合百度文心一言的全面能力,打造全球首個針對智能汽車場景的大模型人工智能交互體驗,證明了此模式的可行性。

此外,將自己最擅長的能力通過 API 開放給第三方,僅輸出自身最擅長的能力也不失為明智的選擇。

免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表本站的觀點和立場和對其真實性負責。如需轉載,請聯系原作者。如果來源標注有誤或侵犯了您的合法權益或者其他問題不想在本站發布,來信即刪。