羅詠浩(右一)與團隊成員一起上車測試。(受訪者供圖) 青春名片 長安汽車AI實驗室團隊:一群聚焦汽車智能座艙AI研發(fā)的年輕人。從理念到產品,他們從零開始、精研磨礪,不斷改進長安系智能網聯新能源車的用戶體驗。 “你好小安,向右變道。” “即將向右變道,請確認。” 4月27日下午,長安科技園某試驗車旁,一群年輕人圍成一圈,一邊看著語音交互,一邊盯著顯示屏。駕駛員輕聲喊出“確認”,汽車迅速開啟轉向燈,同時方向盤自行轉動,一氣呵成地完成向右側變道。大家松了口氣,隨后一齊歡呼起來。 在重慶長安汽車股份有限公司,有一支青年突擊隊,他們通過AI大模型技術推進汽車智能座艙AI研發(fā),即將上市的新款車就聚合了他們的創(chuàng)新成果。 摸索中找準研發(fā)方向 “人工智能突飛猛進,將對汽車產業(yè)帶來怎樣的影響?”2021年8月底,重慶長安汽車股份有限公司成立AI實驗室,“90后”羅詠剛成為項目負責人。 “團隊建立時,相關領域的探索剛起步,大家的專業(yè)也是天差地別。”為了盡快打開突破口,大家摸索開展了動力底盤、工具鏈等方面研究,“想了很多辦法,但效果并不理想。”羅詠剛回憶說。 沒有方向,研發(fā)就顯得盲目和沉重,但這支年輕的團隊依然在咬牙堅持。一年后,隨著OpenAI推出GPT-3.5版本,團隊受到啟發(fā),正式確定了努力方向——聚焦汽車智能座艙AI研發(fā)。經過短暫討論,羅詠剛等決定以多意圖控制為切口,打開局面。 多意圖控制就是通過AI大模型技術使駕駛員可以同時對車輛進行多項功能控制。羅詠剛解釋,在傳統(tǒng)駕駛座艙,駕駛員打開車窗、空調、氛圍燈等控制行為都是一對一控制,要實現多意圖控制,就要給車輛裝上AI大模型并升級。 羅詠剛團隊用了2個月,初步實現了三意圖控制。“開窗開空調同時放首周杰倫的歌。”在試驗車上,羅詠剛下達指令,不到一秒,車輛如預想般開窗、開空調、放起音樂,大家頓時歡呼雀躍。“這證明我們的研究方向是正確的,數月的堅持沒有白費。” 以“多意圖控制”為起點,團隊迅速展開攻關,很快在語音編排、服務推薦等領域獲得突破。 不斷把金點子變成好產品 “小安小安,我要導航去大竹林。”不到1秒,駕駛員便收到汽車回復:“我有3條路線,請問你要選擇哪一條呢?”這是長安汽車語音交互模塊工作的狀態(tài)。通過云端建立連接,AI大模型借助語音合成技術對用戶需求進行反饋,實現人車溝通交流。 其實,早在2024年10月前,這項技術并不成熟。一旦遇上弱網、斷網,交互就會中斷,非常影響用戶體驗。團隊副總設計師孟藝凝與部分成員萌生了一個想法:如果增加一個線下語音處理模塊,是不是就能解決? “辦法看似簡單,但操作很難。”孟藝凝說,線下語音處理模塊如果通過CPU處理,最簡單高效,但CPU需要處理汽車運行中的海量信息,剩余資源十分有限;若是通過DSP數字信號處理技術處理,又會因數據格式的轉化造成信息損失,導致反饋存在偏差。最終,團隊決定走一條“中間路線”,將“云端”和車載CPU及相應模塊、DSP系統(tǒng)整合在一起,通過不斷迭代,實現目標。 另外,他們還針對語音交互中的各種痛點進行了分析,按照用戶體驗最佳、資源利用最少、技術水平最能實現的原則確定了最優(yōu)解決方案。 今年6月,孟藝凝負責并開發(fā)的自然語言處理模塊將正式完成并交付。 集思廣益找到關鍵突破口 4月9日,對于團隊成員李翔來說是個特別的日子。由他設計并訓練的語音模型,正式通過考核進入量產,這是他首個全流程參與完成的產品。 “車載語音系統(tǒng)承擔著識別、分析車主意圖的職責。我的工作就是訓練語音模型。”李翔需要為每一句話中的關鍵詞打上標記,并建立關鍵詞庫。1個多月,他收集了上萬句相關提問。模型最終調試完畢,并通過了初步測試。 可好景不長,測試部門很快發(fā)現了問題,“有時候語音系統(tǒng)聽不懂我們說話。”“車載語音系統(tǒng)的回復明顯錯誤。” “這是因為關鍵詞庫還不足以覆蓋生活中常用的提問表述方式。”李翔冷靜分析。“既然不夠,那就升級擴充關鍵詞庫。”但是經過努力,測試部門仍給出“效果不佳”的反饋。 于是,李翔將問題帶到例會上,與團隊成員展開討論。最終大家決定,通過嵌入AI大模型解決問題。又經一個月調整,李翔的新語音模型出爐。 “前面風景好美。”測試時,一位同事對著語音大模型說出了這樣的話。大模型迅速回復:“是否要打開車窗、調整座椅靠背?”李翔激動地表示,這個回復非常符合駕駛者的心意。 今年4月,李翔等人的語音模型終于通過最終測試。幾個年輕人激動得濕了眼眶。(新重慶-重慶日報記者 卞立成) |
羅詠浩(右一)與團隊成員一起上車測試。(受訪者供圖)
【大河財立方 記者 李錚】5月9日,記者從宇通集團獲悉,近