• <progress id="tvl44"><track id="tvl44"></track></progress>

    <dd id="tvl44"><noscript id="tvl44"></noscript></dd>
      1. <rp id="tvl44"></rp>

        <rp id="tvl44"></rp>
        <em id="tvl44"><strike id="tvl44"><u id="tvl44"></u></strike></em>

        小鵬P7將上線新一代AI語音:無限接近人類、帶情感、會調侃

        百家 作者:TechWeb 2021-07-20 12:04:17 閱讀:168

        小鵬汽車似乎對產品有近乎偏執要求:要在車內創造出一種能「無限接近人類語氣」的聲音交互系統。
        ?
        7月,這套「全新AI聲音」的小P系統將在P7部分車型上線。
        ?
        直接上視頻,推薦帶耳機食用,0:07高能:
        ?
        ?
        “去年1024之后,小鵬車機智能化有了很大進步,于是我們花費很多精力在小P的語音表現上,給大家一個更好的信息交互渠道。”小鵬汽車AI產品專家陳思云介紹起全新車載語音。


        小鵬產品團隊為新聲音設立了三大「綱要」:
        ?
        (1)足夠像真人。
        ?
        (2)角色足夠擬人,例如定位成「秘書」、「寵物」或是「女神」。
        ?
        (3)親切傳達信息,拉進用戶距離。

        小P全新AI聲音是如何做到的呢?為實現這三條,團隊就必須往車機聯入一個在線的、更大規模的「神經網絡模型」——從而實現HIFI級別合成語音。


        目前,這套神經網絡已經為小P帶來了至少2項肉眼可見的提升:
        ?

        MOS評分4.49
        ?
        經MOS1語音質量評測,小鵬全新AI聲音得分為4.49,是目前微軟MOS語音質量評測得分最高的車載智能語音助手。
        ?
        當然,MOS評分不能完全完全「神化」。
        ?
        MOS最早源于電話的語音質量評價。這項評價標準由ITU(International Telecommunication Union,國際電信聯盟簡稱國際電聯)在1996年,作為囊括在《P.800: Methods for determination of transmission quality 》中的一個「子標準」沿用至今,字面意思不難看出,這是個圍繞「主觀」(subjective)——也就是人工聽覺、人工打分的一項判定方法。

        ?
        別看MOS古老(那時TTS還未普及),作為一個成熟、穩定、高度逼近人類聽覺體驗的評價標準,MOS的制定最初建立在一套有參考信號的評價體系之上的:評價時,同時需要待測信號和參考信號。相較于無參考評價方案,有參考的客觀評價方案更容易做得貼近主觀評價體系。


        “MOS體系本身是一個主觀評分,在全球最標準化的大會上參加評分的時候,也會要求需要把兩個競品或兩個聲音加上真人,加上一個非安慰劑的參照系放在一起橫向比較。
        ?
        我們只能比較這幾個主觀評價中,用戶對它們評價的差值,但絕對分值的比較,因為它是一個主觀比較:所以在換樣本量,或換不同的場景,都會導致分值上的差異,需要放在同一測試中這個分數才有比較的意義。

        陳思云在回答能否用MOS評分高低作競品橫評時談到,“即便無法客觀的讓小P橫向對比。但我相信更新后,用戶拿小P和Siri對比,還是有很大區別的?!?/span>


        軟硬兼施,打出「情感牌」

        從剛才的視頻來看,全新小P聲音飽滿程度也有很大提升,再配合P7本身的良好的NVH性能,我預感這波HiFi級高保真音質真的可以在P7上發揮出來,成為量產車中排名數一數二的沉浸交互感。
        ?
        實際上,全新AI聲音采用24K采樣技術(現有聲音為16k),各種場景下的聲音反饋都被精心調教,用戶聽到的每句話都細膩生動、充滿活力。
        ?
        “新舊聲音對比來聽,會明顯感受到音質的差距。這個聲音不是拼接的,完全采用AI訓練、生成出來的。”郝超補充道,“業內無論車企還是智能音箱,大家還是在用提前錄音的方式,盡可能讓語音包更好聽,但內容覆蓋率不高,所以我們采取這種方式(AI生成),也算一次大的創新?!?/span>
        ?
        除了這些「硬實力」,全新AI語音還有足夠「軟實力」。
        ?
        “小P會像Siri一樣調侃么?”筆者問道。
        ?
        “全新AI聲音會有一些情緒上的表達,或者對不同情景、不同語氣會有一些彩蛋的埋入,包含像偶爾跟用戶進行一些小的調侃,去調劑一下用戶整個行程中的娛樂性,這也會有一些小的彩蛋的埋入?!标愃荚苹卮?。
        ?
        而具體有哪些「彩蛋」,還需要P7車主一點點挖掘。
        ?
        除了語音彩蛋,全新小P語氣包括例如「助理、客服、聊天、溫和、親熱、抒情、新聞、嚴肅、不滿、生氣、害怕、悲傷、冷靜」等14種強烈情緒的變換能力,后續版本還會逐步貼合更多場景。
        ?

        說了這么多優點,但新技術哪有不翻車的。來談談筆者對小鵬全新AI語音的擔憂吧。
        ?
        首先就是難以應對離線情形。
        ?
        車輛行駛在偏遠地區,沒網,或者信號中斷,在「有-無」網絡之間來回切換,駕駛者肯定對語音質量的高低變換一定是有反應的。
        ?
        但小鵬的工程師已經想出了對策:在線追求高品質,離線兜底無時延。
        ?
        “如果遇到「5公里長的隧道」這類極端網絡情況,我們會在本地留一個「小的離線模型」,它的體量不會很大,但保證小P在時效性不變差的情況下一定能把聲音發出來,比如說導航或者自動駕駛這些播報,兩個模型工作準則是一樣的?!?/span>
        ?
        按照郝超的說法,這套自研「端云融合多級緩存」,能讓車輛預測當下的網絡情況,自動改選「在線神經網絡引擎」or「離線引擎進行聲音合成」,總之就是在信號不佳的情況下,語音播報依然維持高音質。


        “通過這個技術,小P已做到97%超高在線率?!焙鲁a充道。
        ?
        最后,筆者認為,無論多么炫技,全新小P仍是圍繞更好傳達信息而生的。
        ?
        回想下,你有沒有經歷過,當車內導航聲被道路噪音掩蓋、碰巧路線顯示延遲而錯過待轉路口?

        ?
        在認知心理學中有個經常被提及的原理:「雞尾酒會效應」。指的是人類聽覺系統有著極其神奇的「專注能力」,即便在嘈雜環境中,仍能將注意力專注于某種「特定聲音」,而「無視」掉背景音。
        ?
        其實,小鵬語音團隊做的便是將這個原理「逆」過來:做出一套更好被人類聽覺系統分辨的聲音。
        ?
        是的,人的注意力是有限的,一個好的交互系統在設計時就必定要考慮到極端情況下,如何減少人腦的能量消耗,從而達到最好的信息傳遞效果。

        期待小P早日讓車主們享受到這一樂趣。

        【 THE END 】—


        往期精彩文章回顧:

        |?圖啥?為當貼吧吧主,男子向百度員工行賄一輛寶馬X5


        |?雞塊掉地撿起繼續炸?華萊士道歉了!



        |?蘋果中國大出血!AirPods 2免費送了

        關注公眾號:拾黑(shiheibook)了解更多

        [廣告]贊助鏈接:

        四季很好,只要有你,文娛排行榜:http://www.yaopaiming.com/
        讓資訊觸達的更精準有趣:https://www.0xu.cn/

        圖庫
        關注網絡尖刀微信公眾號
        隨時掌握互聯網精彩
        贊助鏈接