新聞?dòng)浾?吳漢
8月30日,科大訊飛星火極速超擬人交互技術(shù)正式上線訊飛星火APP,率先面向全民開放體驗(yàn)。據(jù)了解,這是國內(nèi)首個(gè)對(duì)標(biāo)GPT-4o語音的大模型產(chǎn)品,用戶可在訊飛星火APP中直接體驗(yàn)使用。根據(jù)官方介紹,星火極速超擬人交互在響應(yīng)和打斷速度、情緒感知情感共鳴、語音可控表達(dá)、人設(shè)扮演四個(gè)方面實(shí)現(xiàn)重大突破,讓整體交互體驗(yàn)更自然、更具情感。
上線當(dāng)天,科大訊飛研究院常務(wù)副院長高建清針對(duì)星火極速超擬人交互技術(shù)及應(yīng)用展開進(jìn)一步解讀,不僅剖析了星火超擬人交互的“端到端”“共情力”等核心技術(shù)亮點(diǎn),還為公眾勾勒出技術(shù)產(chǎn)業(yè)化的愿景圖。
據(jù)悉,“端到端”技術(shù)框架是實(shí)現(xiàn)極速響應(yīng)的重點(diǎn)。目前在全世界范圍內(nèi),框架模型算法持續(xù)演進(jìn),國外以GPT-4o、特斯拉FSD等為代表的多模態(tài)端到端方案,已被證實(shí)可進(jìn)一步提升技術(shù)效果和用戶體驗(yàn)。而科大訊飛極速超擬人交互作為業(yè)界首個(gè)端到端極速超擬人交互,通過將此前級(jí)聯(lián)方案升級(jí)為統(tǒng)一神經(jīng)網(wǎng)絡(luò),直接實(shí)現(xiàn)語音到語音的“端到端”建模,大幅縮短響應(yīng)時(shí)間,做到了真正的極速。
而人類語言被稱為世界上最動(dòng)聽的語言,是因?yàn)榫哂歇?dú)特的情緒感染力,能夠傳達(dá)復(fù)雜的情感和思想,實(shí)現(xiàn)文明的傳承和進(jìn)化。但長久以來,智能語音與自然語言處理技術(shù)主要針對(duì)“內(nèi)容”模塊下功夫,比如能“聽懂”更多的語種,“解答”更多的問題,但想要獲得擬人化的對(duì)話體驗(yàn),還需要“內(nèi)容”與“情緒”等模塊協(xié)同作用。
大模型時(shí)代的到來,恰好能讓不同的模塊化功能進(jìn)行“大統(tǒng)一”。高建清表示:“以往語音交互系統(tǒng)都是不同的模塊,比如語音識(shí)別、語音合成和大語言模型。而科大訊飛星火極速超擬人交互技術(shù)基于端到端大模型框架,并結(jié)合訊飛多維度語音屬性解耦表征訓(xùn)練模塊,實(shí)現(xiàn)情感、方言、韻律、音色等的可控,實(shí)現(xiàn)了對(duì)語音交互的擬人化升級(jí)?!?/p>
星火極速超擬人技術(shù)還將星火大模型的“共情力”帶到了新的高度,在這次單交互系統(tǒng)上線之前,業(yè)界的交互系統(tǒng)大多沒有情感,均以中性情緒回復(fù),或者個(gè)別系統(tǒng)有這種情感,但大多停留在文本層面。而星火極速超擬人技術(shù)可以實(shí)現(xiàn)情感共鳴,當(dāng)人機(jī)對(duì)話時(shí),機(jī)器可以理解你的聲音內(nèi)容,包含情緒表達(dá)。高建清認(rèn)為,雖然目前系統(tǒng)暫時(shí)不能使用表情,但未來如果將表情、聲音內(nèi)容與聲音情緒三者結(jié)合在一起,將會(huì)是一條可行的新路徑。
星火極速超擬人語音的情緒感知能力,能夠感知到數(shù)十種音頻事件與情緒,比如喜怒哀樂、害怕、困惑等,AI會(huì)以“感同身受”的方式進(jìn)行語言組織和情緒表達(dá)。而情感共鳴會(huì)結(jié)合聲音和內(nèi)容等不同維度,在合適的情境采用合適的情感進(jìn)行回應(yīng),比如用戶開心的時(shí)候用笑聲呼應(yīng)心情,用戶悲傷的時(shí)候用安慰語氣進(jìn)行安撫,讓AI變得有血有肉有溫度。
共情力對(duì)于大模型是一項(xiàng)重要的基礎(chǔ)能力,或許在未來的人形機(jī)器人身上,我們將看到共情力的具象表達(dá)。比如你一進(jìn)門,機(jī)器人向你笑臉相迎地問候道,就像1999年科幻電影《機(jī)器管家》里面的人形機(jī)器人安德魯,讓人機(jī)之間也有情感紐帶。當(dāng)然暢想這些還為時(shí)尚早,現(xiàn)階段的星火極速超擬人交互更有另一部電影《Her》的既視感,TA可以用笑聲回應(yīng)開心,用急促回應(yīng)憤怒,更自然,更逼真,更還原真人對(duì)話的語境。
至于快速打斷功能,這也是真人對(duì)話中經(jīng)常復(fù)現(xiàn)的狀況。比如你入住酒店問前臺(tái)客服,如果對(duì)方答非所問肯定當(dāng)即打斷;同理,沒耐心聽AI講一大堆話,或者回答跑偏,立即打斷是人的生理本能。“這是個(gè)極其復(fù)雜的工程問題,需要去判定何時(shí)打斷、何時(shí)不應(yīng)打斷,我們通過技術(shù)創(chuàng)新與強(qiáng)化底座認(rèn)知能力,解決了打斷和響應(yīng)時(shí)間平衡的問題?!备呓ㄇ逭f道。