一、簡介
技術底座:對話式AI產品的AI技術底座由智能語音、自然語言理解與知識工程核心支撐
智能語音:在對話機器人產品中,智能語音技術主要應用于語音機器人與視頻機器人/數字人產品的對話交互,由語音識別(ASR)與語音合成(TTS)兩部分組成。從工作流程來看,用戶真人的語音會先通過ASR(語音識別)技術將其轉化為文本,再接入NLU(自然語言理解)進一步理解用戶意圖。因此,語音識別準確率至關重要,決定后續自然語言理解效果
自然語言理解:自然語言處理技術主要包括自然語言理解(NLU)與自然語言生成(NLG)兩部分。對于對話機器人來說,如何做好自然語言理解(NLU)中的意圖識別,是保證人機交互效果的關鍵。當下意圖識別已達到相對優質水平,但對于情緒的理解與判斷仍是難點
知識工程:知識工程已從早期單一FAQ技術發展豐富到深度學習FAQ、表格知識庫、知識圖譜、文檔閱讀理解等多技術階段。從客戶端體驗來看,廠商將持續追求知識工程技術的豐富升級,
而從自身經營來看,廠商需基于投入產出判斷是否開發新的知識工程技術
二、對話式AI產品的技術底座
三大AI技術底座:智能語音、自然語言處理、知識工程
對話式AI產品的AI技術底座由智能語音、自然語言理解與知識工程核心支撐。在工作流程中,智能語音技術分為語音識別(ASR:Automatic Speech Recognition)與語音合成(TTS:Text-To-Speech)兩類,實現對話內容從語音到文本、從文本到語音的相互轉換;自然語言處理可分為自然語言理解(NLP:Natural Language Processing)與自然語言生成(NLG:Natural Language Processing),其關鍵是要讓機器人“理解”人類語言中的意圖并基于知識庫“生成”對應的自然語言,完成人機對話交互;知識庫為對話式AI產品的大腦,由知識工程支撐建設,F知識工程以深度學習FAQ為核心應用,另包括表格知識庫、知識圖譜和文檔閱讀理解等技術。
三、智能語音技術
語音識別準確率至關重要,決定后續自然語言理解效果
在對話機器人產品中,智能語音技術主要應用于語音機器人與視頻機器人/數字人產品的對話交互,由語音識別(ASR)與語音合成(TTS)兩部分組成。從工作流程來看,用戶真人的語音會先通過ASR(語音識別)技術將其轉化為文本,再接入NLU(自然語言理解)進一步理解用戶意圖。因此,智能語音技術中的語音識別準確率至關重要,轉換的正確與否直接決定了后續自然語言處理的效果,F階段,語音識別的效果與成熟度已達到了相對先進的水平,對話式AI廠商正從VAD靜默檢測、ASR聲學模型與ASR語言模型三部分入手,對應突破各部分的技術難點,以進一步提升語音識別的準確率。
四、自然語言處理技術
意圖識別已達到相對優質水平,情緒的理解與判斷仍是難點
自然語言處理技術主要包括自然語言理解(NLU)與自然語言生成(NLG)兩部分。對于對話機器人來說,如何做好自然語言理解(NLU)中的意圖識別,是保證人機交互效果的關鍵。根據業內專家普遍反饋,目前意圖識別的應用效果良好。
雖然對話機器人尚難做到人與人之間的理解程度,但人在知道是在與機器人交互時后,表達會相對標準化,因此意圖識別的實際效果會普遍優于預期。而在情緒的判斷與理解上,對話機器人仍有很長一段路要走,這也是未來可給行業帶來技術突破與產品顛覆的方向。
五、知識工程技術
提升知識庫運營建設能力,基于投入產出評估新技術開發
知識工程已從早期單一FAQ技術發展豐富到深度學習FAQ、表格知識庫、知識圖譜、文檔閱讀理解等多技術階段。從客戶端體驗來看,對話式AI廠商將持續追求知識工程技術的豐富升級,根據客戶的業務及資料特點為其匹配合適的知識工程技術,將知識庫的建設質效最大化;從廠商自身經營來看,廠商需基于投入產出判斷是否開發新技術。以知識圖譜為例,知識圖譜可支撐多知識點的綜合判斷,提升對話式AI產品在復雜問題下的答案準確度,但知識圖譜同樣存在技術門檻高、開發投入大等特點,廠商需根據所需投入與業務落地價值,去評估是否投入開發,并選擇判斷合適的行業切入點。