跳到主要內容區

[訪談] AI 與聽覺

陳嘉平教授
   受訪人:資訊工程學系 陳嘉平教授   
   組別:第 4 組   

   訪問組員:   
       
B061010006 劉佳昀   
       
B062040044 許育禎    
       
B064011049 楊雅貽 
       
B082030005 葉覺文   

訪談紀錄
   AI 與聽覺   

1. 請問老師在這次「AI 與聽覺」的演講中,會介紹那些內容呢? 

由於 AI 先前有老師講解過,這次課堂上會著重在聽覺。聽覺為與聲音相關的訊號處理,其中又分為語音和一般聲音,語音為語言上的對話,一般聲音則是周遭生活環境的聲音(例如:汽車聲、下課鈴聲等等),課堂上會提到與這些聲音相關的應用、技術,並以圖解的方式替代背後的方程式,讓同學易於理解。

2. 能請老師為我們介紹語音辨識的過程嗎?例如:從嘴巴講出話,機器是如何辨識出單字與詞彙呢? 

首先會有語音訊號的處理,著重在頻譜分析,再透過搜尋的模組,找到模組裡的音,音湊成詞,詞再湊出句子。而在這些轉換的過程中,皆有機率模型參與,換句話說,一套語音辨識系統即是由這些機率模型組合而成。

3. 過去使用 siri 有時會出現他聽不懂的情況,而在語音導航也會有錯誤的資訊產生, 但近年來使用時發現錯誤率有降低的趨勢,想請問老師他是如何提高正確率呢? 

如果把語音系統看作 AI 系統,AI 系統又稱作機器學習,其中重要的元素則為資料與模型,資料追求質量高、好的資料,模型則有辨識模型、神經網路等。日前可以感受到使用狀況的進步、效能變好,主要原因有三個,第一個為優化模型,使用深度學習的技術;第二個,愈多人使用則擁有更大量的數據,可以辨識出質量更好的資料;第三個,硬體效能的提升,利用 GPU 和 TPU 使計算速度更快,利於更新模型,增加模型運作的資料量。三個原因正向循環影響下,使得應用上的錯誤率逐漸降低。

4. 在語音辨識的領域裡,會因為大家較常用某個語言,造成語言辨識會因為語言不同而有所差異嗎? 

是的,因為大家常使用某個語言,其資料量相較於其他語言更多,擁有更多資料即能使系統的效能提升,帶給使用狀況正面的影響。

5. 請問就您所知,在語音辨識的領域中,目前的技術有遇到哪些瓶頸嗎?未來還會有哪些突破與發展呢? 

  • 瓶頸

稀少性問題: 若某個語言使用的人比較少,資料量相對也較少,可能會
導致此語言沒辦法延續使用。

  • 突破

利用資源多、常使用的語言建立出的語音系統上,幫助具有稀少性的語
言,做到語音辨識(聲音轉文字)和合成(文字轉聲音)的效果。

  • 發展

考慮語言夾雜的情況,一個句子裡含多個語言時,要如何提升效能?

6. 未來語言辨識領域上,能夠辨識出情緒嗎? 

目前是可以的,但辨識程度還不精準細膩,通常可以根據不同的情緒去做分類,但仍停留在初淺的階段。若是分類愈細,正確率就會愈低,因此不會單獨去做情緒分類的研究,而是如何把情緒分類的模組整合在一個更大的系統裡面,再去衡量增加這個情緒模組對系統帶來的幫助。像是機器和人的對話系統,機器要如何判斷人的情緒,給予適當的回應。。

7. 請問老師除了研究語音辨識外,是否還有研究音樂的領域,像是對歌曲辨識?那在語音和歌曲之間有什麼差別嗎?

目前沒有做過歌曲的辨識,但有做過歌曲的合成。而在國內語音辨識還未起色前,有人開發過哼唱搜尋系統,透過一小段的歌曲,找到理想的歌。這個技術在當時還蠻盛行,現今也有許多產學合作在做這個技術。歌曲比語音多了音高和旋律的資訊,但相對於語音則少了音調,像是國語四聲就在歌曲中不常出現,而透過訊號找旋律只需要看頻率有多少個音,再去判斷其範圍,簡言之即是辨識音符,加上音符的數量少,相較於語音要辨識音和詞更為容易。

   學習建議   

1. 如果未來想要從事自動語音辨識與多媒體資訊技術相關的工作,老師認為在大學四年內,需具備哪些基本知識與能力呢? 

需要具備自我學習的能力,面對問題會找到答案解決。若是討論這項領域需要擁有什麼基礎知識,寫程式、建立系統是不可或缺的,在數學方面,則是機率、微積分以及線性代數等等。

2. 老師曾到美國華盛頓大學就讀電機工程研究所,想請問老師台灣和美國的多媒體及語音辨識領域中有哪些差異呢? (學習氛圍、教授的指導方式、研究)另外,請問有什麼建議可以給想出國精進的同學呢? 

台灣學生(碩士班)主要因為環境因素選擇是否就業或升學,反觀國際學生對自己的未來較有明確的方向及目標,知道自己想做什麼、該做什麼。
造成此差異的原因有三個,其一是同儕風氣,國際學生目標明確且努力執行,這樣的環境下壓力也比較大,迫使學生成長。其二是學習心態,現今網路普及,若是真的有企圖心,也能透過自我學習,達到與國際學生相同的程度。最後一點是年紀差,台灣的碩士生大概是二十來歲,而國際學生大部分年紀稍長,具教授所言甚至還有四、五十歲的學生,人生歷練下使其想法較為成熟。

3. 針對大四的學生,理工科同學傾向續升學面研究所,而人文社會科的同學傾向先出去工作再回學校唸研究所,不管是在哪個領域,請問老師這 2 者的學習方式有什麼不同?或是哪個較佳,存在哪些利弊? 

因人而異,不管是先進職場還是讀研究所,過程中都會面臨到許多問題,主要還是要培養遇到問題,會解決問題的能力。但相較於學生,進職場的壓力多少會大於學生,畢竟身分不同,兩者間能被接受的容錯程度也會有差異。若是決定先去工作的同學,則要確定好這是自己想要的工作,不只是金錢的滿足,這份工作能帶給自己成長更為重要。盡量在還年輕的時候,給自己多一點經驗與成長。

4. 對於想要了解初學者想要了解語音辨識這個技術的學生,有什麼可以快速入門的方式嗎?在這個時代中,必須要具備的相關知識有哪些呢?平常可以從那些地方(報章雜誌、書籍、網路平台等),獲取相關的知識呢? 

大學生可以從學校相關的課程開始學習,學習的對象不只是教授還包含助教及同學。若不是大學生,可以從網路上學習,例如:線上課程,就算是不同語言,也可以使用翻譯幫助理解。

5. 理科和工科在語音辨識上不同之處,與其在學習上的差別?

過往通訊傳播還未普及,資料量未能被大量蒐集時,學術界的技術領先於業界,反之現在,像是 google 開始發展後,業界技術逐漸領先於學術界。而在其中,工科會隨著科技日新月異下,不斷地更新,著重在效能的提升,能做出來就是好方法,理科則是較著重背後的理論,理論不易推翻,工科可以多學習理論,理科則多學習如何運用。

6. 對於人生迷茫時,該如何做出選擇? 

我們無法決定事態的走向,現今熱門產業未來不保證熱門,冷門的產業反之亦然。主要是要好好了解自己的興趣在哪,多方面接觸各式各樣的人事物,讓自己多了解與反思。而在決定後,至少要堅持一段時間才能確定適不適合自己,不要盲目地感到厭煩,學習在其中找到樂趣。

   關於老師   

1. 看到過去老師的訪談內容,裡面提到老師在碩士是研究通訊網路領域,那是什麼原因讓老師決定最後以訊號處理領域取得博士呢?  

老師遇到當時的指導教授,機緣巧合下成為他的學生,加上老師本身喜歡挑戰當時還未成熟的技術(也就是語音辨識),使得老師成為訊號處理領域的博士。

2. 老師平常是如何紓解壓力,且面對許多事情能有效地管理時間呢?

時間不夠時,學會拒絕社交活動,而當身心疲憊時要適時休息,否則會事倍功半,老師也有分享自己藉由參加學校羽球隊與橋藝社舒緩壓力。平常透過行程表上的紀錄適當規劃,依據自己的精神狀況,選擇處理例行公事或是需要深度思考的重要事項。

 

瀏覽數: