[訪談] AI 與聽覺

受訪人：資訊工程學系陳嘉平教授
組別：第 4 組

訪問組員：
B061010006 劉佳昀
B062040044 許育禎
B064011049 楊雅貽
B082030005 葉覺文

AI 與聽覺

1. 請問老師在這次「AI 與聽覺」的演講中，會介紹那些內容呢？

由於 AI 先前有老師講解過，這次課堂上會著重在聽覺。聽覺為與聲音相關的訊號處理，其中又分為語音和一般聲音，語音為語言上的對話，一般聲音則是周遭生活環境的聲音(例如:汽車聲、下課鈴聲等等)，課堂上會提到與這些聲音相關的應用、技術，並以圖解的方式替代背後的方程式，讓同學易於理解。

2. 能請老師為我們介紹語音辨識的過程嗎？例如：從嘴巴講出話，機器是如何辨識出單字與詞彙呢?

首先會有語音訊號的處理，著重在頻譜分析，再透過搜尋的模組，找到模組裡的音，音湊成詞，詞再湊出句子。而在這些轉換的過程中，皆有機率模型參與，換句話說，一套語音辨識系統即是由這些機率模型組合而成。

3. 過去使用 siri 有時會出現他聽不懂的情況，而在語音導航也會有錯誤的資訊產生，但近年來使用時發現錯誤率有降低的趨勢，想請問老師他是如何提高正確率呢?

如果把語音系統看作 AI 系統，AI 系統又稱作機器學習，其中重要的元素則為資料與模型，資料追求質量高、好的資料，模型則有辨識模型、神經網路等。日前可以感受到使用狀況的進步、效能變好，主要原因有三個，第一個為優化模型，使用深度學習的技術；第二個，愈多人使用則擁有更大量的數據，可以辨識出質量更好的資料；第三個，硬體效能的提升，利用 GPU 和 TPU 使計算速度更快，利於更新模型，增加模型運作的資料量。三個原因正向循環影響下，使得應用上的錯誤率逐漸降低。

4. 在語音辨識的領域裡，會因為大家較常用某個語言，造成語言辨識會因為語言不同而有所差異嗎?

是的，因為大家常使用某個語言，其資料量相較於其他語言更多，擁有更多資料即能使系統的效能提升，帶給使用狀況正面的影響。

5. 請問就您所知，在語音辨識的領域中，目前的技術有遇到哪些瓶頸嗎?未來還會有哪些突破與發展呢？

瓶頸

稀少性問題: 若某個語言使用的人比較少，資料量相對也較少，可能會
導致此語言沒辦法延續使用。

突破

利用資源多、常使用的語言建立出的語音系統上，幫助具有稀少性的語
言，做到語音辨識(聲音轉文字)和合成(文字轉聲音)的效果。

發展

考慮語言夾雜的情況，一個句子裡含多個語言時，要如何提升效能?

6. 未來語言辨識領域上，能夠辨識出情緒嗎?

目前是可以的，但辨識程度還不精準細膩，通常可以根據不同的情緒去做分類，但仍停留在初淺的階段。若是分類愈細，正確率就會愈低，因此不會單獨去做情緒分類的研究，而是如何把情緒分類的模組整合在一個更大的系統裡面，再去衡量增加這個情緒模組對系統帶來的幫助。像是機器和人的對話系統，機器要如何判斷人的情緒，給予適當的回應。。

7. 請問老師除了研究語音辨識外，是否還有研究音樂的領域，像是對歌曲辨識?那在語音和歌曲之間有什麼差別嗎?

目前沒有做過歌曲的辨識，但有做過歌曲的合成。而在國內語音辨識還未起色前，有人開發過哼唱搜尋系統，透過一小段的歌曲，找到理想的歌。這個技術在當時還蠻盛行，現今也有許多產學合作在做這個技術。歌曲比語音多了音高和旋律的資訊，但相對於語音則少了音調，像是國語四聲就在歌曲中不常出現，而透過訊號找旋律只需要看頻率有多少個音，再去判斷其範圍，簡言之即是辨識音符，加上音符的數量少，相較於語音要辨識音和詞更為容易。

學習建議

1. 如果未來想要從事自動語音辨識與多媒體資訊技術相關的工作，老師認為在大學四年內，需具備哪些基本知識與能力呢？

需要具備自我學習的能力，面對問題會找到答案解決。若是討論這項領域需要擁有什麼基礎知識，寫程式、建立系統是不可或缺的，在數學方面，則是機率、微積分以及線性代數等等。

2. 老師曾到美國華盛頓大學就讀電機工程研究所，想請問老師台灣和美國的多媒體及語音辨識領域中有哪些差異呢? (學習氛圍、教授的指導方式、研究)另外，請問有什麼建議可以給想出國精進的同學呢?

台灣學生(碩士班)主要因為環境因素選擇是否就業或升學，反觀國際學生對自己的未來較有明確的方向及目標，知道自己想做什麼、該做什麼。
造成此差異的原因有三個，其一是同儕風氣，國際學生目標明確且努力執行，這樣的環境下壓力也比較大，迫使學生成長。其二是學習心態，現今網路普及，若是真的有企圖心，也能透過自我學習，達到與國際學生相同的程度。最後一點是年紀差，台灣的碩士生大概是二十來歲，而國際學生大部分年紀稍長，具教授所言甚至還有四、五十歲的學生，人生歷練下使其想法較為成熟。

3. 針對大四的學生，理工科同學傾向續升學面研究所，而人文社會科的同學傾向先出去工作再回學校唸研究所，不管是在哪個領域，請問老師這 2 者的學習方式有什麼不同?或是哪個較佳，存在哪些利弊?

因人而異，不管是先進職場還是讀研究所，過程中都會面臨到許多問題，主要還是要培養遇到問題，會解決問題的能力。但相較於學生，進職場的壓力多少會大於學生，畢竟身分不同，兩者間能被接受的容錯程度也會有差異。若是決定先去工作的同學，則要確定好這是自己想要的工作，不只是金錢的滿足，這份工作能帶給自己成長更為重要。盡量在還年輕的時候，給自己多一點經驗與成長。

4. 對於想要了解初學者想要了解語音辨識這個技術的學生，有什麼可以快速入門的方式嗎?在這個時代中，必須要具備的相關知識有哪些呢?平常可以從那些地方(報章雜誌、書籍、網路平台等)，獲取相關的知識呢?

大學生可以從學校相關的課程開始學習，學習的對象不只是教授還包含助教及同學。若不是大學生，可以從網路上學習，例如:線上課程，就算是不同語言，也可以使用翻譯幫助理解。

5. 理科和工科在語音辨識上不同之處，與其在學習上的差別?

過往通訊傳播還未普及，資料量未能被大量蒐集時，學術界的技術領先於業界，反之現在，像是 google 開始發展後，業界技術逐漸領先於學術界。而在其中，工科會隨著科技日新月異下，不斷地更新，著重在效能的提升，能做出來就是好方法，理科則是較著重背後的理論，理論不易推翻，工科可以多學習理論，理科則多學習如何運用。

6. 對於人生迷茫時，該如何做出選擇?

我們無法決定事態的走向，現今熱門產業未來不保證熱門，冷門的產業反之亦然。主要是要好好了解自己的興趣在哪，多方面接觸各式各樣的人事物，讓自己多了解與反思。而在決定後，至少要堅持一段時間才能確定適不適合自己，不要盲目地感到厭煩，學習在其中找到樂趣。

關於老師

1. 看到過去老師的訪談內容，裡面提到老師在碩士是研究通訊網路領域，那是什麼原因讓老師決定最後以訊號處理領域取得博士呢?

老師遇到當時的指導教授，機緣巧合下成為他的學生，加上老師本身喜歡挑戰當時還未成熟的技術(也就是語音辨識)，使得老師成為訊號處理領域的博士。

2. 老師平常是如何紓解壓力，且面對許多事情能有效地管理時間呢?

時間不夠時，學會拒絕社交活動，而當身心疲憊時要適時休息，否則會事倍功半，老師也有分享自己藉由參加學校羽球隊與橋藝社舒緩壓力。平常透過行程表上的紀錄適當規劃，依據自己的精神狀況，選擇處理例行公事或是需要深度思考的重要事項。

瀏覽數: