
越來越多人戴上耳機後,選擇的不是音樂,而是打開Podcast來聽知識、新聞或是純聽聊天。有在聽Podcast的應該知道SoundOn這個平台,最近SoundOn和中華電信合作,以中華電信研發的AI語意雲技術,發展出「AI聲音濾鏡」這服務,讓播主可以把自己的節目語音轉文字,然後做各種應用,比方語音辨識後自動抓出熱門關鍵字、逐字稿、字幕、大綱…等,除了大大加速播主上傳節目後續的工作,也因為自動抓出了關鍵字,而可增加單集被搜尋到的紀錄。
對聽眾來說,除了可以更精準搜尋到帶某關鍵字的單集外,也就更有機會在聽節目同時有文稿可看,或是可以更精準的跳段收聽。
「AI聲音濾鏡」這服務目前是在SoundOn上線,還在封測階段,預計3月底前會公開提供給播主免費使用。
AI語意雲是中華電信自主研發的智慧聲控技術,除了自家推出的i寶貝智慧聲控音箱外,也有跟多家國內家電廠商合作聲控家電,提供背後的語音辨識、提取資訊的技術,其中當然運用了很多機器學習、雲端運算的技術,更重要是它不僅語言的在地化程度很高,也串接了很多台灣本地的服務,更適合提供國人使用。
如「AI聲音濾鏡」目前已經收集超過上百萬句國台語語料,也獨家支援辨識國台語混用,這陣子經過和SoundOn測試,語音轉文字的個人化辨識正確率達90%以上。
另外「AI聲音濾鏡」是以Podcast領域為對象打造的語音辨識模型,有些功能就更適合語音節目使用。
比方音檔上傳後,就會自動辨識生成逐字稿,且會自動斷句、附加對應的TimeCode,並以提到某詞語的頻率為依據,自動抓出熱詞,為節目下關鍵字,當作分類標籤。當然這些生成的文字也可以再後製編修。

這樣一來,等於就將一長串語音,自動轉成文字,幫播主生好關鍵字、逐字稿、影片可用的字幕、節目段落時間…等素材,節省播主聽打、對時、挑選關鍵字的時間。
也因為語音辨識為節目抓出了熱詞關鍵字,聽眾就更容易找到在講某關鍵字的節目,也更有機會在聽節目同時看到文字稿,在聽學習類或知識型節目時會更有幫助。而且若播主附加上時間軸功能,聽眾就更容易找到對的時間跳段落來聽。
當然要更多播主採用,聽眾才用得到這些便利的功能,SoundOn在這功能推出後,先邀請了寶博朋友說、偷聽史多利、投資癮、J格來尬聊(閻奕格)...等多位 KOL 先體驗,3月底前公開給每個播主後,相信會對Podcast,或是更廣泛的聲音社群,帶來更好的操作體驗,更甚者,將語音節目列入搜尋結果這件事,也變得更有可能了。
中華電信也希望透過這個案例,向有語音應用需求的產業招手,根據中華電信提到,這套技術目前已著手投入幾個潛力十足的應用,如聲音內容輿情分析、語音情緒辨識、Podcast 插入廣告投放、語音搜尋自組課程…等。
看內容的商機已經大量開發,從「聽內容」這個行為開發的商機,正在熱烈進行中。
#我發現我越來越常把YouTube放背景播放用聽的了