Google的全球副總裁Vic Gundotre發佈Google中文語音搜尋即將上線。

Google今天(10/15)在北京舉行的行動應用交流論壇上,發布中文Voice Search,以中文發音進行搜尋的服務,數週後將會在Android平台,iPhone,BlackBerry及S60平台上線。(WM尚不支援)

Google語音搜尋運用語音辨識技術,利用說出關鍵字來進行網頁搜尋。2008年11月推出了英文版的語音搜尋,中文是第2個推出的語言。(還不含各種方言,純粹國語)

現場工作人員示範了一段在Android及S60手機上使用中文的語音搜尋。第一段工作人念了一長串地點名稱,
,第二段則是念出了清華大學附近的水煮魚搜尋,找到餐廳資訊網頁。
按這裡檢視外部影片 (按這裡在新視窗中開啟影片)

這段是示範是辨識錯誤時的狀況,辨識得出來的話直接開啟搜尋結果的網頁,但若伺服器對語音有疑問時,就會列出一些可能結果讓你選擇。Google語音搜尋也藉此,各地,多人,每天的使用,取得各種口音或是說話習慣,來校正或建立模式,也就是說,越多人用,時間一久,取得的樣本越多,以後辨識會越準確。
按這裡檢視外部影片 (按這裡在新視窗中開啟影片)



實際試用
現在的Android手機上,就有一個Google搜尋的Widget了,加了語音搜尋功能後,這個Widget旁邊或多了一個麥克風,點了麥克風就可以說出辭彙辨認成文字。那在其他平台上則是以下載程式後安裝的方式使用。



基本上語音搜尋的技術,主要是把語音 > 轉變成文字,搜尋結果則是根據轉換出來的文字而定,所以如果語音辨識出來是對的,搜尋的結果就跟打字輸入一樣是對的,如果語音辨識出來是錯的,那就像你打錯字一樣,搜尋結果也會是錯的。

至於念的東西的長度,除了單詞外,複合式的,比方王力宏的照片, 某某電影時刻表也ok,或是長到像一個地址,也辨識得出來。

搜尋時也會跟位置結合,比方因為採訪時人在北京,就開啟了中國Google的頁面。若是人在國外的城市,也可以在當地念出國語,搜尋到中文結果。


--至於大家最關心的準確率,除了工作人員的示範外,後來有跟開發人員比較近距離的問答時,請他示範了一些使用過程。最一般正常的念法,準確率還不錯。搜尋結果也會直接出現地圖可選。
按這裡檢視外部影片 (按這裡在新視窗中開啟影片)

按這裡檢視外部影片 (按這裡在新視窗中開啟影片)

--那中英文混念呢? 我唸了忠孝東路PizzaHut,但搜尋錯誤,在這之前我也試念了Mobile01(01念了是零一),試了幾次都找不到,現階段中英混念還無法做到,要就全中文,要就全英文。而且方言目前也還無法辨識,只能使用國語。
按這裡檢視外部影片 (按這裡在新視窗中開啟影片)

後來我也試了幾種念法。
念一個地址:台北市忠孝東路一段85號,整句有辨認出來,但有錯字,技術人員也說目前數字對語音搜尋來說,還是比較難辨認的一項,地址的搜尋結果通常會直接把地圖放在第一個。


王力宏的照片,就找得很準確, 因為它在辨識過程中,有比對Voice資料庫,這個發音最常搜尋的結果,就會被提出來,所以王力宏這個發音,就比較不會找到別的詞,這種就很好找。


還有台灣國語,這是台灣國語念台北小巨蛋,念成台北小季蛋,這個就沒有辨識到,但全聚德念成前季得,就辨識得出來,大概一半一半,這可能還是要取決於這詞是否經常被搜尋,可以感覺到口音對這功能的干擾似乎還好。


還試念了[胡士托風波時刻表],結果辨識不良,後來聽到技術解說後,知道太新的詞,在聲音資料庫裡可能資料還不足,辨識率也是比較差的。


地圖也有voice search
現在最新的Google Maps版本是3.1.2,之後到了3.2版的Google Maps,裡面也會加入語音搜尋,就可以念出地點,在地圖上標出。像影片的例子,打開3.2版的Google Maps,念出Pizza,就在在地圖上標出附近有哪些Pizza店了。
按這裡檢視外部影片 (按這裡在新視窗中開啟影片)


技術運作
其實Windows Phone或S60的使用者,應該有聽過一個叫賽微輕鬆說的程式,它就是用說來取代Keyin打字,可以用念的來寫簡訊跟mail,這個軟體在使用前,會讓你先錄大約20個句子,讓機器認得你口音的特點,提高辨識率,事實上試用之後,發現這套軟體的辨識率也很不錯,越用越聰明。(插個話:下個階段賽微也會推出一個語音搜尋的服務,也是把語音辨識出文字後,藉這文字再進行搜尋附近的店家,或是台灣在地的交通資訊...等的,不過是在特定範圍,不是全部的web搜尋)

Google中文語音搜尋,你不用先念句子對機器做training,直接講就可以了。Training這件事,是Google來做。
在服務推出前,Google就找了非常多的一般使用者來建立語音的資料庫,所以裡面有各種口音,各種講法,以及哪個發音最常被搜尋的詞是什麼...等。
使用時你對著手機講,語音就傳到資料庫去做比對,找出字詞出來,然後搜尋出結果。這過程發生在雲端,不是發生在你的手機,所以不會因為這個服務讓手機太耗電。
對於準確率,Google並不願意透露數字,但表示是認為資料庫已經建立到一個程度了,可以上線了。上線後經過大家的使用,就會繼續增加比對資料,提高中文辨識準確率。

目前辨認上比較難的是:中英文混念(比方T恤),數字以及同音字(比方會, 惠)。
如果是同發音但不同詞的,比方 交代/膠帶,就會以比較常被搜尋的那個詞為結果。
當然背景噪音也會影響到辨識正確率。

今天在現場試用的結果,菜菜子心裡對辨識度的評分是65%左右吧。一般名詞, 食衣住行地名或是名人的名字,都算OK,但自己的名字認不出來, 然後地址有講到數字的話也有辨錯,然後我要搜尋日月潭飯店,飯店一直辨識不出來,換成念酒店才認出正確的,但酒店好像不是台灣的習慣說法。
不過說法上可能自己也要掌握依些技巧,忠孝東路 7-11,這樣算混念辨識不出來,誠品跟成品同音,念誠品書店比較正確,全家也是,念全家便利商店辨識得比較正確。
但是不用打字,真的還是一件很便利的事情,尤其是地址。

正式上線時間會再公布,上線之後,Android,BlackBerry,Symbian S60及iPhone的使用者,可以去下載來試試囉。



小側記
今天Google中文語音搜尋這個服務上線的消息,是由Google的全球副總裁Vic Gundotre來發佈的(右),在2007年加入Google,擔任工程部門副總裁,在進入Google前,在微軟服務了15年,Vista及XP作業系統及Windows Mobile的工作都有參與到,左邊則是Voice Search產品的PM,很配合的應記者要求演講電話


這次活動是在Google北京總公司進行的。北京Google就在中關村這一帶,清華大學跟北大附近,旁邊有非常多大的IT公司都集中在這裡,比方微軟,搜狐,威盛...等,是個讓你覺得在這邊上班好先進的地區。




而且覺得附近其實很熱鬧,到飯店的路上有看到夜市跟好多吃的,暗自決定如果自己來北京玩我也要住這邊...我要逛大學培養人文氣質跟吃夜市...