[採訪] Google發佈 手機中文Voice Search(語音搜尋) 近期上線


Google的全球副總裁Vic Gundotre發佈Google中文語音搜尋即將上線。

Google今天(10/15)在北京舉行的行動應用交流論壇上,發布中文Voice Search,以中文發音進行搜尋的服務,數週後將會在Android平台,iPhone,BlackBerry及S60平台上線。(WM尚不支援)

Google語音搜尋運用語音辨識技術,利用說出關鍵字來進行網頁搜尋。2008年11月推出了英文版的語音搜尋,中文是第2個推出的語言。(還不含各種方言,純粹國語)

現場工作人員示範了一段在Android及S60手機上使用中文的語音搜尋。第一段工作人念了一長串地點名稱,
,第二段則是念出了清華大學附近的水煮魚搜尋,找到餐廳資訊網頁。
按這裡檢視外部影片 (按這裡在新視窗中開啟影片)

這段是示範是辨識錯誤時的狀況,辨識得出來的話直接開啟搜尋結果的網頁,但若伺服器對語音有疑問時,就會列出一些可能結果讓你選擇。Google語音搜尋也藉此,各地,多人,每天的使用,取得各種口音或是說話習慣,來校正或建立模式,也就是說,越多人用,時間一久,取得的樣本越多,以後辨識會越準確。
按這裡檢視外部影片 (按這裡在新視窗中開啟影片)



實際試用
現在的Android手機上,就有一個Google搜尋的Widget了,加了語音搜尋功能後,這個Widget旁邊或多了一個麥克風,點了麥克風就可以說出辭彙辨認成文字。那在其他平台上則是以下載程式後安裝的方式使用。



基本上語音搜尋的技術,主要是把語音 > 轉變成文字,搜尋結果則是根據轉換出來的文字而定,所以如果語音辨識出來是對的,搜尋的結果就跟打字輸入一樣是對的,如果語音辨識出來是錯的,那就像你打錯字一樣,搜尋結果也會是錯的。

至於念的東西的長度,除了單詞外,複合式的,比方王力宏的照片, 某某電影時刻表也ok,或是長到像一個地址,也辨識得出來。

搜尋時也會跟位置結合,比方因為採訪時人在北京,就開啟了中國Google的頁面。若是人在國外的城市,也可以在當地念出國語,搜尋到中文結果。


--至於大家最關心的準確率,除了工作人員的示範外,後來有跟開發人員比較近距離的問答時,請他示範了一些使用過程。最一般正常的念法,準確率還不錯。搜尋結果也會直接出現地圖可選。




--那中英文混念呢? 我唸了忠孝東路PizzaHut,但搜尋錯誤,在這之前我也試念了Mobile01(01念了是零一),試了幾次都找不到,現階段中英混念還無法做到,要就全中文,要就全英文。而且方言目前也還無法辨識,只能使用國語。


後來我也試了幾種念法。
念一個地址:台北市忠孝東路一段85號,整句有辨認出來,但有錯字,技術人員也說目前數字對語音搜尋來說,還是比較難辨認的一項,地址的搜尋結果通常會直接把地圖放在第一個。


王力宏的照片,就找得很準確, 因為它在辨識過程中,有比對Voice資料庫,這個發音最常搜尋的結果,就會被提出來,所以王力宏這個發音,就比較不會找到別的詞,這種就很好找。


還有台灣國語,這是台灣國語念台北小巨蛋,念成台北小季蛋,這個就沒有辨識到,但全聚德念成前季得,就辨識得出來,大概一半一半,這可能還是要取決於這詞是否經常被搜尋,可以感覺到口音對這功能的干擾似乎還好。


還試念了[胡士托風波時刻表],結果辨識不良,後來聽到技術解說後,知道太新的詞,在聲音資料庫裡可能資料還不足,辨識率也是比較差的。


地圖也有voice search
現在最新的Google Maps版本是3.1.2,之後到了3.2版的Google Maps,裡面也會加入語音搜尋,就可以念出地點,在地圖上標出。像影片的例子,打開3.2版的Google Maps,念出Pizza,就在在地圖上標出附近有哪些Pizza店了。



技術運作
其實Windows Phone或S60的使用者,應該有聽過一個叫賽微輕鬆說的程式,它就是用說來取代Keyin打字,可以用念的來寫簡訊跟mail,這個軟體在使用前,會讓你先錄大約20個句子,讓機器認得你口音的特點,提高辨識率,事實上試用之後,發現這套軟體的辨識率也很不錯,越用越聰明。(插個話:下個階段賽微也會推出一個語音搜尋的服務,也是把語音辨識出文字後,藉這文字再進行搜尋附近的店家,或是台灣在地的交通資訊...等的,不過是在特定範圍,不是全部的web搜尋)

Google中文語音搜尋,你不用先念句子對機器做training,直接講就可以了。Training這件事,是Google來做。
在服務推出前,Google就找了非常多的一般使用者來建立語音的資料庫,所以裡面有各種口音,各種講法,以及哪個發音最常被搜尋的詞是什麼...等。
使用時你對著手機講,語音就傳到資料庫去做比對,找出字詞出來,然後搜尋出結果。這過程發生在雲端,不是發生在你的手機,所以不會因為這個服務讓手機太耗電。
對於準確率,Google並不願意透露數字,但表示是認為資料庫已經建立到一個程度了,可以上線了。上線後經過大家的使用,就會繼續增加比對資料,提高中文辨識準確率。

目前辨認上比較難的是:中英文混念(比方T恤),數字以及同音字(比方會, 惠)。
如果是同發音但不同詞的,比方 交代/膠帶,就會以比較常被搜尋的那個詞為結果。
當然背景噪音也會影響到辨識正確率。

今天在現場試用的結果,菜菜子心裡對辨識度的評分是65%左右吧。一般名詞, 食衣住行地名或是名人的名字,都算OK,但自己的名字認不出來, 然後地址有講到數字的話也有辨錯,然後我要搜尋日月潭飯店,飯店一直辨識不出來,換成念酒店才認出正確的,但酒店好像不是台灣的習慣說法。
不過說法上可能自己也要掌握依些技巧,忠孝東路 7-11,這樣算混念辨識不出來,誠品跟成品同音,念誠品書店比較正確,全家也是,念全家便利商店辨識得比較正確。
但是不用打字,真的還是一件很便利的事情,尤其是地址。

正式上線時間會再公布,上線之後,Android,BlackBerry,Symbian S60及iPhone的使用者,可以去下載來試試囉。



小側記
今天Google中文語音搜尋這個服務上線的消息,是由Google的全球副總裁Vic Gundotre來發佈的(右),在2007年加入Google,擔任工程部門副總裁,在進入Google前,在微軟服務了15年,Vista及XP作業系統及Windows Mobile的工作都有參與到,左邊則是Voice Search產品的PM,很配合的應記者要求演講電話


這次活動是在Google北京總公司進行的。北京Google就在中關村這一帶,清華大學跟北大附近,旁邊有非常多大的IT公司都集中在這裡,比方微軟,搜狐,威盛...等,是個讓你覺得在這邊上班好先進的地區。




而且覺得附近其實很熱鬧,到飯店的路上有看到夜市跟好多吃的,暗自決定如果自己來北京玩我也要住這邊...我要逛大學培養人文氣質跟吃夜市...


2009-10-15 14:12 #1
若要在手機上建立包含各種中文口音的語料庫,就不知要多大了,
而且手機的運算能力想必也沒那麼優異,
所以這應該是採用雲端運算的結果吧? 真令人期待...
像google這種可隨時update語音模型,
並且由使用者幫忙校正辨識結果的語音辨識軟體,
想必會愈用愈聰明,
或許藉由google和成千上萬中文使用者的幫忙,
中文語音辨識終有一天可以達到可實用化的辨誤率。
期待這天的到來!!
真是恐怖的google,什麼都搞,速度也快~
果然大者恆大
這的確是雲端運算的一種
不知道電腦可不可以用

還有
不知道樣本多以後
是不是要用北京腔才準?
最強擋廣告外掛 AdGuard http://bit.ly/2uq2ZaU
ddrbox wrote:
若要在手機上建立包含...(恕刪)

嗯..聽說伺服器是很大, 這也是Google可以擁有的優勢, 在這項技術上,所謂別人難以超越的優勢吧。
你才廣告你全家都廣告
天氣預報 wrote:
這的確是雲端運算的一...(恕刪)

嗯, 是雲端計算。而且說完到跑出搜尋結果網頁的速度很快。
而且不用北京腔啦,偶用台灣狗已都可以的啦
你才廣告你全家都廣告
Nanako0625 wrote:
這段是示範是辨識錯誤時的狀況,辨識得出來的話直接開啟搜尋結果的網頁,但若伺服器對語音有疑問時,就會列出一些可能結果讓你選擇。Google語音搜尋也藉此,各地,多人,每天的使用,取得各種口音或是說話習慣,來校正或建立模式,也就是說,越多人用,時間一久,取得的樣本越多,以後辨識會越準確。...(恕刪)


如果照這樣發展下去
用GOOLGE搜尋的台灣人
應該都要去練練京片子
不然越校正 台灣的國語口音 搞不好會搜尋錯誤
Nanako0625 wrote:
嗯, 是雲端計算。而...(恕刪)


不過我是希望他們可以把台灣跟中國大陸分開伺服器
因為口音跟很多用字(如螢幕,屏幕等)不太一樣
分開會對兩邊都比較準確
最強擋廣告外掛 AdGuard http://bit.ly/2uq2ZaU
Nanako0625 wrote:
Google的全球副...(恕刪)


看到..Google.....真是好嚇人...

以後會不會...都離不開它........一直一直推出..服務都好的嚇人...

Voice Search..台灣狗語...也會通嗎???...哈......那才有台灣味...

北京腔...就有點怪了...
‧°∴°☆﹒°☆﹒﹒‧°∴°﹒☆°∴°☆﹒﹒. °.﹒‧°∴°☆‧°∴°﹒☆ ☆°.﹒‧°∴°☆°
在中國使用Google啊

怎麼沒有出現





載入頁面時到服務器的連接被重置。








* 此站點暫時不可用或者太忙。請稍後重試。

* 如果您無法載入任何頁面,請檢查您計算機的網絡連接。

* 如果您的計算機受到防火牆或代理服務器的保護,請確認 Firefox 被授權訪問網頁。






話說在中國使用過網路的人都應該明白這個笑點
Tsai的部落格 http://tsaieyes.blogspot.com/
限制級
您即將進入之討論頁 需滿18歲 方可瀏覽。
提醒:內容可能因過於寫實、驚悚而令人感到不舒服,是否繼續觀看?

根據「電腦網路內容分級處理辦法」修正條文第六條第三款規定,已於該限制級網頁,依台灣網站分級推廣基金會規定作標示。
評分
複製連結