Android上的嘸蝦米~支援關聯字的LIME輸入法~

closer wrote:
不過 OV 的許氏注音有個問題:它有 6 萬多個項目!
也許 Mac 上的字庫真的能秀出這麼多唸得出來的中文字,不過絕大部份的字在 Windows/Android 上是顯示不出來的。
把這些字留在字表中也是浪費空間。
我在想應該要把這些多餘的字拿掉才是.....


小的從 closer 的回應得到一點靈感,由於是資源有限的裝置,過大的表格只是浪費時間空間。
也有人提到會有一點頓頓的。像前面 sa22 大分享的嘸蝦米表格,有22662個按鍵定義,可打
出13075不同的字與符號。加上作者有提到一分鐘大約可匯入 1500 筆定義,所以最快也要匯
15 分鐘 (不過我都要花上近半小時 Orz...)

所以過大的萊姆表格一來要花很多時間匯入,二來表格也佔記憶體,將來查表也會多少造成負擔,
想大膽地把表格的字大量刪去,保留符號(如注音、日文、標點等),去除不常用的字。目前的想法
是從 unihan database 取出 kfrequency 裡面 5089 字來作取捨。因為不會在magic上頭作大量的輸
入動作,也許缺點字打不出來應該不會太令人抓狂 (而且說真的我也不識得這麼多字 :P)

下面是 unihan.txt 裡面對這個 tag 的說明:
Tag: kFrequency
Status: Provisional
Category: Dictionary-like Data
Separator: space
Syntax: [1-5]
Description: A rough frequency measurement for the character based on analysis of traditional Chinese USENET postings; characters with a kFrequency of 1 are the most common, those with a kFrequency of 2 are less common, and so on, through a kFrequency of 5.

待小弟把表格生出來測看看夠不夠用,其他輸入法使用者如果有興趣的話,小的也會製作這種縮水版表格分享一下。
大大努力啊....期待各大輸入法的縮水版...
我用許氏注音,打起來的確有點頓頓的
小弟先前說的縮水陽春版作好了... 從第三篇 sa22 分享的表格下去處理的。

最大的 liu4-mini.lime 大概十分鐘內可以匯完。

以下是縮減後的資料,key define 是按鍵定義,unique symbols 是這個輸入表格不重複的字與符號總數

D:\src\minilime\sa22table>..\mkfreq.pl -c liu4-mini.lime
total key define: 8381, unique symbols: 4274

D:\src\minilime\sa22table>..\mkfreq.pl -c hsu-mini.lime
total key define: 4786, unique symbols: 4152

D:\src\minilime\sa22table>..\mkfreq.pl -c eee-mini.lime
total key define: 4025, unique symbols: 4025

如果有興趣自己玩看看的話,小的在 google code 有立一個新的 project,
http://code.google.com/p/minilime

裡面有處理lime的perl script和kfreq.txt表格。
只要輸入法的字不在 kfreq 裡面就會被刪去,所以如果覺得有缺字可以直接補在 kfreq.txt 裡面,
再處理一次,表內的項目有重複也無所謂。有什麼改動都會放到上述的網址去。

有什麼建議或是想法,歡迎跟小弟指教,感恩!


下面是縮水版輸入表格,有蝦米、簡易、許氏,由sa22提供的版本處理而得。
附加壓縮檔: 200909/mobile01-69637f163f387fef51b1a1870405098c.zip
太感謝了,不過…能用liu5版以上的嗎~因為4版跟5版的拆碼有些是不一樣的說…
部落格:http://novafly.idv.tw
Nova wrote:
太感謝了,不過…能用...(恕刪)

如果是由我的檔案來處理的話,我的檔案版是嘸蝦米輸入法6的cin檔
版上的檔案在命名時,是以 liu for lime 1.5
所以打成liu4lime1.5..好像有點造成誤解的樣子


ericosur wrote:
目前的想法是從 unihan database 取出 kfrequency 裡面 5089 字來作取捨。

另外,因為不懂什麼是 unihan database 跟 kfrequency
要請教 mini 版的這8千多個字是代表常用的字嗎?
sa22 wrote:
版上的檔案在命名時,是以 liu for lime 1.5
所以打成liu4lime1.5..好像有點造成誤解的樣子

那就ok了,謝謝大大的提供,因為小弟之前在做精簡版時,發現小弟用的跟大哥之前給的碼有一點不一樣,比如「來」,在大大之前提供的檔中 ln 並沒有出現,但這次的有出現了,所以小弟會直覺以為大大用的是之前的版本~


另外,小弟發現輸入的快慢似乎跟導入檔案的大小沒什麼太大的關係說,即使現在用了這個精簡版,還是頓頓的吶~
部落格:http://novafly.idv.tw
sa22 wrote:
另外,因為不懂什麼是 unihan database 跟 kfrequency
要請教 mini 版的這8千多個字是代表常用的字嗎?(恕刪)


八千多是按鍵定義,實際能出的字只有四千出頭,有很多字有二種以上的打法,
在蝦米裡面很常有。

unihan database 是 unicode.org 提供的漢字資料庫,裡面有很多種 tag,
雖然 bug 也很多,不過這是小弟手邊找得到可以作參考的資料檔啦。前面有提到
是從中文 usenet 作出的頻率統計。另外小弟再加上一些遺漏的字和符號,作了
這個縮水版。希望這四千多個字符能合平日少量的輸入使用。

後面還是有人說會頓頓的,這看來要原作想辦法囉,小表格不能幫助查詢速度,
至少有幫到匯入速度吧 (不過大部份的人應該只會想匯一兩次,久一點忍一下就好...)

小弟用虛擬鍵盤,速度實在是很有限,而且在pc上是不用去想什麼碼,一來一回速度
差很多,所以沒法察覺會不會頓。以前palm有可攤開的折疊鍵盤可以用 (大約是nb
鍵盤的縮小版) 要是有這種產品,輸入就會變得比較愉快。

自己在用縮水版的時候,選字區的候選字就少得多,方框也少很多,對我而言,一
來畫面比較清爽,二來也比較不容易誤選,例如蝦米碼的 ewn,原表格有一堆字
可選,不過真的用的到的,也不過「建」和「錄」(後者我自己不會打這個碼...
我會打 AW / ACEW)

如果各位有什麼常用字的表格可以參考,小弟也可以再建表格。
NetKidz wrote:
LIME 新版已把數...(恕刪)



原來現在還有不少的大易輸入法使者,我也是其中一員,我亦匯入正常使用,但我作了一些更改才能使用 :

1. 有 "," 的碼,自行改為其他符號代替, ,如"$",但始終不太習慣,請問一下大大是否也改掉 "," ,還是另有其他方法呢? 因我用 tab 或 | 作分隔符號,仍未能打出有 , 字碼,而且還會打空格+字或|+字的情況。

2. 而且字碼內有 ","時,亦會做成不能完全匯入,只匯入到537項就說完成。


希望大大指教一下,以便完整使用大易。感謝!!~
文章分享
評分
評分
複製連結
請輸入您要前往的頁數(1 ~ 26)

今日熱門文章 網友點擊推薦!