鄭碼

鄭碼

字形編碼系統
鄭碼又稱字根通用碼,是我國著名文字學家、享譽海内外的《英華大詞典》主編鄭易裡教授經半個世紀對漢字字形結構的研究,後期和女兒鄭珑高級工程師共同創造的重大科技成果。已獲中、美、英國專利授權,并通過國家級的鑒定。權威專家們确認鄭碼是國内最優秀的字形編碼系統。鄭碼具有規範、易學、快速、通用的優點。
    中文名: 外文名: 别名: 書名:鄭碼 又名:《字根通用碼》 作者:鄭易裡 優點:規範、易學、快速、通用

簡介

《鄭碼》簡稱《字根通用碼》,是我國著名文字學家、享譽海内外的《英華大詞典》主編鄭易裡教授經半個世紀對漢字字形結構的研究,後期和鄭珑高級工程師共同創造的重大科技成果。已獲中、美、英國專利授權,并通過國家級的鑒定。權威專家們确認《鄭碼》是國内最優秀的字形編碼系統。《鄭碼》規範、易學、快速、通用。

用同一編碼規則不但可以輸入2萬漢字,還可以輸入68000個和10萬個漢字。《鄭碼》曾榮獲北京國際發明金獎和最優秀發明大獎;榮獲第22屆日内瓦發明金獎。國家主管部門通過評比向國内外用戶廣泛推薦《鄭碼》。中國的中文之星等系統平台選用《鄭碼》,美國Microsoft公司的Windows95/98/NT/2000/XP/Vista中文系統選用《鄭碼》,美國IBM公司的OS/2和JAVAOS等許多中文産品也都選用《鄭碼》。

《鄭碼》以單字輸入為基礎,詞語輸入為主導,用2-4個英文字母便能輸2字詞、多字詞和30個字以内的短語;在這種字詞交融輸入之下,輸入一個漢字的平均碼長是1.8-1.9鍵之間。他備有兩個詞庫,分别收錄25000和50000條詞語。

《鄭碼》是一種繁體字輸入法,也是一種生僻字輸入法,當然它也是一種常規輸入法。鄭碼可以打出國标擴充字庫(原來叫GBK字庫,後來發展為GB18030字庫)裡的2萬多個漢字,極大滿足了人們在日常生活、工作中使用漢字的需求。

在常規情況下,《鄭碼》輸入法可以打出GBK字庫裡的20902個漢字。比普通《五筆字型》能打出的6763個漢字要多打出14139個漢字。正因為這個原因Windows沒有預裝《五筆》,而是預裝了《鄭碼》。

編碼原理

《鄭碼》編碼的基本原理 《标準型》

鄭碼的幫助文件中這樣說:“為了不同用戶的需求,《鄭碼輸入法》分為《普及型》和《标準型》兩種。《标準型》重碼率低,适合高速盲打輸入。它不但适用于當前通用字符集的 6763 個漢字的輸入,而且用同樣的編碼規則,Windows 2000 中,還能方便地輸入大字符集的 20902 個漢字。《普及型》的編碼規則簡單易學,但不能用來輸入大字符集漢字。《普及型》可以作為《标準型》的學習階梯,因為二者字根的代碼有共性,因此用熟練後能自然過渡到《标準型》。”由于我的機上可以輸入大字庫的字,所以我講的是《标準型》。

主要方式

高頻字取碼方式

這W月Q我M發Z現C了Y對X一A度T所P說S要F成H為U個O沒V多R中J用L地B在G世E上I的D是K他Nn

一基根字的取碼方式

就是那些隻有一個基根的字。它們如果是第一主根,就打出該主根代碼,然後在其後加上A即是。舉例:言是S上的第一主根,其的代碼即是SA。馬**X***XA,依此類推。n它們如果是第二主根或者是副根,直接打出。n尤*****GR,其****EC,業******KU,廣*****TG,氏****RH,欠******ROn女*****ZM,子*****YA,已*****YYA,申*****KIC,比******RRn七*****HD,龍*****GM,大******GD。十*****ED,寸*****DSn但是,由于許多基根不是常用的,當它們的代碼與某些詞組重碼時,系統将默認詞組。

你要打出基根時候,有時不得不加上一個或者多個A,這是鄭碼的幫助文件中未提及的。好在這種情況發生時,你要的基根并不是很需要按+,系統也是要提醒你輸入A的。n

二基根字的取碼方式

兩個基根的字,如果兩個基根的代碼都是一個字母,就在它們的後面加上"VV"。其餘的就直接取碼就是了。n例子:碼=石G+馬X********GXVVn杜=木F+土B=FBVV。上=蔔ID+一A=IDA,下=一A+蔔ID=AIDn推=扌D+隹NI=DNI拓=扌A+石G=GAVV,雹=雨FV+包RY=FVRYn取=耳CE+又XS=CEXS麼=丿M+厶ZS=MZS要+西FJ+女ZM=FJZMn

三基根字的取碼方式

三基根字的取碼方式又分為兩種情況。n

1如果首基根是一個代碼,就取次基根的首碼[不管它有幾個碼]和末基根的全碼。n

騰=月Q+UB+馬X=QUX,淵=氵V+リND+米UF=VNUFn

2如果首基根是二個代碼。那麼次基根和末基根隻取首碼[不管它們有幾個碼]。n

靠=⺧MB+口J+非KC=MBJK,羟=⺶UC+スXS+工BI=UCXBn

四基根字的取碼方式

1如果首碼是一個碼,就取首碼和次基根的首碼,加上次末基根和末基根的各一個首碼。藏=艹E+戈HM+爿ZI+臣H=EHZH,懿=士B+冖WW[一口丬冫]欠RO+心WZ=BWRWn

2如果首碼是二碼,由于首基根的代碼不能省,就隻能省略次基根的代碼。相對于上一種情況,首基根的另外一個位置由次基根讓出。也就是說:首基根的代碼加上次末基根和末基根的各一個區碼。例子:n戆=立SU+[日十夊工]+貝LO+心WZ=SULWn

總之首基根是不能省的,是一取一,是二取二。n

小注意:鄭碼中"辶","廴"是取碼中首要取的,這一點不和五筆一緻。但是在有别的偏旁存在的情況下,又要放在後面。比如“進”中“辶”在首選就要取碼,而在“蓮”中就要在“艹”的後面馬上要取,先于“車”。這一點好像恰恰與五筆字型中的取碼方式相反。n

簡碼的取碼方式

一級簡碼:就是剛才說的26個高頻字。n

二級簡碼用該字首根和次根各1碼組成。舉例:把--DY找--DH管--MW。需--FG取--CXn個别常用詞也有二級簡碼,就是取每字第一個基根的區碼。

舉例:中國--JJ國家--JW一定--AW我們--MN政府--AT開展--AXn北京--TS上海--IV天津--AV合作--ON各種--RM采取--PC。n

二基根字:取第一個基根的區碼和第二個基根的區位碼,如:處--RID。n

三基根和多基根字:依次取第一、第二和第三個基根的區碼,如:散--EQM。n

詞組輸入取四碼

1.二字詞組2+2n

例子:我們MVNT中華JVNR(我字是一個高頻,故其後加V)n言語SASB(言在第一個故其後加A)n大家GDWG詞組SYZL騰飛QUYTn神話WKSM童話SKSM神仙WKNLn

2.三字詞組1+2+1n

例:大家庭GWGT神經原WZXGn

3.四字詞組/俗語/成語1+1+1+1n

例:祖國統一WJZA中華民族JNYS無奇不有AGGGn一絲不苟AZGE無拘無束ADAF風土人情QBOUn字庫裡成語不多哩:)n

4.五字以上1+1+1+1n

取前面四字首碼n例:中華人民共和國JNOYn中央電視台JLKWn

編碼規則

第一條:要按照《鄭碼》的基本字根總表上所列出的基根(包括形近根),把漢字分解成基本字根才能編碼。如果沒有合适的基根,就要進一步分解成筆畫。例如:

補--衤蔔懇--艮心濾--氵虍心書--乛丨丶

第二條:漢字分解後,基根和筆畫排列的順序叫做“根序”。根序的确定有三種情況:

l.左右字、上下字以及由單筆畫組成的字,根序與規範的書寫順序一緻(見上例中的“補、懇、濾、書”四個字的分解)

2.具有相接、交叉和相嵌結構的字,第一筆先寫的基根或筆畫排列在前。例如:([]方括号内是例字)相接結構的字:夭--丿大[沃笑];

疋--乛止[蛋疏];

交叉結構的字:束--木口[整辣];

夷--大弓[姨];

屯--七凵[純鈍噸];

相嵌結構的字:亘--二曰[桓恒];

佥--人二(橫三點)[檢驗]

淵--氵(撇-豎)米;

肅--肀(撇-豎)八[蕭箫]

複合結構的字:決--冫乛大[缺炔](又有相接又有相交);

3.對于包圍字和包孕字,要将第一筆先寫的基根排在第一位。

因為是以基根為單位排列根序。例如:

困—囗木聞—門耳函—乛氺凵式—弋工

載—車庫—廣車匦—匚車九趙—走乂

但是,為了檢索的快捷和歸納的劃一,對于有“辶、廴”的字,确定根序時,要将“辶、廴”排列在第一位。

例如:“達—辶大”、“延—廴丿止”。

總之,給單字或詞語編碼,就是按照編碼規則依次取基根的代碼組成字詞的編碼。根序搞錯編碼也随之而錯。因此,正确認識單字的根序十分重要。

第三條:單字和詞語的編碼不能超過4個字母,因此要根據單字或詞語中基根數的多少決定基根代碼的取舍,這種取舍代碼的方法叫取碼方法(詳見以下說明)。

取碼方法

術語:“1碼根”是指第一主根,因它的代碼隻用區碼1個字母。“2碼根”是指第二主根和副根,因為它們的代碼要用區位碼的2個字母。“取1碼”的意思是隻取該基根的區碼。

一、單字編碼的取碼原則

1.單字首根(即第一個基根)的代碼要按照實際碼數取,不能有所省略。就是說,首根是1碼根就取1碼;首根是2碼根就取2碼(區碼和位碼都要取)。

2.為保證單字編碼不超過4個字母,首根之後的其餘基根代碼要根據不同情況決定取舍。一般是先舍位碼,隻取區碼的1碼。

例如:櫻--木F貝LO貝LO女ZM--FLLZ

醒--酉FD曰K生MC--FDKM

但是,對于四基根和多基根字,還要将中間一些基根的代碼全部舍棄,隻取前兩碼和最末2個基根各1碼。就是說,取兩頭舍中間。

例如:縮--纟Z宀WD(亻)一A白NK--ZWAN

糖--米UF(廣)肀XB口J--UFXJ

專利申請

2008年11月21日,北京一中院開庭并做出一審宣判,駁回微軟撤銷鄭碼專利的請求。微軟甩賴未成。 鄭碼輸入法由鄭易裡先生及其女兒鄭珑共同發明,獲得中國、美國等國家專利。1992年,由北京中易中标電子信息技術有限公司經鄭易裡和鄭珑授權,開發、研制、設計了符合國家标準的宋體、黑體兩套中文漢字字庫,并獲得了國家專利。

相關詞條

相關搜索

其它詞條