新世纪五笔字型输入法

新世纪五笔字型输入法

2008年王永民推出第三代五笔字型输入法
新世纪版五笔字型输入法,简称新世纪五笔,是王永民教授于2008年1月28日推出的第三代五笔字型输入法(第一代的86五笔和第二代的98五笔分别于1983年和1998年推出),该版本也被称为标准版王码五笔。新世纪五笔建立在新的字根键位体系,重码实用频度降低,取码更加规范,打字更加顺手,在规律性、易学性等方面有显著的进步。[1]
  • 中文名:新世纪五笔字型输入法
  • 外文名:
  • 别名:新世纪五笔
  • 开发者:王永民教授
  • 发行日期:2008年1月28日

发展历史

五笔字型是一种完全依照汉字的字形、不计读音,不受方言和地域限制,只用标准英文键盘的25个字母键,便能够以“字词兼容”的方式,高效率地向电脑输入汉字的编码法及其软件。这一技术,编码规则简单明了,重码少,5区25个键位设计规律性强,键位负荷与手指功能匹配协调(打起来顺手),因而好学易用、效率高,不但在中国装机最多、应用最广、一直处于主导地位,而且10多年来在联合国总部、东南亚各国,其应用也越来越广。

五笔字型于1983年8月28日鉴定之后,25年间其软件共有三代版本:

第一代:1986年推出86版五笔,并附有五种笔画“前四末一”简易输入法,史称86—4.5版;其取码规范化的一个改进版WB-18030,2001年推出,称“新86”版或“标准86版”;

第二代:1998年推出98版五笔,增加整字根甫、未、甘、母等,移广到O键;

第三代:2008年元月28日推出,实施了第三代五笔字型的新专利,建立新的字根键位体系,处理27533个简繁汉字,走“彻底规范、亲近用户”的路线,并新创25项功能。

版本对比

第三代五笔字型——新世纪版,是五笔字型发明人王永民教授于1997~1999年用“机助方法”,在《形码设计三原理》(请参考《计算机学报》2005年第5期870—881页)数学模型的理论框架下,对86、98版五笔字型的字根体系、键盘布局和编码体系,做定量的优化分析和调整之后,历时2年,创新设计的一个编码方案,1999年提出申请,于2003年8月6日获得中国专利局授权和专利证书。所以,第三代五笔字型,是王永民教授的一项新的发明专利。

三个版本的五笔有很多共同之处,只有少数字根或字根分布不同,但大部分汉字的编码都没有改,编码规则也保持一致,只要记住少数变动的字根,专门挑那些“编码”不同的字练上几天,就可以由原来熟悉的五笔版本过渡到新版五笔。王永民教授认为,如果是新学五笔字型的人,最好能“一步到位”学习第三代(新世纪版)。因为从长远看,王码公司将要用新世纪版“统一全国”的“形码”输入法,包括纳入中小学教育之中。

第三代五笔字型从理论和实践两个方面,都取得了质的突破,实现了对第一代和第二代的再创新。第三代的各项技术指标,包括字根的增减或移位、键位负荷的均衡设计、简繁汉字的简码设计、汉字“大小写”的定义和应用、容错码设计以及《助记歌》等等,与前两代比,都有质的进步。从实用性评价,其重码实用频度降低,取码规范化,打起顺手;规律性、易学性等方面也都有显著的进步。所以,发明人王永民教授说,第三代五笔字型(新世纪版)将是他30年来研究五笔字型的一个“终极版”,“第三代是个大方向”!王码集团将以这个版本为核心,统一全国的“形码”输入法。

新版特点

1983年发行第一版的五笔字型,到1986年推出86版定型版,1998年通过鉴定并推出的98版五笔字型,在编码的规范性上做了一定的改进,但在适应性、字根易记性等方面,仍有欠余。新世纪版对86版和98版做了如下改进:

1、规范性

86版在某些字中的末笔识别码的取法上迁就了习惯写法,如:我、找、龙、成……

这些字由于有一大部分有倒插笔的习惯,所以在86版中,人为地规定末笔为“丿”。而在国家笔顺规范中,这些字的末笔为“丶”,因此,在新世纪版编码时,统一将这些字规定为依照国家标准,末笔均定义为“丶”。

98版在编码取码上进行了规范性的改进,象“我、找”等字,用户书写习惯有的是以“丿”为末笔,有的是以“丶”为末笔,在98版中,都按照国家笔顺规范,定义这些字的末笔为“丶”,在新世纪版编码体系中,同样也沿袭了这些标准,末笔均定义为“丶”。

2、字根精减

为确保编码方案最优,为更加方便用户记忆字根,新世纪版字根有所减少,比86版和98版都少了许多字根。

3、键位变动

以理论与实践为基础,为确保编码方案最优,对86版的7个字根的键位做了变动,放置在新世纪版的字根图中。如:字根“乃”,在86版中是在“E”键上,但由于其规范笔顺为“乙、丿”,所以,新世纪中将该字根安排在了“乙”区的“B”键上。

对98版的4个字根的键位做了变动,重新放置在新世纪版的字根图中。如:字根“牜”,在98版中是在“C”键上,考虑该字根以“丿”起笔,所以,新世纪中将该字根放在了“丿”区的“T”键上。

4、编码兼容

新世纪版有着科学、完备的的编码体系,与86版、98版均有不同之处,但用户不用担心,新世纪版对这两个版本均做了兼容处理。

基础知识

汉字的5种笔画

字根是由笔画写成。笔画、字根(部件)、整字,是汉字结构的三个层次。

1984年王永民教授给笔画定义为:书写汉字时,一次写成的一个连续不断的线段。按照书写方向划分笔画的类型,如下图所示,则只有5种——横、竖、撇、捺、折。前4种是单方向的笔画,“折”则代表一切带转折、拐弯的笔画。为了便于记忆和排序,我们分别用1、2、3、4、5命名5种笔画的代号。

以下例子可作为这张表的补充说明:

(1)“提笔”等于“横”:王现

(2)“点”等于“捺”:木村

(3)“竖左钩”等于“竖”:禾

(4)所有带转折的笔画都算作“折”。

为便于书面表示,以后所有的“折”笔,不管怎么“折”,怎么“弯”,怎么“拐”,一律都有“乙”来表示,其笔画代号都是5。

王永民对笔画的以上分类法及代号,现在已经被正式写入了代号为GB/T18031-2000的国家标准中。

给笔画分类,并命名以数字代号,是学习王码输入法时最重要的基础知识。在实践中,许多人之所以编码出现错误,或对键盘上码元排列的规律性“视而不见”,其根本原因,常是因为没有掌握好五种单笔画的分类及其数字代号。

汉字的3种字型

习惯上,我们把构成汉字的基本笔画结构,称作“字根”或“部件”。而当“字根”或“部件”用于编码的时候,又可以把它们叫做“码元”,意思是编码的“元素”。

汉字是一种平面文字,同样几个字根,同样的先后顺序,摆放的位置不同,就是不同的字。如:

叭——只 吧——邑

呐——呙 岂——屺

可见,字根相互间的位置关系,也是汉字图形的一个特征,在汉字编码中,用数字代表这个特征,就成为很有用的、用以分区“重码”的“识别”信息。

根据构成汉字的各个字根之间的位置关系,我们可以把成千上万的方块汉字,分为三种字型:

左右型:字根左右排列。

上下型:字根上下排列。

杂合型:字根互相周围或交叉套迭。

根据各种字型拥有汉字的多少,顺序将字型命以数字代号,如下表所示。

我们便约定:

1型字,即指“左右型”汉字,其代号为1;

2型字,即指“上下型”汉字,其代号为2;

3型字,即指“杂合型”汉字,其代号为3。

将来,我们给汉字编码时,字型及其代号将非常有用。

这里应当说明,在王码中,仅仅对于那些由2个或3个字根组成的字,我们才关心它的“字型”。如果一个字由4个或4个以上的字根组成,例如:编码中,我们就不再计较是什么“型”了。

键位分布

认识五笔字型键盘

五笔字型采用标准英文键盘的26个字母键输入汉字。每个汉字,每条词汇最多打4下键。汉字是由字根构成的。我们将构成汉字的字根,优选归纳为125种,也称作“码元”,分配在除Z键以外的25个英文字母键上,形成了五笔字型的“字根键盘”。新世纪版五笔字型字根键位图:

新世纪版字根助记歌

为保持技术的连续性,第三代五笔字型(新世纪版)的25个“键名”没有变动。新设计的字根体系更加符合分区划位规律,更加科学易记而实用,按规范笔顺写汉字的人,取码输入将得心应手。新世纪版的《字根助记歌》如下:

1区横起笔

11G,王旁青头五一提

12F,土士二干十寸雨

13D,大三肆头古石厂

14S,木丁西边要无女

15A,工戈草头右框七

2区竖起笔

21H,目止具头卜虎皮

22J,日曰两竖与虫依

23K,口中两川三个竖

24L,田框四车甲单底

25M,山由贝骨下框里

3区撇起笔

31T,禾竹牛旁卧人立

32R,白斤气头叉手提

33E,月舟衣力豕豸臼

34W,人八登祭风头几

35Q,金夕犭儿包头鱼

4区点起笔

41Y,言文方点在四一

42U,立带两点病门里

43I,水边一族三点小

44O,火变三态广二米

45P,之字宝盖补示衣

5区折起笔

51N,已类左框心尸羽

52B,子耳了也乃齿底

53V,女刀九巡录无水

54C,又巴甬矣马失蹄

55X,幺母绞丝弓三匕

键盘上字根的记忆规律

在五笔字型键盘上,多数字根(码元)的安排都是有规律的。字根键盘分为5个区,区号为1~5;每一个区,各有5个键位,位号也是1~5,从键盘中部向外端排列;区号与位号组合,共形成5×5=25个代码,即区位码:11…15,21…51…55。其规律性如下:

1、字根所在的"区号"与"首笔代码"一致

①横起笔的字根,在第1区——“王土大木工”的首笔代号为1;

②竖起笔的字根,在第2区——“目日口田山”的首笔代号为2;

③撇起笔的字根,在第3区——“禾白月人金”的首笔代号为3;

④点起笔的字根,在第4区——“言立水火之”的首笔代号为4;

⑤折起笔的字根,在第5区——“已子女又幺”的首笔代号为5。

2、位号基本上与码元的次笔代码一致

3、单笔画的“个数”,与所在的“位号”一致

一、丨、丿、丶、乙都在相应区的第1位;

二、刂、丿丿、丶丶、巜都在各区的第2位;

三、彡、氵、巛都在各区的第3位;

四、灬在相应区的第4位。

4、从字根上“直读”区位号

依照以上3条规律,根据字根的“前两个笔画”,可立即“直读”出“字根”的区位号(即:前2个笔画的代号连在一起念,就是区位号!):

例:参——厶大彡

●厶:首笔为折(5),次笔为点(4),故“厶”在第5区第4位(54、C)

●大:首笔为横(1),次笔为撇(3),故“大”在第1区第3位(13、D)

●彡:首笔为撇(3),次笔为撇(3),故“彡”在第3区第3位(33、E)

单字输入

编码流程图

五笔字型将成千上万个汉字首先分成两大类:键面上有的“键面字”和键面上没有的“键外字”。两类汉字的取码法按以下流程图分别取码。

键面字的编码输入

五笔字型字根键盘上,本身是汉字的字根,叫“键面字”。“键面字”分为三类,其输入法分别是:

1、键名字的输入

每一个键位上,最左上角的那个黑体字的码元,叫键名字,它是“一键之名”。以G键为例,其左上角的字根“王”便是“键名字”或“键名”。

“键名字”的输入法是:把所在的键连打4下。例如:

1区1位键名:王11,11,11,11,(GGGG)

3区2位键名:白32,32,32,32,(RRRR)

4区5位键名:之45,45,45,45,(PPPP)

5区3位键名:女53,53,53,53,(VVVV)

在王码五笔字型中,键名码元有25个。

1区:王土大木工(对应键位:GFDSA)

2区:目日口田山(对应键位:HJKLM)

3区:禾白月人金(对应键位:TREWQ)

4区:言立水火之(对应键位:YUIOP)

5区:已子女又纟(对应键位:NBVCX)

2、成字字根的输入

键面上除键名外,凡本身是汉字的码元,叫“成字字根”或“成字码元”。其输入法是:先打一下它所在的键(这一下俗称“报户口”),再打第一个、第二个,以及它的最末一个单笔画,最多4下,不足4下,补一个空格键。例如:

当输入十、七、九、二、几、儿、乃、刀……这一类只有2个笔画的字根时,“报户口”之后就只能有两个笔画了,不足4个码,笔画打完,要再补打一下“空格键”表示结束。

3、补码码元及其输入

在字根表中,用方圆框“框住”的4个字根,是“补码码元”,它们作为字根参与编码时,像姓氏中的复姓诸葛、司马一样,要编2个码:“主码(即码元所在键位)+补码(规定取该码元最后的笔画结构)”。如下表所示:

注:表中带圆圈的笔画丶、氵等,是“补码”的笔画表示形式,作为一个符号,用以提示编码。

这4个补码码元中的“犭、礻、衤”等三个字根,本身也是汉字,这三个汉字的编码规则是,要先“报户口”(主码+补码)(已占用2个码)、再打该字的第1笔和最后1笔,共取4码。即:

注:键位上只有有的成字的字根可以打出来,而本身并不是汉字字根不能打出来。

“键外字”的拆分法

凡是“字根总表”上没有的汉字,都是“键外字”。它们都是由几个码元(字根)组合而成的,我们也把这类字称为“多元字”。

对于“多元字”,只有一个字——拆分。科学、实用又没有“二义性”的“拆”法,共有以下5项规则:

1、书写顺序

“合体字”拆成“字根”,一般情况下,要按照正确书写顺序进行。例如:

新:立木斤(顺序正确)

立斤木(顺序错误)

2、取大优先

要“拆”出“笔画尽可能多”的“字根”。要以“再添一个笔画,便不能构成为笔画更多的字根”为限度。例如:

估:亻古(正确)

亻十口(错误,因为“口”可添到前面的“十”上,“凑”成更多笔画的字根“古”)

注:“取大优先”,俗称“尽量往前凑”。因为“向前凑”总是有限度的,要凑成字根表中笔画更多(更大)的一个!否则,便没有“章法”了,势必有许多种“拆法”甚至都要拆成单笔画!在汉字拆分中,这是一个最常用到的、保证拆分唯一性的基本原则。

3、兼顾直观

在编码时,为了使码元特征明显易辨,有时就要暂时牺牲“书写顺序”和“取大优先”的原则,形成个别例外的情况。

例:“国”字

按“书写顺序”,其码元应是:“冂王丶一”,但这样编码,不但有悖于该字的字源,也不能使码元“囗”直观易辨。我们只好违背“书写顺序”,按“囗王丶”的顺序编码。

4、能连不交

请看以下取码实例:

天:一大(正确,“一”与“大”是相连接的关系,比较直观)

二人(错误,“二”与“人”交叉在一起了)

生:丿?(正确,“丿”与“?”是相连的,直观可取)

土(错误,“丿”与“?”是相连的,直观可取)

一般来说,“连”比“交”更为“直观”,更能显现码元的笔画结构特征,更易于辨认。

5、能散不连

有时候,一个汉字的几个码元,都不是单笔画,这些码元之间的关系,常常在“散”和“连”之间模棱两可。如:

矢:?大,两个码元按“连”处理,“矢”便是杂合型(3型)字;两个码元如果按“散”处理,“矢”便是上下型(2型)字。

午:?、十(两个字根,可视为散,也可当作连)

都是既可“连”,又可“散”的关系。

当遇到这种既能“散”,又能“连”的情况时,我们规定:只要不是单笔画,一律按“能散不连”判别,即优先确定为“散”的关系。

四元及多元字的取码

1、“四元字”的编码规则

键外字中的“四元字”,是指刚好由四个字根构成的字。其拆分之后的取码方法是“依照书写顺序输入字根”。例如:

照:日刀口灬

22,53,23,44

J,V,K,O

重:丿一日土

31,11,22,12

T,G,J,F

2、“多元字”的取码规则——“前三末一”(一二三末)

键外字中的“多元字”,是指由4个以上的字根构成的字。这种字,不管实际上能“拆”成几个字根,我们只需“按书写顺序,取拆分结果的第一二三及最末一个字根”便可,俗称“一二三末”,共输入四个码。例如:

暨:彐厶匚儿日一

53,54,15,11

V,C,A,G

攀:木乂乂木大手

14,32,32,32

S,R,R,R

末笔字型识别码

汉字编码输入法的设计,要尽量减少重码,以提高输入的唯一性。但从以下两种情形我们看到,仅仅输入字根,很容易产生重码:

1、因构字的字根相同,字型不同引起重码:

叭:口八(23,34,KW)

只:口八(23,34,KW)

这个例子说明,编码中丢失了字型信息,才产生了重码。

2、因几个字根同一键位引起重码:

沐:氵木(43,14,IS)

汀:氵丁(43,14,IS)

洒:氵西(43,14,IS)

这个例子说明,编码没有将“木、丁、西”加以区分,才产生了重码。

由以上两类例子可知,当遇到2-3个字根构成的汉字时,为了避免编码相同(重码),既有必要提取“字型信息”,又有必要从字根上“提取笔画特征信息”用于编码。复合这两种信息的一个附加码,就是“末笔字型识别码”简称“识别码”,“识别码”只追加在由2-3个字根构成的汉字编码中(见下节)。

“识别码”是由“末笔”代号加“字型”代号构成的一个“复合附加码”。1、2、3型汉字的识别码共有15个(各有3种形式),其构成如下:

例:红:末笔1,字型1,识别码为11(即“一”);

华:末笔2,字型2,识别码为22(即“刂”);

团:末笔3,字型3,识别码为33(即“彡”)。

二元及三元字的取码

“键外字”中,只有2个字根的字,叫“二元字”;只有3个字根的字,叫“三元字”。输入时,键外字毫无例外地都要“拆”。

“二元字”或“三元字”的输入法是:

先“拆”成字根,输入字根后,再追加一个“末笔字型识别码”(简称“识别码”)。有了识别码可以大量减少重码。

“识别码”的简易直观表示法——用带圆圈的笔画表示“识别码”:

1、左右型(1型)字的“识别码”

对于1型(左右型)字,字根输入之后,补打“1个末笔画”,就等同于添加了“识别码”,用“一丨丿丶乙”表示。例如:

红:纟工一(字根打完,补打1个末笔画“一”,相当于11:G)

55,15,11

X,A,G

2、上下型(2型)字的“识别码

对于2型(上下型)字,码元输入之后,补打“2个末笔画”的字根,就等同于添加了“识别码”,用“二刂丿丿丶丶巜”表示之。例如:

字:宀子二(字根打完,补打2个末笔画“二”相当于12:F)

45,52,12

P,B,F

复:?,日,夂(字根打完,补打2个末笔画“丶丶”,相当于42:U)

31,22,31,42

T,J,T,U

花:艹亻匕巜(字根打完,补打2个末笔画“巜”,相当于52:B)

15,34,55,52

A,W,X,B

3、杂合型(3型)字的“识别码”

对于3型(杂合型)字,码元输完之后,补打“3个末笔画”的字根,就等同于添加了“识别码”,用“三川彡氵巛”表示之。例如:

同:冂一口三(字根打完,补打3个末笔画“三”,相当于13:D)

25,11,23,13

M,G,K,D

远:二儿辶巛(字根打完,补打3个末笔画“巛”,相当于53:V)

12,35,45,53

F,Q,P,V

注1:凡是“包围型”的字,如全包围字“国、团”等,半包围字“这、庆”等,均以被包围的那个部分的“末笔”作为整个字的“末笔”来构成“识别码”,如“远”字,要以被包围的“儿”的末笔来构成“识别码”(53:V)。

注2:识别码一共有3种表示法,其编码的效果完全相同,都是同一个码。可以按照下面的方法打“识别码”,例如:

末笔横的1型字:打11键,就是G键,就是“一”(一个横)键。

末笔撇的3型字:打33键,就是E键,就是“彡”(三个撇)键。

其所以如此,道理很简单:1区1位(G)上有1个横“一”,3区3位(E)上有3个撇“彡”……

简码和容错码输入

1、简码输入

一些常用的字,除按它的“全码”可输入外,为减少打键次数,只输入其全码的最前边的1个、2个或3个码,再加打空格键,也可以输入,这就是一、二、三级简码。简码可以提高输入效率。

(1)一级简码(又称“高频字”)

将各键打一下,再打一下空格键,即可打出25个最常用的汉字(每键一个):

一地在要工 上是中国同 和的有人我 主产不为这 民了发以经

如:一:11(G) 的:32(R) 和:31(T)

具体如下表:

(2)二级简码(只输入“全码”的前2个码)

化:亻匕(34,55,WX)

李:木子(14,52,SB)

(3)三级简码(只输入“全码”的前3个码)

想:木目心(14,21,51,SHN)

巍:山禾女(25,31,53,MTV)

2、容错码

“容错码”的涵义是:“容易”编错,但“容许”按错码输入。例如:

面:丆冂三DMJD(正确,按笔顺取大优先)丆囗二DMJF(拆分容错)

万能键Z

输入汉字时,如果一时不知道某些字的编码,便可以用“万能键Z”来代替“不知道的那个码”。Z键的用途主要可分以下三种情况:

1.当不知道某个字的拆分时,用Z代替不知道的字根,例:

键:钅,Z,Z,廴

2.当不知道字根在哪个键位上时,用Z代替,例:

论:讠,人,Z,Z

3.当不知道字的“识别码”时,可用Z代替,例:

花:艹,亻,匕,Z

万能键Z也叫学习键。一旦使用Z键,提示行中便会有比较多的字显示出来,其中会有你要的那个字,而且,字的后边还有正确码的提示。

词汇输入

在字母键上,打4个键,不用换档,既能打单字,又能打词汇,字、词之间没有界限,这是发明人1983年的一项重大创造——字词兼容。

在输入词汇时,不管多长的词汇,一律只打4下键,单字和词汇可以混合输入,字词之间不用任何换档或其它附加操作。词汇输入法为:

二字词

取每个字“全码”的前两个码组成,共4码。

例如:

生产:丿 ? 立 丿

31 11 42 31(TGUT)

建设:彐 二 讠 几

53 12 41 34(VGYW)

三字词

前两个字,各取第一个码,最后一字取前两个码,共4码。

例如:

电视机:日礻木几

22,45,14,25(JPSW)

四字或四字以上的词

对于4个字或超过4个字的词,取第一、二、三及最后一个汉字的第一码,共4码。

例如:

中华人民共和国:口亻人囗

23,34,34,24,(KWWL)

相关词条

相关搜索

其它词条