Unicode碼

Unicode碼

字符編碼
Unicode隻有一個字符集,中、日、韓的三種文字占用了Unicode中0x3000到0x9FFF的部分Unicode目前普遍采用的是UCS-2,它用兩個字節來編碼一個字符,比如漢字"經"的編碼是0x7ECF,注意字符編碼一般用十六進制來表示,為了與十進制區分,十六進制以0x開頭,0x7ECF轉換成十進制就是32463,UCS-2用兩個字節來編碼字符,兩個字節就是16位二進制,2的16次方等于65536,所以UCS-2最多能編碼65536個字符。編碼從0到127的字符與ASCII編碼的字符一樣,比如字母"a"的Unicode編碼是0x0061,十進制是97,而"a"的ASCII編碼是0x61,十進制也是97,對于漢字的編碼,事實上Unicode對漢字支持不怎麼好,這也是沒辦法的,簡體和繁體總共有六七萬個漢字,而UCS-2最多能表示65536個,才六萬多個,所以Unicode隻能排除一些幾乎不用的漢字,好在常用的簡體漢字也不過七千多個,為了能表示所有漢字,Unicode也有UCS-4規範,就是用4個字節來編碼字符
    中文名:Unicode碼 外文名:Unicode 用途: 文字:中、日、韓 字符:UCS-2 分類:計算機科學

定義

Unicode(統一碼、萬國碼、單一碼)是一種在計算機上使用的字符編碼。Unicode 是為了解決傳統的字符編碼方案的局限而産生的,它為每種語言中的每個字符設定了統一并且唯一的二進制編碼,規定雖有的字符和符号最少由 16 位來表示(2個字節),即:2 **16 = 65536,

Unicode碼擴展自ASCII字元集。在嚴格的ASCII中,每個字元用7位元表示,或者電腦上普遍使用的每字元有8位元寬;而Unicode使用全16位元字元集。這使得Unicode能夠表示世界上所有的書寫語言中可能用于電腦通訊的字元、象形文字和其他符号。Unicode最初打算作為ASCII的補充,可能的話,最終将代替它。考慮到ASCII是電腦中最具支配地位的标準,所以這的确是一個很高的目标。

Unicode影響到了電腦工業的每個部分,但也許會對作業系統和程式設計語言的影響最大。從這方面來看,我們已經上路了。WindowsNT從底層支援Unicode。

目前計算機中用得最廣泛的字符集及其編碼,是由美國國家标準局(ANSI)制定的ASCII碼(American Standard Code for Information Interchange美國标準信息交換碼),它已被國際标準化組織(ISO)定為國際标準,稱為ISO646标準。适用于所有拉丁文字字母,ASCII碼有7位碼和8位碼兩種形式。

方法

因為1位二進制數可以表示(2∧1=)2種狀态:0、1;而2位二進制數可以表示(2∧2)=4種狀态:00、01、10、11;依次類推,7位二進制數可以表示(2∧7=)128種狀态,每種狀态都唯一地編為一個7位的二進制碼,對應一個字符(或控制碼),這些碼可以排列成一個十進制序号0~127。所以,7位ASCII碼是用七位二進制數進行編碼的,可以表示128個字符。

第0~32号及第127号(共34個)是控制字符或通訊專用字符,如控制符:LF(換行)、CR(回車)、FF(換頁)、DEL(删除)、BEL(振鈴)等;

通訊專用字符:SOH(文頭)、EOT(文尾)、ACK(确認)等;

第33~126号(共94個)是字符,其中第48~57号為0~9十個阿拉伯數字;65~90号為26個大寫英文字母,97~122号為26個小寫英文字母,其馀為一些标點符号、運算符号等。

注意:在計算機的存儲單元中,一個ASCII碼值占一個字節(8個二進制位),其最高位(b7)用作奇偶校驗位。所謂奇偶校驗,是指在代碼傳送過程中用來檢驗是否出現錯誤的一種方法,一般分奇校驗和偶校驗兩種。奇校驗規定:正确的代碼一個字節中1的個數必須是奇數,若非奇數,則在最高位b7添1;偶校驗規定:正确的代碼一個字節中1的個數必須是偶數,若非偶數,則在最高位b7添1。

增添Unicode碼内容:它前128個字符就是ASCII碼,之後是擴展碼。在它中,各個字符塊基于同樣的标準。其中有希臘字母,西裡爾文,亞美尼亞文,希伯來文等。而漢文,韓語,日語的象形文字占用從0X3000到0X9FFF的代碼。最傑出的地方是,它隻有一個字符集,有效的避免了雙字節字符集的二義性。缺點是:占用的内存空間比ASCII大2倍。

Unicode碼:Unicode碼也是一種國際标準編碼,采用二個字節編碼,與ASCII碼不兼容。目前,在網絡、Windows系統和很多大型軟件中得到應用。

相關詞條

相關搜索

其它詞條