Unicode碼:字符編碼-中文百科頻道

定義

Unicode（統一碼、萬國碼、單一碼）是一種在計算機上使用的字符編碼。Unicode 是為了解決傳統的字符編碼方案的局限而産生的，它為每種語言中的每個字符設定了統一并且唯一的二進制編碼，規定雖有的字符和符号最少由 16 位來表示（2個字節），即：2 **16 = 65536，

Unicode碼擴展自ASCII字元集。在嚴格的ASCII中，每個字元用7位元表示，或者電腦上普遍使用的每字元有8位元寬；而Unicode使用全16位元字元集。這使得Unicode能夠表示世界上所有的書寫語言中可能用于電腦通訊的字元、象形文字和其他符号。Unicode最初打算作為ASCII的補充，可能的話，最終将代替它。考慮到ASCII是電腦中最具支配地位的标準，所以這的确是一個很高的目标。

Unicode影響到了電腦工業的每個部分，但也許會對作業系統和程式設計語言的影響最大。從這方面來看，我們已經上路了。WindowsNT從底層支援Unicode。

目前計算機中用得最廣泛的字符集及其編碼，是由美國國家标準局(ANSI)制定的ASCII碼（American Standard Code for Information Interchange美國标準信息交換碼），它已被國際标準化組織（ISO）定為國際标準，稱為ISO646标準。适用于所有拉丁文字字母，ASCII碼有7位碼和8位碼兩種形式。

方法

因為1位二進制數可以表示（2∧1=）2種狀态：0、1；而2位二進制數可以表示（2∧2）=4種狀态：00、01、10、11；依次類推，7位二進制數可以表示（2∧7=）128種狀态，每種狀态都唯一地編為一個7位的二進制碼，對應一個字符（或控制碼），這些碼可以排列成一個十進制序号0～127。所以，7位ASCII碼是用七位二進制數進行編碼的，可以表示128個字符。

第0～32号及第127号(共34個)是控制字符或通訊專用字符，如控制符：LF（換行）、CR（回車）、FF（換頁）、DEL（删除）、BEL（振鈴）等；

通訊專用字符：SOH（文頭）、EOT（文尾）、ACK（确認）等；

第33～126号(共94個)是字符，其中第48～57号為0～9十個阿拉伯數字；65～90号為26個大寫英文字母，97～122号為26個小寫英文字母，其馀為一些标點符号、運算符号等。

注意：在計算機的存儲單元中，一個ASCII碼值占一個字節(8個二進制位)，其最高位(b7)用作奇偶校驗位。所謂奇偶校驗，是指在代碼傳送過程中用來檢驗是否出現錯誤的一種方法，一般分奇校驗和偶校驗兩種。奇校驗規定：正确的代碼一個字節中1的個數必須是奇數，若非奇數，則在最高位b7添1；偶校驗規定：正确的代碼一個字節中1的個數必須是偶數，若非偶數，則在最高位b7添1。

增添Unicode碼内容：它前128個字符就是ASCII碼，之後是擴展碼。在它中，各個字符塊基于同樣的标準。其中有希臘字母，西裡爾文，亞美尼亞文，希伯來文等。而漢文，韓語，日語的象形文字占用從0X3000到0X9FFF的代碼。最傑出的地方是，它隻有一個字符集，有效的避免了雙字節字符集的二義性。缺點是：占用的内存空間比ASCII大2倍。

Unicode碼：Unicode碼也是一種國際标準編碼，采用二個字節編碼，與ASCII碼不兼容。目前，在網絡、Windows系統和很多大型軟件中得到應用。