三、字符和文本的表示
(一)西文字符的編碼
西文是由拉丁字母、數(shù)字、標(biāo)點(diǎn)符號(hào)及一些特殊符號(hào)所組成的,它們統(tǒng)稱(chēng)為“字符”(Characˉter)。所有字符的集合叫做“字符集”。字符集中每一個(gè)字符各有一個(gè)代碼(即字符的二進(jìn)制表示),它們互相區(qū)別,構(gòu)成了該字符集的代碼表,簡(jiǎn)稱(chēng)碼表。
目前計(jì)算機(jī)中使用得最廣泛的西文字符集及其編碼是ASCII碼,即美國(guó)標(biāo)準(zhǔn)信息交換碼(American Standard Code for Information Interchange)。它已被國(guó)際標(biāo)準(zhǔn)化組織(ISO)批準(zhǔn)為國(guó)際標(biāo)準(zhǔn),稱(chēng)為ISO-646標(biāo)準(zhǔn),它適用于所有拉丁文字字母,已在全世界通用。我國(guó)相應(yīng)的國(guó)家標(biāo)準(zhǔn)是GB1988(稱(chēng)為《信息處理交換用的七位編碼字符集》標(biāo)準(zhǔn))。
(二)漢字的編碼
1.GB2312-80漢字編碼
1981年我國(guó)頒布了《信息交換用漢字編碼字符集·基本集》(GB2312-80)。該標(biāo)準(zhǔn)選出6763個(gè)常用漢字和682個(gè)非漢字字符,為每個(gè)字符規(guī)定了標(biāo)準(zhǔn)代碼,以供這7445個(gè)字符在不同計(jì)算機(jī)系統(tǒng)之間進(jìn)行信息交換使用。這個(gè)標(biāo)準(zhǔn)所收集的字符及其編碼稱(chēng)為國(guó)際碼,又叫做國(guó)際交換碼。
2.BIG5漢字編碼
BIG5漢字編碼是我國(guó)臺(tái)灣地區(qū)計(jì)算機(jī)系統(tǒng)中使用的漢字編碼字符。它包含了420個(gè)圖形符號(hào)和13070個(gè)漢字(不使用簡(jiǎn)化漢字)。
3.漢字的輸入/輸出
(1)漢字的輸入
漢字輸入編碼方法大體分成4類(lèi)。①數(shù)字編碼,這是一類(lèi)用一串?dāng)?shù)字來(lái)表示漢字的編碼方法,例如電報(bào)碼、區(qū)位碼等,它們難以記憶,不易推廣。②字音編碼,這是一種基于漢語(yǔ)拼音的編碼方法,簡(jiǎn)單易學(xué),適合于非專(zhuān)業(yè)人員。缺點(diǎn)是同音字引起的重碼多,需增加選擇操作。③字形編碼,這是將漢字的字形分解歸類(lèi)而給出的編碼方法,重碼少、輸入速度快,但編碼規(guī)則不易掌握,五筆字形法和表形碼就是這類(lèi)編碼。④形音編碼,它吸取了字音編碼和字形編碼的優(yōu)點(diǎn),使編碼規(guī)則簡(jiǎn)化、重碼減少,但掌握起來(lái)也不容易。
漢字輸入編碼與漢字內(nèi)碼、漢字交換碼完全是不同范疇的概念,不能把它們混淆起來(lái)。
(2)漢字的輸出
每一個(gè)漢字的字形都必須預(yù)先存放在計(jì)算機(jī)內(nèi),一套漢字(例如GB2312國(guó)標(biāo)漢字字符集)的所有字符的形狀描述信息集合在一起稱(chēng)為字形信息庫(kù),簡(jiǎn)稱(chēng)字庫(kù)(font)。不同的字體(如宋體、仿宋、楷體、黑體等)對(duì)應(yīng)著不同的字庫(kù)。在輸出每一個(gè)漢字的時(shí)假,計(jì)算機(jī)都要先到字庫(kù)中去找到它的字形描述信息,然后把字形信息送去輸出。
在計(jì)算機(jī)內(nèi)漢字的字形主要有兩種描述的方法:點(diǎn)陣字形和輪廓字形。
Windows中使用的TrueType字庫(kù)采用的就是典型的輪廓字形表示方法。點(diǎn)陣字形和輪廓字形這兩種類(lèi)型的字庫(kù)目前都廣泛使用。
相關(guān)推薦:計(jì)算機(jī)等級(jí)考試三級(jí)PC技術(shù)常見(jiàn)系統(tǒng)命令行北京 | 天津 | 上海 | 江蘇 | 山東 |
安徽 | 浙江 | 江西 | 福建 | 深圳 |
廣東 | 河北 | 湖南 | 廣西 | 河南 |
海南 | 湖北 | 四川 | 重慶 | 云南 |
貴州 | 西藏 | 新疆 | 陜西 | 山西 |
寧夏 | 甘肅 | 青海 | 遼寧 | 吉林 |
黑龍江 | 內(nèi)蒙古 |