参考资料来源:百度百科-汉字编码
3.汉字编码有什么用为汉字设计的一种便于输入计算机的代码 。
由于电子计算机现有的输入键盘与英文打字机键盘完全兼容 。因而如何输入非拉丁字母的文字(包括汉字)便成了多年来人们研究的课题 。
汉字信息处理系统一般包括编码、输入、存储、编辑、输出和传输 。编码是关键 。
不解决这个问题,汉字就不能进入计算机 。汉字进入计算机的三种途径 分别为: ①机器自动识别汉字:计算机通过“视觉”装置(光学字符阅读器或其他),用光电扫描等方法识别汉字 。
②通过语音识别输入:计算机利用人们给它配备的“听觉器官”,自动辨别汉语语音要素,从不同的音节中找出不同的汉字,或从相同音节中判断出不同汉字 。③通过汉字编码输入:根据一定的编码方法,由人借助输入设备将汉字输入计算机 。
机器自动识别汉字和汉语语音识别,国内外都在研究,虽然取得了不少进展,但由于难度大,预计还要经过相当一段时间才能得到解决 。在现阶段,比较现实的就是通过汉字编码方法使汉字进入计算机 。
汉字编码的困难点 汉字进入计算机,有许多困难,其原因主要有三点: ①数量庞大:随着社会的发展,新字不断出现,死字没有淘汰,汉字总数不断增多 。一般认为,现在汉字总数已超过6万个(包括简化字) 。
虽有研究者主张规定3000多或4000字作为当代通用汉字,但仍比处理由二三十个字母组成的拼音文字要困难得多 。②字形复杂:有古体今体,繁体简体,正体异体;而且笔画相差悬殊,少的一笔,多的达36笔,简化后平均为9.8笔 。
③存在大量一音多字和一字多音的现象:汉语音节416个,分声调后为1295个(根据《现代汉语词典》统计,轻声39个未计) 。以1万个汉字计算,每个不带调的音节平均超过24个汉字,每个带调音节平均超过7.7个汉字 。
有的同音同调字多达66个 。一字多音现象也很普遍 。
五种类型的编码法 据粗略统计,现有400多种编码方案,其中上机通过试验的和已被采用作为输入方式的也有数十种之多 。归纳起来,不外5种类型: ①整字输入法:前一阶段,一般是将三四千个常用汉字排列在一个具有三四百个键位的大键盘上 。
近来,大多是将这些汉字按XY坐标排列在一张字表上,通常叫“字表法”,或“笔触字表法” 。比如,X25行和Y90列交叉的字为“国”,当电笔点到字表上的“国”字时,机器自动将该字的代码2590输入 。
键盘上或字表中字按部首或按音序或按字义联想而排列 。不常用的字作为盘外字或表外字,另行编码处理 。
②字形分解法:将汉字的形体分解成笔画或部件,按一定顺序输进机器 。笔画一般分成 8种:横(一)、竖(丨)、撇(丿)、点(丶)、折(□)、弯(□)、叉(十)、方(口) 。
部件一般归纳出一二百个 。由于一般键盘上只有42个键(包括数字和标点),容纳不下这么多部件,因而有人设计中键盘,也有人利用部件形体上的相似点或出现概率的不同,而把100多个部件分布在26个字母键上 。
③字形为主、字音为辅的编码法:这种编码法与字形分解法的不同在于还要利用某些字音信息 。如有的方案为了简化编码规则,缩短码长,在字形码上附加字音码,有的方案为了采用标准英文电传机,将分解归纳出来的字素通过关系字的读音转化为拉丁字母 。
④全拼音输入法:绝大多数是以现行的汉语拼音方案为基础进行设计 。关键问题是区分同音字,因而有的方案提出“以词定字”的方法,还有的方案提出“拼音-汉字转换法”,即“汉语拼音输入 ——机内软件变换(实为查机器词表)——汉字输出”系统 。