第四节 识别码和汉字字体结构
还有一个是识别码的问题,汉字按照字体结构分为左右型(包左中右结构)上下型(包括上中下结构)、杂合型(除左右型、上下型之外的字),这是为了方便输入识别码的。
横笔的G是代表左右型、F是代表上下型、D是代表杂合型;竖笔的H是代表左右型、J是代表上下型、K是代表杂合型;撇笔的T是代表左右型、R是代表上下型、E是代表杂合型;捺(点)笔的Y是代表左右型、U是代表上下型、I是代表杂合型。在一个字的输入完以后不足四码。比如说“只”字和“叭”,字根输入完了以后不足四码,就得加识别码。输入识别码的意义不光是为了补足四码,它还可以区分字根相同的字让程序识别你所输入的到底是“只”还是“叭”。输入识别码的一般方法是取字的最后一笔(记住是单笔画,而不是复笔)。
还有些是特殊的,如最后一笔和倒数第二笔是撇笔和点,无论最后一笔是撇还是点一律取撇;如果最后一笔和倒数第二笔是撇和折,无论最后一笔是撇还是折一律取折。也就是说在倒数第二笔和最后一笔中用来作为识别码的笔画要先考虑折,然后是撇,最后才是点。折的优先级是最高的,第二是撇,第三是点。“只”的最后一笔是“丶”是上下型结构的应取U。而“叭”的最后一笔也是“丶”是左右型的应取Y。所以“只”的四码(也就是完整的输入法)是KWU空格;而“叭”的四码是KWY空格。
还有一些全包围或者半包围的字不能直接取最后一笔为识别码,而应取除去包围以后的最后一笔为识别码。它们都是杂合型的字,所以它的识别码应该是除去包围后的最后单笔画杂合型。如“连”除去“辶”以外的最后一笔是“丨”,所以它的识别码应该取竖的杂合型结构K,四码为LPK空格。“圆”除去包围后的最后一笔是“丶”识别码应该取点杂合型I,四码为LKMI。除此之外还有两个字虽然字型一样但打法不同,这是程序的硬性规定。“未”一律被拆分为“二小”;“末”一律被拆分为“一木”!对于单个字的输入就这些了。