搜狗输入法攻略(4)——智能音节切分
过去使用其他输入法的时候,您有没有遇到过这样的情况:明明想打“方案”,输入拼音“fangan”后却找不到“方案”,候选列表里只有“反感” 。类似的情况也会发生在“西安”上面(候选都是“先”的同音字) 。这是怎么回事呢?
原因在于,“方案”和“反感”的拼音写出来都是“fangan”,只是音节切分的位置不同导致混淆 。“西安”和“先”也一样,都是“xian” 。在国家《汉语拼音方案》中规定,“a,o,e开头的音节连接在其它音节后面的时候,如果音节的界限发生混淆,用隔音符号(')隔开” 。根据《方案》中的规定,标准的隔音符号应当使用单引号 。因此,“方案”和“西安”的拼音分别应当写成“fang'an”和“xi'an”;而“反感”和“先”则不需要使用隔音符号,直接写成“fangan”和“xian”就可以了 。
同样的原因,打下面这些词的时候需要在合适的位置插入隔音符号,否则无法输入(出来的候选只有括号中的词):
主啊(抓) 西安(先) 西安市(显示) 里昂(两) 湖岸(换) 皮袄(票)
饥饿(借) 余额(月) 方案(反感) 亲爱的() 恩爱() 晚安() 趾高气昂()
除了上面这些词,你还可能在输入短语的时候遇到类似的问题,比如
我[去安]排一下 (劝)
[迎奥]运 (音高)
虽然《方案》作了这样的要求,但很多人却意识不到可能发生的音节混淆 。只有当输入法给不出所需要的选项后才知道要移动光标插入隔音符号(少数用户则会束手无策) 。而对于“晚安”这个例子,非要将“wanan”切成[wa][nan]其实没什么实际意义,因为后者不对应任何有意义的词(瓦南?) 。有输入法允许将韵母“ong”简写作“on”,这本来是为了方便用户使用,却导致“gongan 公安”被解释成“gon'gan 公干”进一步增加了对隔音符号的要求 。
不过在搜狗输入法中,这个问题已经不存在了 。
遇到可能混淆的切分,我们会将其按照同音词处理——为什么同音词一定要是读音相同的词呢?当您输入“fangan”的时候,我们会同时把“方案”和“反感”都列出来供您选择 。我想,没有人会愿意回头补隔音符号吧 。输入“xian”也一样,“先”和“西安”都会出现在候选项中 。只是因为词频不够高,默认情况下“西安”被放到了第六个选项,需要翻页才能看到 。
在智能组词中,这种处理方式的好处就更加明显 。例如“一个好的方案”和“让我非常反感”,搜狗知道这里的“fangan”究竟是“方案”还是“反感” 。对于前面的例子“我去安排一下”,系统会自动将“quan”切分成两个音节[qu][an];而在“我去劝劝他”中则不会把“quan”切开 。Ahman大师曾提到搜狗会把“我劝着他”打成“我去按着他”,这个错误其实是受智能组词算法的限制,毕竟我们现在还做不到每句话都对 。不过,搜狗仍然会把“我劝”放到候选列表中,你可以通过造词的方式打出这个句子而不必修改所输入的拼音 。
当然,您如果愿意的话,也可以继续使用隔音符号 。例如“xi'an”第一个候选项就是“西安”;打“fang'an”也不会再把“反感”这样的选项列出来了 。
在搜狗输入法中这种对歧义音节的处理方式除了能够参与智能组词,还能够参与词频调整 。第一次输入“西安”“饥饿”“余额”这些词可能需要花一些力气,比如到候选列表中找,或者手工插入隔音符号,或者手工造词 。但只要启用了词频调整功能,第二次再输入这个词就不会这么麻烦了 。即使你不再使用隔音符号,但因为以前曾经输入过,系统仍然会将其提到前面去,大大方便了用户的使用 。