返回上一页  首页 | cnbeta报时: 21:34:00
紫光实验报告:用数据说话,紫光拼音整句输入空前跃进
发布日期:2008-02-02 14:26:16  稿源:
撰文:左湘东  紫光华宇技术总监  来源:紫光华宇官方论坛
1.前后耗时一个多月时间,对几种热点拼音输入法整句输入能力进行了海量测试,使用了三种风格的素材,第一是互联网语料随机抽取(万分之一概率)文字,第 二是《人民日报》2005年全部文字,第三是金庸全集文字,对三种输入法(共计四种实体)进行了考察,本帖汇报结果,一来是客观评价,二来是想告诉大家, 通过科学算法和适量数据分析打造出来的拼音输入法,隐约地可以支持整句输入的习惯了,并且在持续提高.
2.解读下面的汇报结果:

0)“0.最佳”代表目前紫光华宇的最高能力,但它需要较大的数据资料文件支撑(大约80M,用RAR压缩后是46.xM);
1)“1.紫光”代表62xx版本的能力,数据资料文件规模适中(12M左右,压缩在安装包中是6.xM);
2)“2.搜狗”代表搜狗最新版和次新版(之间build号差别不大,估计能力差距也不大)的能力;
3)“3.谷歌”代表谷歌最新版的能力.

3.个人分析或观点:

1)基于科学的方法,准确率仍有可能提高,原来拍脑门大胆设想的85%,还是有望实现的.
2)超越了搜狗和谷歌,让人振奋不已,但是,对之的佩服也实实在在,人家以较小的数据资料文件,能够做到这样的准确率,一定还是有所长的,值得我们认真揣测和学习.
3)严重喜欢准确率的朋友们,可以考虑采用大数据资料文件,毕竟,现在的机器,百十来M的空间,不算什么,个人倾向于此,如何实现,当6.1发布前后,紫光华宇将提供一定的解决方案.
4.数字......

1)—— www综合统计 —— 86407 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  86407   61938   71.68%  48864   3.16%
1.紫光  86407   56052   64.87%  63802   4.13%
2.搜狗  86407   54112   62.62%  70577   4.57%
3.谷歌  86407   55066   63.73%  67580   4.37%

—— 测试05字词句 —— 11225 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  11225   8277    73.74%  5619    5.01%
1.紫光  11225   7599    67.70%  7046    6.28%
2.搜狗  11225   7733    68.89%  7021    6.25%
3.谷歌  11225   7370    65.66%  7787    6.94%
—— 测试06字词句 —— 12499 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  12499   9554    76.44%  5616    3.74%
1.紫光  12499   8817    70.54%  7200    4.80%
2.搜狗  12499   8765    70.13%  7537    5.03%
3.谷歌  12499   8660    69.29%  7762    5.18%
—— 测试07字词句 —— 10597 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  10597   7719    72.84%  5933    4.00%
1.紫光  10597   7003    66.08%  7661    5.16%
2.搜狗  10597   6903    65.14%  7977    5.38%
3.谷歌  10597   6884    64.96%  8224    5.54%
—— 测试08字词句 —— 9821 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  9821    7154    72.84%  5404    3.44%
1.紫光  9821    6434    65.51%  7176    4.57%
2.搜狗  9821    6300    64.15%  7641    4.86%
3.谷歌  9821    6340    64.56%  7522    4.79%
—— 测试09字词句 —— 8550 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  8550    6140    71.81%  4711    3.06%
1.紫光  8550    5531    64.69%  6250    4.06%
2.搜狗  8550    5345    62.51%  6944    4.51%
3.谷歌  8550    5453    63.78%  6726    4.37%
—— 测试10字词句 —— 7523 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  7523    5317    70.68%  4348    2.89%
1.紫光  7523    4812    63.96%  5655    3.76%
2.搜狗  7523    4597    61.11%  6297    4.19%
3.谷歌  7523    4730    62.87%  5887    3.91%
—— 测试11字词句 —— 6669 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  6669    4616    69.22%  4009    2.73%
1.紫光  6669    4181    62.69%  5250    3.58%
2.搜狗  6669    3905    58.55%  6145    4.19%
3.谷歌  6669    4069    61.01%  5584    3.81%
—— 测试12字词句 —— 5794 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  5794    3955    68.26%  3748    2.70%
1.紫光  5794    3533    60.98%  4964    3.57%
2.搜狗  5794    3294    56.85%  5723    4.12%
3.谷歌  5794    3477    60.01%  5200    3.74%
—— 测试13字词句 —— 4945 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  4945    3351    67.77%  3287    2.56%
1.紫光  4945    2985    60.36%  4287    3.33%
2.搜狗  4945    2731    55.23%  5112    3.98%
3.谷歌  4945    2982    60.30%  4336    3.37%
—— 测试14字词句 —— 4109 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  4109    2772    67.46%  2761    2.40%
1.紫光  4109    2454    59.72%  3708    3.22%
2.搜狗  4109    2172    52.86%  4589    3.99%
3.谷歌  4109    2389    58.14%  3922    3.41%
—— 测试15字词句 —— 3141 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  3141    2079    66.19%  2274    2.41%
1.紫光  3141    1826    58.13%  3036    3.22%
2.搜狗  3141    1604    51.07%  3704    3.93%
3.谷歌  3141    1832    58.33%  3085    3.27%
—— 测试16字词句 —— 1534 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  1534    1004    65.45%  1154    2.35%
1.紫光  1534    877     57.17%  1569    3.20%
2.搜狗  1534    763     49.74%  1887    3.84%
3.谷歌  1534    880     57.37%  1545    3.15%
2)
—— 《人民日报》2005综合统计 —— 1500374 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  1500374 1161937 77.44%  645590  2.38%
1.紫光  1500374 1071866 71.44%  856809  3.15%
2.搜狗  1500374 1016828 67.77%  1037293 3.82%
3.谷歌  1500374 1078598 71.89%  842869  3.10%

—— 测试04字词句 —— 139435 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  139435  108248  77.63%  58826   5.27%
1.紫光  139435  99096   71.07%  75932   6.81%
2.搜狗  139435  100661  72.19%  75317   6.75%
3.谷歌  139435  98763   70.83%  77916   6.98%
—— 测试05字词句 —— 119127 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  119127  91972   77.20%  49014   4.11%
1.紫光  119127  85750   71.98%  61605   5.17%
2.搜狗  119127  85567   71.83%  63580   5.34%
3.谷歌  119127  85994   72.19%  61236   5.14%
—— 测试06字词句 —— 154291 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  154291  124053  80.40%  55515   3.00%
1.紫光  154291  115607  74.93%  72917   3.94%
2.搜狗  154291  113490  73.56%  79926   4.32%
3.谷歌  154291  115924  75.13%  72917   3.94%
—— 测试07字词句 —— 146105 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  146105  111960  76.63%  66197   3.24%
1.紫光  146105  103939  71.14%  84130   4.11%
2.搜狗  146105  101250  69.30%  92445   4.52%
3.谷歌  146105  104317  71.40%  83326   4.07%
—— 测试08字词句 —— 150785 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  150785  119678  79.37%  58278   2.42%
1.紫光  150785  111124  73.70%  77220   3.20%
2.搜狗  150785  104472  69.29%  107695  4.46%
3.谷歌  150785  111690  74.07%  76087   3.15%
—— 测试09字词句 —— 138583 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  138583  108267  78.12%  57149   2.29%
1.紫光  138583  100108  72.24%  76465   3.07%
2.搜狗  138583  95105   68.63%  91007   3.65%
3.谷歌  138583  100917  72.82%  74947   3.00%
—— 测试10字词句 —— 133618 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  133618  103441  77.42%  58076   2.17%
1.紫光  133618  95276   71.30%  78198   2.93%
2.搜狗  133618  89301   66.83%  96527   3.61%
3.谷歌  133618  96087   71.91%  76344   2.86%
—— 测试11字词句 —— 123107 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  123107  94864   77.06%  54863   2.03%
1.紫光  123107  87278   70.90%  74238   2.74%
2.搜狗  123107  81083   65.86%  92614   3.42%
3.谷歌  123107  88092   71.56%  71771   2.65%
—— 测试12字词句 —— 111368 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  111368  85247   76.55%  50630   1.89%
1.紫光  111368  78312   70.32%  68437   2.56%
2.搜狗  111368  71589   64.28%  88515   3.31%
3.谷歌  111368  79057   70.99%  66631   2.49%
—— 测试13字词句 —— 100699 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  100699  76778   76.25%  46732   1.78%
1.紫光  100699  70086   69.60%  64408   2.46%
2.搜狗  100699  63341   62.90%  84471   3.23%
3.谷歌  100699  70884   70.39%  62336   2.38%
—— 测试14字词句 —— 87324 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  87324   65936   75.51%  41908   1.71%
1.紫光  87324   60158   68.89%  57369   2.35%
2.搜狗  87324   53768   61.57%  76037   3.11%
3.谷歌  87324   60848   69.68%  55593   2.27%
—— 测试15字词句 —— 65021 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  65021   48696   74.89%  32124   1.65%
1.紫光  65021   44372   68.24%  43900   2.25%
2.搜狗  65021   39247   60.36%  59036   3.03%
3.谷歌  65021   44978   69.17%  42367   2.17%
—— 测试16字词句 —— 30911 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  30911   22797   73.75%  16278   1.65%
1.紫光  30911   20760   67.16%  21990   2.22%
2.搜狗  30911   17954   58.08%  30123   3.05%
3.谷歌  30911   21047   68.09%  21398   2.16%
3)
—— 《金庸全集》综合统计 —— 736965 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  736965  317272  43.05%  975720  8.55%
1.紫光  736965  247685  33.61%  1215459 10.65%
2.搜狗  736965  236510  32.09%  1312967 11.50%
3.谷歌  736965  198488  26.93%  1466162 12.84%

—— 测试04字词句 —— 97098 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  97098   47363   48.78%  101550  13.07%
1.紫光  97098   38270   39.41%  120233  15.48%
2.搜狗  97098   39840   41.03%  118968  15.32%
3.谷歌  97098   33815   34.83%  134708  17.34%
—— 测试05字词句 —— 57671 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  57671   29944   51.92%  54556   9.46%
1.紫光  57671   25451   44.13%  65438   11.35%
2.搜狗  57671   25230   43.75%  68514   11.88%
3.谷歌  57671   21242   36.83%  79767   13.83%
—— 测试06字词句 —— 132169 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  132169  64947   49.14%  142895  9.01%
1.紫光  132169  52546   39.76%  175090  11.04%
2.搜狗  132169  49882   37.74%  187866  11.85%
3.谷歌  132169  41804   31.63%  214448  13.52%
—— 测试07字词句 —— 103257 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  103257  49120   47.57%  118510  8.20%
1.紫光  103257  39714   38.46%  147189  10.18%
2.搜狗  103257  38610   37.39%  156183  10.80%
3.谷歌  103257  31683   30.68%  180644  12.50%
—— 测试08字词句 —— 91929 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  91929   39464   42.93%  120292  8.18%
1.紫光  91929   30130   32.78%  150747  10.25%
2.搜狗  91929   28010   30.47%  164603  11.19%
3.谷歌  91929   23619   25.69%  183005  12.44%
—— 测试09字词句 —— 73575 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  73575   29322   39.85%  105269  7.95%
1.紫光  73575   21891   29.75%  132967  10.04%
2.搜狗  73575   20155   27.39%  145215  10.97%
3.谷歌  73575   16952   23.04%  161599  12.20%
—— 测试10字词句 —— 56001 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  56001   20204   36.08%  89151   7.96%
1.紫光  56001   14642   26.15%  113452  10.13%
2.搜狗  56001   13225   23.62%  124150  11.08%
3.谷歌  56001   11188   19.98%  136436  12.18%
—— 测试11字词句 —— 42517 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  42517   14056   33.06%  73743   7.88%
1.紫光  42517   9828    23.12%  93820   10.03%
2.搜狗  42517   8704    20.47%  104035  11.12%
3.谷歌  42517   7365    17.32%  113500  12.13%
—— 测试12字词句 —— 31093 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  31093   9368    30.13%  58767   7.88%
1.紫光  31093   6424    20.66%  75015   10.05%
2.搜狗  31093   5539    17.81%  83981   11.25%
3.谷歌  31093   4665    15.00%  90636   12.15%
—— 测试13字词句 —— 22629 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  22629   6315    27.91%  46156   7.84%
1.紫光  22629   4194    18.53%  58734   9.98%
2.搜狗  22629   3593    15.88%  65736   11.17%
3.谷歌  22629   3016    13.33%  70805   12.03%
—— 测试14字词句 —— 15699 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  15699   4018    25.59%  34036   7.74%
1.紫光  15699   2620    16.69%  43366   9.87%
2.搜狗  15699   2123    13.52%  49145   11.18%
3.谷歌  15699   1770    11.27%  52974   12.05%
—— 测试15字词句 —— 9516 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  9516    2315    24.33%  21549   7.55%
1.紫光  9516    1448    15.22%  27652   9.69%
2.搜狗  9516    1211    12.73%  31184   10.92%
3.谷歌  9516    1024    10.76%  33472   11.72%
—— 测试16字词句 —— 3811 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  3811    836     21.94%  9246    7.58%
1.紫光  3811    527     13.83%  11756   9.64%
2.搜狗  3811    388     10.18%  13387   10.98%
3.谷歌  3811    345     9.05%   14168   11.62%

零星评点
1.上述数据中,竟然已经有80%以上的准确率爆出(紫光最佳——人民日报2005年——6字句——80.40%),着实喜人.
2.数据汇报中,用词“符合句/率”,而没有用词“准确句/率”,原因是满足一个拼音串的汉字句子,有些情况下多种都是正确的,最简单的例子是“我爱她”,实际上“我爱他”、“我爱它”等等,都是对的,不好根据与原句的不同,就评为错句.
3.看到AhMan和xml00发帖中列示了错字数目,也就模仿着统计了这个数字,不过,这个数字应该说明力较弱,因为基于中文分词的组句,往往一错就是一个词,而不是一个字,错一个词和错一个字是等同的.
4.金庸小说的准确率严重下降,诚如AhMan在“简单地测试了几个句子”一帖中所述,这个文字风格有些文言和近代白话的味道,同时语料中这种素材比例很低,结果也是可以预见的,另外有一些是大量的小说中人名、地名、功夫名等类专有名词,在词库中收录比较少,分词词典更拒之于门外,也是准确率不高的原因之一;如有改善的需求和必要,也大概是从这几个方面分别做文章.
5.缺少微软、拼音加加、智能狂拼的能力评价,存在遗憾,原因透露:
1)微软——输入风格特异,需要继续投入时间才能完成;
2)拼音加加——本想测试,看到xml00贴出的其结果,在7、8字以上的句子中,效果迅速下降,感觉没有必要测试了,个人以为,所谓的整句输入,应该是6~11之间为主,解决不好这个区间的准确率,用户也没有信心培养整句输入习惯.
3)智能狂拼——程序不够稳定,结果获取艰难,准确率也远远不如想象,遂罢.

PS:紫光目前以提供bestdata(42M),welldata(32M),gooddata(18M)大数据文件.紫光目前默认的是12M,追求极致的人请去紫光论坛下载.
文中提及的AhMan 阿曼 xml00 徐孟罗 对拼音输入法有较深研究并有贡献的人.
我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 21:34:00

文字版  标准版  电脑端

© 2003-2025