返回上一页  首页 | cnbeta报时: 04:36:47
语言项目开发者的福音, Google公开其n-gram语料库
发布日期:2006-08-05 00:00:00  稿源:

昨天, Google研究院宣布将公开一份巨大的5-gram语料库。利用这一语料库, 机器翻译、语音识别、拼音输入法、OCR、拼写检查等需要进行语料分析的项目的开发人员将能够节省开发时间、提高产品的准确率。该语料库包含了从多达1,0115,8245,3213个词的语料中整理出的11,4658,0664个出现过40次以上的5词短语, 在去掉了出现过少于200次的不常见词后仍然包含1365,3070个不同的单词。每个完整的语料库要占用6张DVD。
不论是搜索引擎、语音识别、拼音输入还是拼写检查,要想提高准确率,"分词"都是最重要的步骤。所谓"分词",就是让计算机能够辨识句子中的最小语义单位,既能够确定哪些字(或单词)是不可分开的最小句子单元,类似于学语文时的划分句子成分。在分词的基础上,结合各分词出现的频率,才能使计算机更加准确的明白人们的输入或者意图。

在国际上居于主流地位的两种分词方法为词素解析和文字索引(n-gram)。词素解析就是按照语言中有意义的最小单位(词素)进行分词, 比如字典上出现的词可以视为词素。n-gram则是按照固定的单词数目来进行分词,单词数目(n)越大,准确性越好,但运算代价也急剧增大。词素分词的好处是准确性高,坏处是受字典大小和时效限制,容易出现漏查。而n-gram不会出现检索遗漏,但准确性稍差。两种方法的优劣目前还有争论。

根据国内外研究人员的测试,google使用的应该是n-gram方法。这次google向全世界的开发人员开放其5-gram数据库似乎也证明了这一点。google声称将很快提供6张DVD的语料库供大家定购。google很希望知道得到这一语料库的研究人员会如何处理这些资料:)

在中文处理方面,词素分词法并结合上下文分析普遍认为效果较好。中科院声学所黄曾阳研究员提出的概念层次网络理论是国人在这一领域取得的重大成就。这也是使用词素分词法的Baidu声称自己中文搜索优于Google的主要理论依据,不过这种优势似乎并不会保持长久(参见中科院软件所的文章: Baidu分词算法分析)。

本文由CnBeta编辑综合整理报道,由于水平所限,对于可能的错误,希望您不吝指正。
我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 04:36:47

文字版  标准版  电脑端

© 2003-2025