返回上一页  首页 | cnbeta报时: 23:10:32
SogouT互联网语料库v3.0发布
发布日期:2008-10-29 22:16:00  稿源:

为推动中文互联网信息检索、数据挖掘方面的研究,清华—搜狐搜索技术联合实验室近期推出了SogouT互联网语料库,欢迎各位学者在互联网和自然语言处理相关研究中使用。
SogouT 语料库收集了超过1.3亿网页数据,总存储规模达到5TB以上。除了包括所有的网页原始数据外,还包括了提取出的这部分网页之间的链接关系数据,以及 PageRank数值数据。
与该数据同时推出的还包括规模庞大的用于网络信息检索评测的标准评价集合,评价集合规模超过10000个查询,采用在线评测的方式实时为研究人员提供检索评价服务。关于该数据集合的详细信息请浏览搜狗实验室主页(http://www.sogou.com/labs/)。
 
由于数据规模庞大(用高压缩比进行压缩后仍有500GB左右),因此采用硬盘拷贝的方式进行发布。需要此项数据的可以发邮件给[email protected],联系获取数据相关事宜。对于准备参加第四届信息检索与内容安全学术会议(http://www.thuir.cn/ncircs2008/)的老师,也可以直接在会议上获取硬盘拷贝。拷贝时需要签署“搜狗数据许可证”,并交纳硬盘成本费约600元(可提供发票,参考京东网络商城价格,http://www.360buy.com/wareshow.asp?wid=129416),清华—搜狐联合实验室在数据发布过程中仅代收硬盘成本费,不以任何形式收取人工费或数据资料费等费用。
我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 23:10:32

文字版  标准版  电脑端

© 2003-2025