返回上一页
首页
| cnbeta报时: 13:37:01
谷歌发布大型数据集合Wikilinks 可让程序更好地理解人类语言
发布日期:2013-03-10 11:16:23
稿源:
据外媒报道,谷歌于近日发布了一个大型数据集合--Wikilinks Corpus,它将可以帮助开发人员构建出可以准确解释人类语言的软件。
Wikilinks Corpus中包含了来自各大网页及维基百科文章的4000多万条个人链接,它们则被称为mention。开发人员则可以通过分析每一条mention的内容以及目标文章的内容,进而确定一些模棱两可单词的意思。
谷歌在其Reaserch Blog中提出,人类非常擅长辨别同一个单词在不同语境下的意思。比如说,当把dodge写成Dodge时,它就是一个车子的品牌,而当写成to dodge的时候,它就是一个动词。
跟谷歌搜索算法非常类似,Wikilinks Corpus也是由在来自马萨诸塞大学阿默斯特分校的研究人员的协助下完成的,并且它的规模要比以往的数据集合都要来得大。更重要的是,它是免费的。虽然由于版权问题,谷歌无法发布个人网页的实际内容,但是它却可以提供获得这些内容的代码。
我们在
FebBox
(
https://www.febbox.com/cnbeta
) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论
返回完整版观看
最新资讯
加载中...
多地快递费涨价 有商家一天增加几千元成本
研究称德国汽车行业过去一年裁员超5万人 工业就业总人数减少逾11万
微软的 DocumentDB 现已成为 Linux 基金会的一部分
《暗黑破坏神2:重制版》国服预购今日关闭 明日开测
日本县政府闹乌龙 拍卖会上卖含盗版游戏的任天堂DS
供应链争夺战升级?美政府提议将铜、硅、银等列入关键矿产清单
一颗看似稳定的恒星在2024年至2025年间几乎消失了八个月
美国税收抵免即将到期 电动车美国销量激增 特斯拉称考虑提价
银河麒麟V11正式发布 兼容国产主流CPU、GPU
反诈老陈打假后续:向嘎子哥“道歉” 并向酷派官方提出3个疑问
罗永浩:已拉黑俞敏洪和王自如
今日最热
加载中...
GPT-5系统提示词被泄露 ChatGPT自己也“承认”了
AMD、Intel似乎商量好了:旗舰游戏本2026年集体沉默
女子点外卖想换配菜被开黄腔辱骂 海底捞回应:已报警 将彻查全貌
"中国英伟达"股价又暴涨 即将超越茅台
DeepSeek采用UE8M0 FP8标准 专为下一代国产芯片设计
中铁沈阳局推火车自助 35元4荤4素随便吃
印度传奇虎王“箭头”去世 死前5天还能猎杀鳄鱼
只有卡片大小!Intel Panther Lake超迷你主板提前走光
反诈老陈打假嘎子哥带货手机 网友发现酷派紧急上架“X60”产品
宁波机场麦当劳与厕所共用通道引热议 门店回应:机场原有设计
社死瞬间:小伙头部意外卡进红绿灯里
返回上一页
首页
| cnbeta报时: 13:37:01
文字版
标准版
电脑端
© 2003-2025