谷歌作为一个搜索引擎,野心是对互联网上所有的东西做索引,让你什么都能搜的到。目前谷歌正花大量资金对这种索引做优化,现下正在索引来自PDF文件中的图片。
如果说你用谷歌图片搜索搜到的图片是来自PDF文件,谷歌就会在图片资料中标明PDF——点击之后就会直接进入到这张图片所在的PDF文件,链接自然也会标明清楚。
之所以点击后直接进入PDF文件,是因为PDF中的图片其实是没有地址的,所以只能在谷歌图片搜索中看到图片的预览了,要看原本图片只有进入PDF文件。接下来谷歌的目标是要能够将可搜索PDF中的图片释放出来,让图片真正可搜索。
谷歌从2008年开始就用OCR技术对PDF文件中的文字作索引。这项技术能够识别全球超过200种语言,用谷歌的话来说全球几乎所有主要的语言都已经搞定了。所以现在是时候轮到图片了。