阿里通义千问推出QVQ-Max视觉推理模型:有“眼力”,更有“脑力”
3月28日,阿里通义千问团队发文宣布,正式推出QVQ-Max视觉推理模型第一版。该团队表示,去年12月发布的探索模型QVQ-72B-Preview存在一些不足,而新版本的模型具备强大的多模态处理能力,它不仅能够“看懂”图片和视频里的内容,还能结合这些信息进行分析、推理,甚至给出解决方案。
从数学题到生活小问题,从编程代码到艺术创作,QVQ-Max都表现出了不俗的能力。
MathVision榜单测评图 图源:通义千问官方公众号
在权威的MathVision榜单测评中,通过对模型thinking最大长度的调整,其在解决复杂数学问题的准确率上呈现出持续上升的趋势,充分彰显了该模型蕴含的巨大潜力。
据悉QVQ-Max的核心能力,主要体现在三个关键维度:
细致观察:QVQ-Max对图片的解析能力非常强,无论是复杂的图表还是日常生活中随手拍的照片,它都能快速识别出关键元素。比如,它可以告诉你一张照片里有哪些物品、有什么文字标识,甚至还能指出一些你可能忽略的小细节
深入推理:仅仅识别出图片里的内容还不够,QVQ-Max 还能进一步分析这些信息,并结合背景知识得出结论。例如,在一道几何题中,它可以根据题目附带的图形推导出答案;在一段视频里,它能根据画面内容推测出接下来可能发生的情节。
灵活应用:除了分析和推理,QVQ-Max 还能做一些有趣的事情,比如帮你设计插画、生成短视频脚本,甚至根据你的需求创作角色扮演的内容。如果你上传一幅草稿,它可能会帮你完善成一幅完整的作品;上传一个日常照片,它可以化身犀利的评论家。