英伟达推全新视觉语音模型NVEagle 可以看图聊天 - cnBeta.COM 移动版(WAP)

返回上一页首页 | cnbeta报时: 23:32:42

英伟达推全新视觉语音模型NVEagle 可以看图聊天

发布日期:2024-09-02 15:27:07 稿源：Pingwest品玩

英伟达联合 Georgia Tech、UMD 和 HKPU 的研究团队推出了全新的视觉语言模型 ——NVEagle。据悉，NVEagle 能够理解复杂的现实场景，通过视觉输入进行更好的解读和回应。

它的设计核心在于将图像转化为视觉标记，再与文本嵌入相结合，进而提升了对视觉信息的理解。NVEagle包括了三个版本:Eagle-X5-7B、Eagle-X5-13B 以及 Eagle-X5-13B-Chat。其中，7B 和13B 版本主要用于一般的视觉语言任务，而13B-Chat 版本则专门针对对话式 AI 进行了微调，能够更好地进行基于视觉输入的互动。

NVEagle 的一个亮点在于采用了混合专家（MoE）机制，能够根据不同任务动态选择最合适的视觉编码器，这极大提升了对复杂视觉信息的处理能力。该模型已在 Hugging Face 上发布，方便研究人员和开发者使用。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道，更好阅读体验，更及时更新提醒，欢迎前来阅览和打赏。

查看网友评论返回完整版观看

最新资讯

加载中...

全新纯电奔驰CLA上市直言“不是杂牌电动车”

AMD锐龙AI Max+ 388/392蓄势待发：满血最强集显降落凡间

84%的玩家来自一代任天堂开发重心将转向Switch2平台

终于能在手机上买NS游戏了任天堂官方商城App上线

研究报告称放弃实体游戏、多用掌机可降低碳排放

小鹏新一代人形机器人IRON亮相：首推女性形态目标2026年规模量产

索尼Xperia公众号自主注销曾称中国业务“稳健运营”

小鹏汽车：目标成为中国首个量产高阶人形机器人公司

贝森特：Blackwell GPU落后两三代时才能卖给中国

深圳地铁启用机器人担任安检员是否裁人引热议

Bluetooth SIG发布蓝牙6.2版核心规范

今日最热

加载中...

因为来了个前阿里高管，山姆被喷上热搜了？

用户吐槽手机信号栏被塞广告中国移动回应属实

男子拍到武汉街头出现飞机官方回应：系旧机拆解转运

东航推出终身白金卡可领无限升舱券

苹果发布网页版App Store时因配置错误泄露全部前端源代码目前已被转存

周鸿祎：为什么学校不教你怎么赚钱？故意的

消息称苹果公司正在研发一款搭载iPhone芯片的低价Mac笔记本电脑

三星Galaxy Z TriFold真机公布：跟华为不一样

美国政府停摆追平纪录国会僵局持续损失与日俱增

飞天茅台电商补贴售价降至官方指导价1499元

小伙花2345元改装电瓶车结果家被烧光

返回上一页首页 | cnbeta报时: 23:32:42

文字版标准版电脑端

© 2003-2025