您的当前位置:首页 > 知识 > 国产多模态大模型AI“小猴子”实现“看图说话” 正文
时间:2024-03-29 00:00:00 来源:网络整理 编辑:知识
科技日报记者吴纯新通讯员汪伟颋高翔12月11日,记者从华中科技大学获悉,该校软件学院白翔教授领衔的VLRLab团队正式发布多模态大模型——“Monkey猴子)”。该模型具备“观察”世界的技能,可对图片
科技日报记者 吴纯新 通讯员 汪伟颋 高翔
12月11日,小猴子记者从华中科技大学获悉,国产该校软件学院白翔教授领衔的多模VLRLab团队正式发布多模态大模型——“Monkey(猴子)”。该模型具备“观察”世界的模型技能,可对图片进行深入问答交流和精确描述。实现说话
图为团队将Monkey代码在全球最大的看图代码托管服务平台GitHub上开源。
多模态大模型是小猴子一类可以同时处理和整合多种感知数据,如文本、国产图像、多模音频等的模型AI架构。近年来,实现说话这类模型在众多场景中展现出惊人能力。看图
据介绍,小猴子Monkey模型在18个数据集上的国产实验中表现出色,其在图像描述和视觉问答任务方面,多模以及文本密集的问答任务中显示出优势。
Monkey有一个显著特点,即其出色的“看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能察觉到其他多模态大模型所忽略的内容。如对下图进行文本描述中,Monkey正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。实验中,对图片左下角的文字,只有Monkey和GPT-4V能将其准确地识别为作者名。
据了解,目前,几乎所有多模态大模型都需要运用网上爬取的图文对数据集,这些数据集只能进行简单的图文描述,无法满足大分辨率图片的需求。
Monkey巧妙利用现有的工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,此举可以充分结合不同工具特性,打出一套威力十足的“组合拳”,大幅提升描述的准确性和丰富程度。
“一个个工具就好比不同的零件,合理排列组合才能使其发挥最大作用。”白翔说,他所在团队从2003年开始便从事图像识别研究,Monkey的最终方案得益于团队一起反复讨论,尝试了10余种方案后才确定。
白翔介绍,Monkey的另一亮点是能处理分辨率高达1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。
目前,业内能处理的图片最大分辨率为448×448像素。若想进一步提升处理能力,需投入十分高昂的算力成本。该团队骨干青年教师刘禹良介绍,团队采用创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备一个“放大镜”,放到合适的位置即可“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,以此提取更多局部特征。
“未来,我们希望Monkey更强大,真正成为神通广大的‘孙悟空’。”对这只“小猴子”,白翔信心满满。
(受访单位供图)
戎昭金:行星仰望者2024-03-28 23:44
共赴山水之约——我国生态文明试验区奋力书写“绿色答卷”2024-03-28 23:32
中国各地生态优势正转化为绿色发展动能2024-03-28 23:20
姜军出任极氪智能科技副总裁,负责智能座舱相关业务2024-03-28 23:13
2026年冬奥会、冬残奥会吉祥物揭晓2024-03-28 23:07
中国—南非企业贸易对接会举行2024-03-28 22:53
三伏近尾声!高温迎来最后疯狂 出伏后还要热多久?2024-03-28 22:31
“最美新时代革命军人”成林:赤胆铁拳的“特战尖兵”2024-03-28 21:57
乘着高铁看雄安,揭秘创新加速度!2024-03-28 21:51
播种梦想 传承精神——航天青年科普进社区2024-03-28 21:24
计划增加72架次 琼海博鳌机场继续加大航班增量保障游客返程2024-03-28 23:39
约319万平方公里!全国生态保护红线面积划定2024-03-28 23:29
农业农村部发布指南 明确洪涝灾区动物防疫技术要求2024-03-28 23:08
解放军和武警部队官兵投入黑龙江灾后重建2024-03-28 23:08
锦绣中国年丨民俗非遗之西安鼓乐2024-03-28 23:00
西气东输一线沁水分输压气站提升工程投产2024-03-28 22:50
国家统计局:以航空航天为代表的高端制造业较快增长2024-03-28 22:29
江南华南对流活跃局地或现暴雨 四川盆地等地高温闷热持续2024-03-28 21:58
巴黎奥运会和残奥会奖牌亮相2024-03-28 21:50
“东风汽车西藏行”启动2024-03-28 21:17