苹果最近又搞了个大新闻,偷偷摸摸地发布了一个叫 FastVLM 的模型。听名字可能有点懵,但简单来说,这玩意儿就是让你的 iPhone 瞬间拥有了“火眼金睛”,不仅能看懂图片里的各种复杂信息,还能像个段子手一样跟你“贫嘴”!而且最厉害的是,它速度快到飞起,苹果官方宣称,首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊!
视觉语言模型的 “成长烦恼”
现在的视觉语言模型,就像个不断进化的小天才,能同时理解图像和文本信息。它的应用可广了,从帮咱们理解图片里的内容,到辅助创作图文并茂的作品,都不在话下。一般来说,VLMs 是把预训练的视觉骨干网络提取的视觉 token,通过投影层传给预训练的大语言模型(LLM)。之前好多研究都在探索怎么训练和微调这几个组件,让模型变得更强。
研究发现,提高图像分辨率能显著提升 VLMs 在一些任务上的表现,尤其是处理那些文字和图表丰富的图像时。你想啊,图片越清晰,模型能 “看” 到的细节就越多,理解起来不就更准确嘛!但这也带来了不少麻烦。一方面,很多预训练的视觉编码器不太支持高分辨率图像,强行用的话,预训练效率会变得超级低。为了解决这个问题,有人尝试持续预训练视觉骨干网络,让它适应高分辨率;还有人把图像切成小块,像拼图一样分别处理,不过这也挺麻烦的。
另一方面,高分辨率推理的计算成本太高了!不管是直接进行高分辨率推理,还是把图像切块后进行低分辨率推理,都会产生很大的延迟。而且高分辨率图像生成的 token 更多,这又增加了 LLM 处理这些 token 的时间,导致整个模型输出首个 token 的时间(TTFT)变长。这就好比你让一个人一下子处理太多任务,他肯定会手忙脚乱,速度变慢。
FastVLM 来 “救场”
面对这些难题,苹果的研究团队搞出了 FastVLM,它就像是给 VLMs 注入了一剂 “加速药水”,能在保证性能的同时,大幅提升运行效率。
架构设计:另辟蹊径的 “智慧结晶”
FastVLM 的核心是 FastViTHD 这个新型混合视觉编码器。在探索 VLM 架构时,团队发现混合视觉编码器(卷积层加上 Transformer 块)是个不错的选择。卷积层可以轻松处理不同分辨率的图像,Transformer 块则能进一步优化视觉 token,让 LLM 更好地理解。他们用的 FastViT 就是基于这种架构,经过 MobileCLIP 预训练,效果还不错。比如,在相同的 VLM 基准测试中,FastViT 生成视觉 token 的速度比 ViT 模型快4倍多,准确率也更高。
不过,团队并没有满足于此。为了让模型在高分辨率下表现更出色,他们又设计了 FastViTHD。这个新架构在 FastViT 的基础上做了不少改进。它增加了一个额外的阶段和下采样层,让 self – attention 层处理的张量更小,这样就能减少图像编码延迟,还能为计算密集型的 LLM 解码器生成更少的 token,从而降低 TTFT。打个比方,这就像是给模型的 “信息高速公路” 拓宽了车道,还优化了交通规则,让信息传递得又快又稳。
训练与优化:精心打磨的 “成长之路”
训练 FastVLM 就像培养一个优秀的运动员,需要精心规划。研究人员采用了两阶段训练法,和 LLaVA -1.5的设置类似。第一阶段,只训练投影仪,用的是 LLaVA -558K 对齐数据集,训练时图像分辨率和骨干网络预训练分辨率一致。第二阶段,用 LLaVA -665K 监督微调数据集,把模型的所有模块都拿来训练,这时图像分辨率就设置成目标分辨率。
为了让模型更好地适应不同的任务和数据集,研究人员还做了很多优化。比如,他们尝试了多尺度特征提取,把网络不同阶段的信息整合起来,让模型能更好地理解图像。就像我们看一幅画,不仅要看整体,还要关注细节,多尺度特征提取就起到了这个作用。此外,他们还对比了不同的池化策略和连接器设计,发现用深度卷积进行池化能让模型性能更优。
实验结果:实力碾压的 “高光时刻”
在实验环节,FastVLM 简直就是 “学霸”,成绩相当亮眼!研究人员在主流基准测试中对 FastVLM 进行了全面评估,包括 GQA、ScienceQA、TextVQA 等多个任务。结果显示,在和其他模型的对比中,FastVLM 优势明显。
和基于卷积的 ConvLLaVA 相比,同样的 LLM 和相似的训练数据规模下,FastVLM 在 TextVQA 任务上性能提升了8.4%,在 DocVQA 任务上提升了12.5%,而且速度还快了22%。在高分辨率下,这种优势更加明显,FastVLM 的速度比 ConvLLaVA 快了2倍,在多个基准测试中都取得了更好的成绩。
和其他用多个视觉编码器的模型比,FastVLM 也毫不逊色。像 Cambrian -1用了多个视觉编码器,视觉编码在总 TTFT 中占比很大,而 FastVLM 用单个编码器,不仅速度比它快7.9倍,在相似的视觉指令调优数据集训练下,性能还超过了 Cambrian -1。就算是在对视觉 token 数量很敏感的文本丰富型评估任务中,FastVLM 也能凭借更少的视觉 token 取得更好的成绩。
FastVLM 的优势与意义
FastVLM 的出现,给视觉语言模型领域带来了新的希望。它最大的优势就是在保证模型性能的同时,大幅提升了运行效率。以前的模型在处理高分辨率图像时,要么速度慢,要么准确率低,FastVLM 很好地解决了这些问题。
对于我们普通用户来说,这意味着以后在手机上使用相关应用时,体验会大大提升。比如用图像搜索功能,以前可能要等半天才能出结果,现在用搭载 FastVLM 的应用,瞬间就能得到答案。对于开发者来说,FastVLM 提供了一个高效的模型框架,能让他们开发出更强大、更智能的应用。
从更宏观的角度看,FastVLM 的成功也为未来的研究指明了方向。它证明了通过优化架构和训练方法,可以在资源有限的设备上实现高性能的视觉语言模型。相信在不久的将来,会有更多基于 FastVLM 的创新应用出现,让我们的生活变得更加智能和便捷。
论文地址:https://www.arxiv.org/pdf/2412.13303
项目地址:https://github.com/apple/ml-fastvlm
本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/56825
该文观点仅代表作者本人,平台仅提供信息存储空间服务。