苹果放大招！FastVLM 让视觉语言模型在 iPhone 上飞速 “狂飙”

苹果最近又搞了个大新闻，偷偷摸摸地发布了一个叫 FastVLM 的模型。听名字可能有点懵，但简单来说，这玩意儿就是让你的 iPhone 瞬间拥有了“火眼金睛”，不仅能看懂图片里的各种复杂信息，还能像个段子手一样跟你“贫嘴”!而且最厉害的是，它速度快到飞起，苹果官方宣称，首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊!

Table of Contents

视觉语言模型的 “成长烦恼”

现在的视觉语言模型，就像个不断进化的小天才，能同时理解图像和文本信息。它的应用可广了，从帮咱们理解图片里的内容，到辅助创作图文并茂的作品，都不在话下。一般来说，VLMs 是把预训练的视觉骨干网络提取的视觉 token，通过投影层传给预训练的大语言模型（LLM）。之前好多研究都在探索怎么训练和微调这几个组件，让模型变得更强。

研究发现，提高图像分辨率能显著提升 VLMs 在一些任务上的表现，尤其是处理那些文字和图表丰富的图像时。你想啊，图片越清晰，模型能 “看” 到的细节就越多，理解起来不就更准确嘛!但这也带来了不少麻烦。一方面，很多预训练的视觉编码器不太支持高分辨率图像，强行用的话，预训练效率会变得超级低。为了解决这个问题，有人尝试持续预训练视觉骨干网络，让它适应高分辨率;还有人把图像切成小块，像拼图一样分别处理，不过这也挺麻烦的。

另一方面，高分辨率推理的计算成本太高了!不管是直接进行高分辨率推理，还是把图像切块后进行低分辨率推理，都会产生很大的延迟。而且高分辨率图像生成的 token 更多，这又增加了 LLM 处理这些 token 的时间，导致整个模型输出首个 token 的时间（TTFT）变长。这就好比你让一个人一下子处理太多任务，他肯定会手忙脚乱，速度变慢。

FastVLM 来 “救场”

面对这些难题，苹果的研究团队搞出了 FastVLM，它就像是给 VLMs 注入了一剂 “加速药水”，能在保证性能的同时，大幅提升运行效率。

架构设计:另辟蹊径的 “智慧结晶”

FastVLM 的核心是 FastViTHD 这个新型混合视觉编码器。在探索 VLM 架构时，团队发现混合视觉编码器（卷积层加上 Transformer 块）是个不错的选择。卷积层可以轻松处理不同分辨率的图像，Transformer 块则能进一步优化视觉 token，让 LLM 更好地理解。他们用的 FastViT 就是基于这种架构，经过 MobileCLIP 预训练，效果还不错。比如，在相同的 VLM 基准测试中，FastViT 生成视觉 token 的速度比 ViT 模型快4倍多，准确率也更高。

不过，团队并没有满足于此。为了让模型在高分辨率下表现更出色，他们又设计了 FastViTHD。这个新架构在 FastViT 的基础上做了不少改进。它增加了一个额外的阶段和下采样层，让 self – attention 层处理的张量更小，这样就能减少图像编码延迟，还能为计算密集型的 LLM 解码器生成更少的 token，从而降低 TTFT。打个比方，这就像是给模型的 “信息高速公路” 拓宽了车道，还优化了交通规则，让信息传递得又快又稳。

训练与优化:精心打磨的 “成长之路”

训练 FastVLM 就像培养一个优秀的运动员，需要精心规划。研究人员采用了两阶段训练法，和 LLaVA -1.5的设置类似。第一阶段，只训练投影仪，用的是 LLaVA -558K 对齐数据集，训练时图像分辨率和骨干网络预训练分辨率一致。第二阶段，用 LLaVA -665K 监督微调数据集，把模型的所有模块都拿来训练，这时图像分辨率就设置成目标分辨率。

为了让模型更好地适应不同的任务和数据集，研究人员还做了很多优化。比如，他们尝试了多尺度特征提取，把网络不同阶段的信息整合起来，让模型能更好地理解图像。就像我们看一幅画，不仅要看整体，还要关注细节，多尺度特征提取就起到了这个作用。此外，他们还对比了不同的池化策略和连接器设计，发现用深度卷积进行池化能让模型性能更优。

实验结果:实力碾压的 “高光时刻”

在实验环节，FastVLM 简直就是 “学霸”，成绩相当亮眼!研究人员在主流基准测试中对 FastVLM 进行了全面评估，包括 GQA、ScienceQA、TextVQA 等多个任务。结果显示，在和其他模型的对比中，FastVLM 优势明显。

和基于卷积的 ConvLLaVA 相比，同样的 LLM 和相似的训练数据规模下，FastVLM 在 TextVQA 任务上性能提升了8.4%，在 DocVQA 任务上提升了12.5%，而且速度还快了22%。在高分辨率下，这种优势更加明显，FastVLM 的速度比 ConvLLaVA 快了2倍，在多个基准测试中都取得了更好的成绩。

和其他用多个视觉编码器的模型比，FastVLM 也毫不逊色。像 Cambrian -1用了多个视觉编码器，视觉编码在总 TTFT 中占比很大，而 FastVLM 用单个编码器，不仅速度比它快7.9倍，在相似的视觉指令调优数据集训练下，性能还超过了 Cambrian -1。就算是在对视觉 token 数量很敏感的文本丰富型评估任务中，FastVLM 也能凭借更少的视觉 token 取得更好的成绩。

FastVLM 的优势与意义

FastVLM 的出现，给视觉语言模型领域带来了新的希望。它最大的优势就是在保证模型性能的同时，大幅提升了运行效率。以前的模型在处理高分辨率图像时，要么速度慢，要么准确率低，FastVLM 很好地解决了这些问题。

对于我们普通用户来说，这意味着以后在手机上使用相关应用时，体验会大大提升。比如用图像搜索功能，以前可能要等半天才能出结果，现在用搭载 FastVLM 的应用，瞬间就能得到答案。对于开发者来说，FastVLM 提供了一个高效的模型框架，能让他们开发出更强大、更智能的应用。

从更宏观的角度看，FastVLM 的成功也为未来的研究指明了方向。它证明了通过优化架构和训练方法，可以在资源有限的设备上实现高性能的视觉语言模型。相信在不久的将来，会有更多基于 FastVLM 的创新应用出现，让我们的生活变得更加智能和便捷。

论文地址：https://www.arxiv.org/pdf/2412.13303

项目地址：https://github.com/apple/ml-fastvlm

本文由「aiuc」编辑整理，文章链接：https://www.aiuc.net/56825

该文观点仅代表作者本人，平台仅提供信息存储空间服务。