阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%

在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。

image.png

Qwen2.5-Omni 是一款端到端的多模态模型,能够同时处理文本、图像、音频和视频等多种信息类型。得益于其独特的 “Thinker-Talker” 架构,模型能够在实时互动中灵活运用多种输入,生成相应的文本和自然语音回应。这种设计使得用户在与系统的互动中,能够获得更流畅、更自然的体验。

image.png

显存优化,兼容性增强

与 Qwen2.5-Omni-7B 模型相比,3B 版本在处理长上下文序列时,显存显著降低,使得其在24GB 的消费级 GPU 上仍能支持长达30秒的音视频交互。这一优化不仅提升了模型的适用性,也让更多用户能够在个人计算机上实现高效的多模态处理,解决了以往因显存不足导致的使用障碍。

实时语音与视频聊天功能

Qwen2.5-Omni 的核心优势之一是其支持完全实时的语音和视频聊天功能。该模型能够处理分块输入并即时输出响应,展现出卓越的鲁棒性和自然度。这种技术使得在语音生成方面,Qwen2.5-Omni 的表现超越了许多现有的流式和非流式模型,为用户提供了更加人性化的互动体验。

在多模态任务中,Qwen2.5-Omni 展现出令人瞩目的性能,无论是在单一模态任务,如语音识别、翻译、音频理解、图像推理,还是在需要多模态融合的复杂任务中,该模型都能表现出色。在与同规模的单模态模型对比中,Qwen2.5-Omni 不仅在音频能力上超越了 Qwen2-Audio,还在图像和视频任务中达到了与 Qwen2.5-VL-7B 相当的水平,证明了其多模态处理的强大能力。

github地址:https://github.com/QwenLM/Qwen2.5-Omni

在线体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/52887

该文观点仅代表作者本人,平台仅提供信息存储空间服务。

(0)
aiucaiuc
上一篇 12小时前
下一篇 12小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注