阿里巴巴重磅发布全模态大模型 Qwen3-Omni

来源:AIbase基地· 2025-09-25 10:18:33

阿里巴巴近日发布了通义全模态预训练大模型 Qwen3-Omni 系列。这款模型的特点在于其能够处理音频、视频及文本等多种信息,堪比人类的感知能力。这不仅是 AI 技术的重大进步,也为未来的应用场景打开了更多可能。

据悉,Qwen3-Omni 在36项音视频基准测试中,取得了22项 SOTA(State Of The Art)水平的成绩,表现出色,甚至在32项测试中成为开源模型中的佼佼者。特别是在语音识别和音频理解方面,其能力已达到与谷歌的 Gemini2.5-Pro 不相上下的水平。这无疑为需要高质量音频处理的应用奠定了坚实的基础。

202311060852081809_0.jpg

图源备注:图片由AI生成

Qwen3-Omni 的设计理念独特,其一开始就进行了 “听”“说”“写” 多模态的混合训练,模拟人类婴儿对世界的全面感知。这种训练方法结合了单模态和跨模态数据,使得模型在音频和视频处理上表现优异的同时,文本和图像的处理能力也保持了稳定。这是行业内首次实现如此全面的训练效果,显示了阿里在 AI 技术上的前瞻性和创新性。

未来,Qwen3-Omni 有望广泛应用于智能客服、内容创作、语音交互等领域,为用户提供更智能、更人性化的服务。随着技术的不断进步,我们可以期待 AI 与生活的结合将更加紧密,为我们带来更加便捷的体验。

阿里巴巴的这一创新,标志着全模态 AI 的发展迈上了新台阶,也为全球科技公司提供了新的参考标杆。


[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表本站立场。