苹果选了阿里,DeepSeek 竟然没戏?Qwen 大模型到底牛在哪儿?

发布时间:2025-02-17    来源:网络


微信图片_20250217153806.jpg

苹果竟然选了阿里巴巴?

听说苹果要和阿里深度合作,给咱们中国版的 iPhone 搞点“特供”的 AI 功能。

啥意思呢?就是说以后咱们用的 iPhone,可能会用上阿里的 AI 技术。

这事儿一出,很多人都觉得有点意外。 因为之前风头很劲的,不是 DeepSeek 吗? 听说不少手机厂商都抢着用 DeepSeek 的模型了。 怎么苹果最后反而选了阿里呢?

其实,阿里今年 1 月底刚发布了他们最新的 通义千问 Qwen 2.5-Max 基础大模型,据说性能已经 超越了 DeepSeek V3! 苹果这次选阿里,看来是看中了 Qwen 的实力。

为了让大家更明白,咱们先捋捋 DeepSeek V3(基础模型) 和 DeepSeek R1(推理模型) 的关系。 简单说,R1 其实就是在 V3 的基础上,加了更强的“推理能力”。 V3 是基础款,已经很聪明了,但 R1 更厉害,它学会了像人一样一步步思考问题,还能把思考过程说出来。

你可以理解为,V3 是“天生智商”,R1 是“后天学习”

一般来说,提升基础模型的“智商”更难,所以阿里这个 Qwen 2.5 Max 既然“智商”更高了,那以后推出更会“深度思考”的版本,看来也是顺理成章的事儿。

那问题来了,Qwen 大模型,到底强在哪儿,能让苹果都看上它? 咱们这就来好好扒一扒:

Qwen 大模型到底有哪些过人之处?

1. 开源又好用,朋友圈超广!

阿里的 Qwen 系列,一开始就走的是 开源路线。 啥叫开源? 就是把模型的代码、技术都公开出来,让全世界的开发者都能免费用、一起改进。 这一招真挺厉害的,一下子就吸引了全球的目光。

Qwen 开源后,就像把一个先进的工具免费送给大家,全球的开发者、研究人员都能参与进来,一起 改进模型性能、发现新的应用。 开源社区的力量是无穷的,能加速技术迭代,推动 AI 创新。

据说,到 2024 年底,基于 Qwen 衍生出来的各种模型,已经 超过 9 万个了! 比美国 Meta 公司的 Llama 系列还多,成了 全球最大的开源模型家族。 很多公司、大学都在用 Qwen 当基础模型,你说牛不牛?

比如 斯坦福大学李飞飞团队,就用 Qwen 模型在 数学竞赛问题 上取得了显著成绩,证明了 Qwen 的推理能力很强。 Qwen 开源,也促进了 多模态、数学模型、代码模型 等领域的研究和发展,让更多 AI 技术能更快落地应用。

2. 性能超强,榜单说话!

光说开源没用,还得看真本事。 Qwen 系列在各种权威的 “考试” (基准测试) 里,成绩都非常亮眼。

就拿 Chatbot Arena Leaderboard 这个榜单来说吧。

Chatbot Arena 是由 LMSYS Org 推出的大模型性能测试平台,目前集成了 190 多种模型。

该榜单采用匿名方式将大模型两两组队,交给用户进行盲测,用户根据真实对话体验对模型能力进行投票。

因此,Chatbot Arena LLM Leaderboard 成为业界公认的最公正、最权威榜单之一,也是全球顶级大模型的最重要竞技场。

Qwen2.5-Max 在 Chatbot Arena 大模型盲测中超越 DeepSeek-V3、Open AI o1-mini 和 Claude-3.5-Sonnet 等模型,以 1332 分位列全球第七名,也是非推理类的中国大模型冠军。同时,Qwen2.5-Max 在数学和编程等单项能力上排名第一,在硬提示(Hard prompts)方面排名第二。

在 Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond 及 MMLU-Pro 等主流基准测试中,Qwen2.5-Max 比肩 Claude-3.5-Sonnet,并几乎全面超越了 GPT-4o、DeepSeek-V3 及 Llama-3.1-405B。3. 全能选手,十八般武艺样样精通!

Qwen 系列不只是会说话,它还是个 “全能选手”,功能非常多。 不光有基础的语言模型,还有 多模态模型 (能看图说话)数学模型 (解数学题)代码模型 (写代码) 等等。 就像个多面手,各种技能都会一点,能满足不同场景的需求。

比如,Qwen-VL 专门负责 “视觉语言”,让你给它看张图,它就能跟你聊图里的内容; Qwen-Coder 就是个 “代码专家”,专门帮你写程序; Qwen-Math 则是 “数学学霸”,帮你搞定各种数学难题。 功能这么全,用起来当然方便。

有网友生动地概括,Qwen2.5-Max相当于“中文版的ChatGPT”,但水平要比后者“高得多”。有用户表示,Qwen2.5-Max“重新定义”了视频生成功能,已经超过OpenAI的Sora。甚至有用户认为,Qwen2.5-Max已经把ChatGPT、DeepSeek狠狠“拍在了沙滩上”。4. 技术领先,底子够硬!

Qwen 系列模型用上了 “混合专家 (MoE)” 架构,还用 超过 20 万亿个参数的数据 进行了训练。 参数越多,模型就越聪明嘛。 这么大的投入,效果也是立竿见影的。 据说,Qwen 2.5-Max 的 理解能力提升了 46%,数学能力提升了 75%,代码能力更是猛增 102%! 这提升幅度,相当惊人。

5. 商业潜力巨大,合作机会多多!

阿里搞 Qwen,不光是为了秀技术,也是为了 搞商业合作。 他们把 Qwen 开源出来,又 降低了 API 调用价格,就是为了吸引更多开发者和企业来用他们的模型。 这种 开放又便宜 的策略,对苹果这种大公司来说,当然很有吸引力。 既能得到技术支持,又能降低成本,何乐而不为呢?

6. 更懂中国市场,更接地气!

苹果在中国市场,肯定要考虑 “本土化” 的问题。 Qwen 大模型是中国团队做的,更了解中国用户的需求。 据说 Qwen 系列在 视觉理解、长文本理解 方面,已经有了突破。 这就能让苹果更好地满足中国用户的特殊需求,提升在中国市场的竞争力。

Qwen 2.5 MAX 到底有多聪明?
咱们来测测看!

Qwen2.5-Max 的传送门:

  • • 阿里新出的 Qwen Chat 聊天界面,https://chat.qwenlm.ai/不是原来的通义千问了,界面有点像 ChatGPT,速度很快,也是免费的。网址在这里:
    https://chat.qwenlm.ai/
  • • 在阿里云百炼平台上可以直接调用 API 服务。

这里必须要提一嘴,打开官网后,你能看到下面这个“Artifacts”功能。如果你准备跑一些在线运行的编程类问题,一定要勾选这个。要我说,这次 Qwen2.5-Max 能打败 DeepSeek-V3,不仅在于榜单和效果上全面超越,这个能实时渲染前端代码的 Artifacts 功能也是加了大分。

Qwen2.5-Max 强大的编程能力搭配上 Artifacts,玩法瞬间打开了,即使你完全不懂编程。

比如你可以直接让 Qwen2.5-Max 给你在线写代码放烟花——
提示词:今年过年七彩祥云的烟花特别火,我想要一个电子版的七彩祥云烟花动画
如果觉得放烟花不过瘾,想有更多参与感,你甚至可以让他为你做一个更浪漫的交互式艺术作品。

提示词:编写一个程序,生成一幅动态艺术画。画布上随机生成多个点,这些点会按照一定的规则移动(如随机游走、相互排斥、跟随鼠标等),并留下轨迹。最终生成一幅随时间变化的动态艺术作品。根据阿里云官方的说法,这个 Qwen2.5-Max 模型最牛逼的是在于数学和编程,还有一个不太常见的名词“硬提示(Hard Prompts)”——这个硬提示是 Arena 中的一项能力测试,你可以简单理解成,考察模型对于一些模糊、抽象、开放、需要创造力的用户指令,是否能很好的处理。

比如 “写一首关于夏天的诗”,或者 “宇智波斑能打得过贝吉塔吗”,这种 case 就非常考验模型自身的知识储备、创造力(脑洞)甚至推理能力。

最近特别火的 DeepSeek 的一个回答——满满的家国情怀。

同样的问题,我问了 Qwen2.5-Max——好理科脑,又好奇地追问了第二伟大是什么:一个预料之外的答案,Qwen2.5-Max 我愿称你为理科狂魔...

你俩真的是一个理科脑,一个文科脑,我好想给 Qwen 和 DeepSeek 磕 CP 啊

当然,在这种考察 AI 脑洞的问题上,主要考察的是提问者的脑洞。所以,你可以在评论区秀出你和 Qwen2.5-Max 的脑洞。

总结一下

苹果这次选择和阿里合作,看中的就是 Qwen 大模型的硬实力和软实力

Qwen 不仅 技术领先、性能强大,而且 开源开放、生态繁荣、更懂中国市场

DeepSeek V3 的出现,真是惊艳四座,让我们看到了 MoE 模型 的巨大潜力,也让世界看到了 中国 AI 的实力! 就像在 AI 这片星空下,DeepSeek 率先冲向太阳,探索 MoE 模型的极限。

但探索 AGI (通用人工智能) 这条路,大家都不孤单! DeepSeek 和 Qwen,都是咱们中国 AI 大模型的骄傲,当然,还有很多其他优秀的国产 AI 代表,都在默默努力。 大家都在为了中国 AI 的崛起添砖加瓦。

再给大家说个 小秘密: DeepSeek 他们家 R1 模型 “蒸馏” 出来的 6 个小模型里,居然有 4 个是用 Qwen 的开源模型改的! 还有李飞飞教授团队最近发布的 S1 模型,也是 用 Qwen 2.5-32B 当 “地基” 建起来的。 这说明啥? 说明 Qwen 开源做得好,大家都在用,都在互相学习进步嘛!

Qwen 为了搞出更厉害的 MoE 模型,一直在 默默努力。 去年 6 月就开源了一个 570 亿参数的 MoE 模型,这次为了 Qwen 2.5-Max,更是下了血本,用 超过 20 万亿 tokens 的数据 训练,还用了 精心设计的 “后训练方案”,才搞出了 Qwen 2.5-Max 这个 “王炸”!

深度体验了 Qwen 2.5-Max 之后,我脑子里冒出了一句话: “有人追逐太阳,有人仰望星空”。

无论是 追逐太阳,还是 仰望星空,我相信,AI 的星空,一定会 更加璀璨夺目!


作者:小编

【返回列表】
视频播报
MORE