DeepSeek 扭转 AI 战局?谁说我们不能在“ 1 到 100 ”阶段异军突起

DeepSeek 在蛇年新春给全球科技圈带来的冲击波,丝毫不亚于两年前 ChatGPT 横空出世带来的震撼。

而这一次," 冲击波 " 来自中国。

1 月 20 日,DeepSeek 发布了性能对标 OpenAI-o1 正式版的新模型—— DeepSeek-R1,仅用 1 周,Deepseek 应用就同时登顶苹果中国地区和美国地区应用商店免费 App 下载排行榜。除夕夜,它又发布了多模态大模型 Janus-Pro,成为其一个月内发布的第三款大模型。

有意思的是,DeepSeek 成立至今只有 1 年多,仍算是一家创业型公司。这股称为 " 来自东方的神秘力量 " 何以震动全球科创圈?多位专家认为,它最大的价值在于以极低的训练成本实现了可媲美甚至超越全球顶尖大模型的性能,而在此基础上的模式之变、开源之变,都将为人工智能的发展带来积极的意义。

" 击穿 " 关键变量,打破算力神话

如果只用一个关键词来形容 DeepSeek 给全球科技圈带来的冲击力,多位专家都给出了一个词——成本。事实上,ChatGPT 自问世以来,围绕它最大的争议在于居高不下的成本,由巨量芯片堆叠以及巨大电力消耗换来的大算力,是否真的能支持大模型长远发展?

Deepseek 在成本这一关键变量上给出了 " 暴击 "。据了解,DeepSeek-R1 模型训练成本仅为 560 万美元,远低于美国开放人工智能研究中心、谷歌等科技巨头的技术投入成本。有人做了个比喻:如果把研发大模型比作烧开水,把对算力的投资比作烧水用的燃料,那么 OpenAI 烧开一壶水用了一车煤,谷歌用了一车 98 号汽油,马斯克用了一车航空煤油,发现壶里的水才冒泡,而创业型公司 DeepSeek 点燃几根火柴,就烧开了一壶水。

成本的骤降,往往会引发整个商业逻辑的变化:算力固然重要,但如果一款大模型可以花更少的钱,得出同样的解决方案,那么依靠重度氪金 " 外挂装备 " 成就大算力的逻辑就被打破了。事实上,美股市场已经给出了 " 投票 ":除夕前一个美股交易日,包括英伟达、谷歌、微软 3 家公司一夜蒸发了 7625 亿美元的市值,约合 5.5 万亿人民币。虽然美股涨跌与 DeepSeek 不能完全划上等号,但市场的摇摆已经相当明显。

美银证券分析师 Justin Post 在报告中就认为,成本的降低将大大加速大模型的商业应用:" 如果模型训练成本被证明可以显著降低,我们预计使用云人工智能服务的广告、旅游和其他消费应用的公司将在短期内获得成本效益。"

重构 AI 叙事,闯出特色本土模式

如果把成本作为透视大模型发展的一个基点,往上看,成本骤减将对未来的商业模式带来深远影响;而往下看,它更重要的意义在于蹚出一条大模型的本土发展模式。

此前,有网友尝试让 DeepSeek 写一篇 " 玄武门之变后李世民内心独白戏 ",在思考 8 秒之后,DeepSeek 写下的 700 多字刷屏朋友圈。它的惊艳之处在于,一方面具备对历史背景的深度把握,另一方面在文字对仗、渲染等文学上的造诣极深。而如果你用过 DeepSeek 还会发现,它在给出回答之前,还给出了思考的过程——这与 ChatGPT 直接给出结果的底层逻辑完全不同。

浙江大学计算机博士傅聪解读认为,DeepSeek-R1 的模型使用强化学习技术进行 " 后训练 ",让模型的推理能力得到了极大的提升。简单地说,就是通过学习 CoT(思维链)的方式,一步一步推理得出结果,而不是直接预测答案。而 Deepseek 用极快的速度,验证了这一路径的可行性。

除了新训练方法,DeepSeek 还有不少变化,比如开源、深度联网等。目前 R1 是少数支持联网的推理模型,不少用户认为,其在大语言模型(LLM)上更卓越的表现,大概率与其支持联网搜索有关。而 DeepSeek 的完全开源策略,促进了 AI 开发者社区的协作生态,硅谷顶级风投 a16z 创始人马克 · 安德森(Marc Andreeseen)对此评论认为,DeepSeek 的开源 " 是给世界的一份意义深远的礼物 "。

数字产业分析师郝智伟认为,DeepSeek" 低成本 + 新训练方法 + 开源 + 联网 " 的新模式,从某种程度上重构了 AI 大模型的叙事语言,走出了与海外不同的实用主义道路,也让用户与高阶 AI 对话的门槛大大降低,加快国产大模型的普及速度。

弯道超车,对中国科创圈启示几何

前谷歌首席执行官埃里克 · 施密特(Eric Schmidt)周二在一篇专栏文章表示,DeepSeek 的崛起标志着全球人工智能竞赛的 " 转折点 "。或许,DeepSeek 的 " 蝴蝶效应 " 才刚刚开始,但它对中国科创圈的意义更加重大。

回到 DeepSeek 的诞生背景,这是一家中国创业型企业,尽管其拥有上万张中高端算力卡的较好条件,但与中国绝大多数的科技企业一样,存在高性能芯片不足、资金条件有限的客观局限性,这意味着,通过堆叠高端硬件 " 大力出奇迹 " 的方式走不通,必须在有限算力的基础上进行架构、算法、数据利用等内功的探索创新。DeepSeek 的成功有其独特性,但它也同时证明了一件事:高效率低成本的本土模式是能走通的,为 2025 年国内大模型的发展开了个好头。

郝智伟认为,这一趋势在 2024 年已经有所体现,特别是大模型深度用户和创业者明显感觉到,国内的大模型更懂他们这个群体,无论是文生文的豆包、Kimi,图生视频的即梦、可灵,还是声音生成的海螺 AI,这些国产 AI 系统都有不俗的表现。他认为,中国在 " 从 0 到 1" 的破局上,或许错过了大模型最初的爆发红利,但并不代表不能在 " 从 1 到 100" 的阶段异军突起,大模型的比拼注定是一场马拉松。

正如 DeepSeek 创始人梁文锋此前接受媒体采访时所说:" 过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现。但在这一波浪潮里,我们的出发点是走到技术的前沿,去推动整个生态发展。"

就在除夕夜,Deepseek 再度发布了多模态大模型 Janus-Pro,以 " 四两拨千斤 " 的模式,在文生图领域扮演了一条搅动全球科技圈的鲶鱼。

原文连接

搜索