当前位置：首页 > DeepSeek技术交流 > 正文内容

DeepSeek 的“修炼”之路，还要闯几关？

5个月前 (03-19)DeepSeek技术交流354

半月谈记者张漫子

以小博大、逆袭吊打，曾是修仙爽文、微短剧里让人上头却略显荒诞的剧情，而今，DeepSeek（深度求索）让它在真实世界里发生了。

火爆全球超过一个月，DeepSeek掀起的风暴还在持续，随之而来的还有一波三折的戏码，同行的围剿、跨界的争议……正如影视作品中每一位“爽文大女主”升级打怪时所面对的关卡一样。

誉满天下，谤亦随之，DeepSeek的“修炼”之路，还要闯几关？

“爽文大女主”出三招

悄悄推出两款模型，即引发硅谷与华尔街的剧烈震荡，让OpenAI接连推出竞争产品并免费开放搜索，谷歌一股脑儿发布“满血版全家桶”，国内大厂的旗舰模型也开始免费开放。

深有“天上掉馅饼”之感的万千普通用户，倒是想给DeepSeek送锦旗了，不过，大家也想知道，凭一己之力就把曾经高不可攀的全球最顶级大模型的价格打下来了，究竟用了什么招？

——“乱”拳打伤老师傅。从架构到工程，从算法到部署，DeepSeek悟透的是“四两拨千斤”的中国武术古训，不理会“参数规模决定论”，反倒是秀出了数据质量优化与算法架构创新的乘数效应，在看似不可能的壁垒中突围。

——拆掉半壁卫城墙。一般来说，大模型开发者用了英伟达的GPU，也就得用他家的运算平台CUDA搞研发。毕竟CUDA已经封装好一些函数，后来者使用时直接调用接口搞加工就行，这样的低门槛当然方便资源有限的开发者，但是，这也意味着深度研发执行效率的折扣。

绕过CUDA，直接基于GPU的驱动函数开发，行不行？DeepSeek给出了肯定的答案。凭借独到软件算法优化，拆掉英伟达“卫城墙”，也就是不必仰赖其CUDA生态行事，DeepSeek走出了一条中国AI技术创新的新路子。

——小力也能出奇迹。自从OpenAI的ChatGPT发布以来，微软、谷歌、Meta等科技巨头一直在增加与人工智能相关的算力支出。“军备竞赛”式的投入，也催动了美国AI芯片股价一路攀升。

就当行业仍困囿于“算力军备竞赛”的思维定式之际，DeepSeek凭借区区558万美元训练成本就让V3模型达到了GPT-4o九成功力，R1模型更实现以纯强化学习突破推理能力边界，向世界证明，AI大模型的革命，不一定要靠算力堆出来。

是幻觉还是“真香”

DeepSeek的小而精、强且美，是炒作出来的“幻觉”，还是厚积薄发而得的“真香”？

自从在AI江湖中亮出名号，DeepSeek就不满足于追随者，这可以从其开发的一系列原创技术获得证明。MLA、GRPO、R1-Zero……门外汉对着这些字母大概会如坠五里雾中，但是，这些技术合力激发的“聚变”，恐怕是DeepSeek获得140多个国家用户认可的根本原因。

北京白领小游说，DeepSeek的回答不像GPT的回答那么干巴巴，像个只会写材料的书呆子，按部就班安排任务步骤，而像个鬼马精灵，只要你说明目的，她就能拆解和揣摩你的弦外之音、思考怎么实现你想要的：“甚至你可以问她一些你都没有答案的大问题。”

当然，DeepSeek依然在蓬勃的成长期。以最新的DeepSeek-R1为例，虽然其突破鼓舞人心，但学术界用起来还不免有点头疼——面对悠远文明时间中的复杂因果，现代学术论述的复杂规范，DeepSeek的回答还不免左支右绌。

而且，DeepSeek暂时还不谙图像处理，回应大规模用户需求也有“体力不支”的情况，这些困难都意味着，DeepSeek的修炼，“高原期”刚刚开始。

如何学习文明的智慧

技术革命的浪潮里，没有永恒的王者，只有不断的超越。具体到AI领域，大家的共识更是：充满不确定性、一直充满热度、但不乏过度反应。

无休止的波动，折射出的，其实是科技进化的深层图像——人工智能，就好像之前种种引发文明革命的重大科技进展一样，前进路线并非笔直的线性轨迹，而是永恒的螺旋。

谁来驱动这螺旋？不论DeepSeek参演的是爽剧还是正剧，角色与剧本背后的导演还是人类自己。

如果说AI是普罗米修斯之火，那么人类文明就是在自我颠覆中奔流不息、江声浩荡的赫拉克利特之河。我们最珍贵的不是回答和解决已有问题的能力，而是发现新问题的智慧、定义新问题的勇气——这更需要创造性与想象力。

DeepSeek式创新的下一次突破，其通关密码，就生成于回向文明深处寻求思考变革的努力中。以文明赋能人工智能，人工智能的“飞升”时刻，也许就会到来。

标签: DeepSeek 人工智能数据分析

返回列表