当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

2周前 (02-26)DeepSeek技术交流41

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

患者带着DeepSeek来看病,医学博主自嘲“天塌了”

患者带着DeepSeek来看病,医学博主自嘲“天塌了”

“天都塌了!病人DeepSeek后质疑我的治疗方案,气得我自己又查了一遍指南,才发现指南更新了……”2月22日,广东一位医学博主“孤芳自赏”的帖子,引发网友热议。评论区中,不少网友都表示遭遇过类似情况...

不联网也能用AI!武汉企业推出DeepSeek本地部署主机

不联网也能用AI!武汉企业推出DeepSeek本地部署主机

长江日报大武汉客户端2月20日讯(记者郝天娇)春节期间,我国国产开源大模型深度求索(DeepSeek)在全球范围“火出圈”。上周五,黄陂区企业武汉攀升鼎承科技有限公司(以下简称攀升科技)正式推出搭载本...

deepseek怎样做数学题,deepseek如何解数学题?

deepseek怎样做数学题,deepseek如何解数学题?

DeepSeek可以通过其强大的自然语言处理(NLP)和机器学习能力来帮助解答数学题。以下是DeepSeek解答数学题的一般步骤:一、输入题目或数学问题用户可以通过DeepSeek的网页端或APP端,...

极光Adpub接入DeepSeek,开创应用变现新模式

极光Adpub接入DeepSeek,开创应用变现新模式

中国领先的客户互动与营销科技服务商极光(Aurora Mobile)宣布,其广告变现平台Adpub已成功接入先进的大语言模型(LLM)DeepSeek。通过这一接入,Adpub将充分利用DeepSee...

中国联通:针对DeepSeek系列模型进行了优化升级,平均节省30%推理计算量

中国联通:针对DeepSeek系列模型进行了优化升级,平均节省30%推理计算量

中国联通近日宣布,继1月开源元景“自适应慢思考”思维链大模型后,又针对DeepSeek系列模型进行了“自适应慢思考”优化升级,平均可节省约30%的推理计算量,现已开源。这也是目前业界首个对DeepSe...

Manus引爆智能体复现潮,DeepSeek已被整合

Manus引爆智能体复现潮,DeepSeek已被整合

Manus背后公司名为“蝴蝶效应”,真的带火了整个智能体赛道:开源复现潮出现了,商业闭源产品也卷起来了。‍‍‍目前进度最快的两个项目,都是在Manus发布的第0天就发布了复现代码。除了之前介绍的Ope...