当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek开源放大招:FlashMLA让H800算力狂飙!曝光低成本秘笈

3周前 (02-24)Deepseek最新资讯44

【新智元导读】DeepSeek开源周第一天就放大招!FlashMLA强势登场,这是专为英伟达Hopper GPU打造MLA解码内核。注意,DeepSeek训练成本极低的两大关键,一个是MoE,另一个就是MLA。

就在刚刚,DeepSeek放出了开源周首日的重磅炸弹——FlashMLA。

这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,特别针对变长序列进行了优化,目前已正式投产使用。

经实测,FlashMLA在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS。

开源地址:https://github.com/deepseek-ai/FlashMLA

当前已经发布的内容为:

对BF16精度的支持

块大小为64的分页KV缓存

团队在致谢部分表示,FlashMLA的设计参考了FlashAttention-2、FlashAttention-3以及CUTLASS的技术实现。

有网友对此表示,「DeepSeek王炸开局,FlashMLA是真正能加速AGI进程的」。

快速入门

首先,需要打开终端,输入下面代码安装setup.py文件:

这是一个基于Python的安装命令,用于编译和安装FlashMLA模块,确保其高效运行于特定硬件。

python setup.py install

基准测试:

这段代码是一个测试脚本,用于验证FlashMLA的功能和性能,并与PyTorch的基准实现进行对比。

python tests/test_flash_mla.py

使用方法:

下面是一段使用的示例代码。

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

for i in range(num_layers): ... o_i, lse_i = flash_mla_with_kvcache( q_i, kvcache_i, block_table, cache_seqlens, dv, tile_scheduler_metadata, num_splits, causal=True, ) ...

DeepSeek训练成本如此之低的两大关键

DeepSeek的成本涉及两项关键的技术:一个是MoE,一个就是MLA(多头潜注意力)。

其中,MLA的开发耗时数月,可将每个查询KV缓存量减少93.3%,显著减少了推理过程中的内存占用(在训练过程也是如此)。

MLA架构需要一些巧妙的设计,因此实现的复杂性大大增加。而DeepSeek成功地将这些技术整合在一起,表明他们在高效语言模型训练方面走在了前沿

多头潜注意力(MLA)

KV缓存是Transforme模型中的一种内存机制,用于存储表示对话上下文的数据,从而减少不必要的计算开销。

随着对话上下文的增长,KV缓存会不断扩大,从而造成显著的内存限制。

通过大幅减少每次查询所需的KV缓存量,可以相应减少每次查询所需的硬件资源,从而降低运营成本。

与标准注意力机制相比,MLA将每次查询所需的KV缓存减少了约93.3%。

MLA这种全新多头潜注意力,可以将注意力机制的内存占用减少大约80%到90%,尤其有助于处理长上下文

此外,由于H20芯片比H100具有更高的内存带宽和容量,DeepSeek在推理工作负载方面获得了更多效率提升。

除了MLA,DeepSeek其他突破性进展还有哪些?

训练(前期和后期)

不是「下一个token预测」,而是「多token预测」

DeepSeek V3以前所未见的规模实现了多Token预测(MTP)技术,这些新增的注意力模块可以预测接下来的多个Token,而不是传统的单个Token。

这显著提高了训练阶段的模型性能,且这些模块可以在推理阶段移除。

这是一个典型的算法创新案例,实现了在更低计算资源消耗下的性能提升。

其他方面,虽然DeepSeek在训练中采用了FP8精度,但像全球一些顶尖的实验室已经采用这项技术相当长时间了。

DeepSeek V3采用了我们常见的「混合专家模型」(MoE)架构,个由多个专门处理不同任务的小型专家模型组成的大模型,展现出强大的涌现能力。

MoE模型面临的主要挑战是,如何确定将哪个Token分配给哪个子模型(即「专家」)。

DeepSeek创新性地采用了一个「门控网络」(gating network),能够高效且平衡地将Token路由到相应的专家,同时保持模型性能不受影响。

这意味着路由过程非常高效,在训练过程中每个Token只需要调整小量参数(相较于模型整体规模)。

这既提高了训练效率,又降低了推理成本。

尽管有人担心MoE带来的效率提升,可能降低投资意愿,但Dario指出,更强大的AI模型带来的经济效益非常可观,任何节省的成本都会立即被投入到开发更大规模的模型中。

因此,MoE效率提升不会减少总体投资,反而会加速模型Scaling的进程。

当前,包括OpenAI、谷歌、Anthropic等一些公司正专注于扩大模型的计算规模,并提高算法效率。

V3打好了基础,RL立大功

对于R1而言,它极大地受益于其强大的基础模型——V3,这在很大程度上要归功于强化学习(RL)。

RL主要关注两个方面:格式化(确保输出连贯性)以及有用性与安全性(确保模型实用且无害)。

模型的推理能力,是在对合成数据集进行微调过程中自然涌现的,这与o1的情况类似。

值得注意的是,R1论文中并没有提及具体的计算量,因为披露使用的计算资源,会暴露DeepSeek实际拥有的GPU数量远超过其对外宣称的规模。

这种规模的强化学习需要庞大的计算资源,特别是在生成合成数据时。

谈到蒸馏,R1论文最引人注目的发现可能是,通过具有推理能力的模型输出来微调较小的非推理模型,使其获得推理能力。

数据集包含了约80万个样本,现在研究人员可以利用R1的思维链(CoT)输出创建自己的数据集,并借此开发具有推理能力的模型。

未来,我们可能会看到更多小模型展现出推理能力,从而提升小模型的整体性能。

参考资料:

https://x.com/deepseek_ai/status/1893836827574030466


“DeepSeek开源放大招:FlashMLA让H800算力狂飙!曝光低成本秘笈” 的相关文章

让AI懂湖北知产业助创新 湖北率先完成DeepSeek区域性科技情报领域模型部署

让AI懂湖北知产业助创新 湖北率先完成DeepSeek区域性科技情报领域模型部署

湖北日报讯(记者文俊、通讯员门玉英、丁迪、实习生朱诗果)3月11日,DeepSeek在湖北省科技信息研究院正式上线运行。记者获悉,在省科技厅指导下,该院在全国范围内率先完成基于DeepSeek的区域性...

Deepseek“震动”亚布力:中国首次有机会制定全球AI标准?

Deepseek“震动”亚布力:中国首次有机会制定全球AI标准?

在刚刚过去的周末,“亚布力中国企业家论坛第25届年会”顺利举行。关于Deepseek,新浪财经对话众多企业家、投资人、经济学家以及业内人士。DeepSeek的出现,无疑是人工智能领域的一次重大突破。在...

《数势科技黎科峰博士:Agent接入DeepSeek,将帮助企业打通数据应用最后一公里》

《数势科技黎科峰博士:Agent接入DeepSeek,将帮助企业打通数据应用最后一公里》

近日,数势科技创始人兼 CEO 黎科峰博士出席由知名科技媒体InfoQ 策划的 DeepSeek 系列直播系列节目。在直播中,极客邦科技创始人  &CEO 霍太稳对话黎科峰博士,深入探讨了回归...

广州增城:智慧城管平台融合DeepSeek大模型,探索AI治理新路径

广州增城:智慧城管平台融合DeepSeek大模型,探索AI治理新路径

文/梁怿韬 通讯员 成广聚 冯日金图/通讯员提供在增城区滨江路巡查现场,监督员小胡用手机拍下路面垃圾,系统自动生成案件信息流转处置,整个过程仅需10秒。这一场景折射出增城区智慧城管平台与DeepSee...

全面接入DeepSeek!中国电信股价创新高 运营商力推AI普惠应用收入有望迎增长

全面接入DeepSeek!中国电信股价创新高 运营商力推AI普惠应用收入有望迎增长

财联社2月10日讯(记者 付静)DeepSeek部署适配潮持续,国内三家通信运营商亦相继接入了DeepSeek。8日,工业和信息化部运行监测协调局在2025年春节通信业务相关情况中提到,三家基础电信企...

面对AI,哪些行业更有前景?当我们让DeepSeek来pk专家……

面对AI,哪些行业更有前景?当我们让DeepSeek来pk专家……

惊!浙大二院胸外科主任医师:DeepSeek给出的诊断和我们非常接近!多名科主任发声,56秒出诊断,专家都不如它,很怕被淘汰失业!当DeepSeek火爆全球,当“AI+”辅助实现的工作场景越来越普遍,...