当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈

6个月前 (02-24)Deepseek最新资讯316

【新智元导读】DeepSeek开源周第一天就放大招！FlashMLA强势登场，这是专为英伟达Hopper GPU打造MLA解码内核。注意，DeepSeek训练成本极低的两大关键，一个是MoE，另一个就是MLA。

就在刚刚，DeepSeek放出了开源周首日的重磅炸弹——FlashMLA。

这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核，特别针对变长序列进行了优化，目前已正式投产使用。

经实测，FlashMLA在H800 SXM5平台上（CUDA 12.6），在内存受限配置下可达最高3000GB/s，在计算受限配置下可达峰值580 TFLOPS。

开源地址：https://github.com/deepseek-ai/FlashMLA

当前已经发布的内容为：

对BF16精度的支持

块大小为64的分页KV缓存

团队在致谢部分表示，FlashMLA的设计参考了FlashAttention-2、FlashAttention-3以及CUTLASS的技术实现。

有网友对此表示，「DeepSeek王炸开局，FlashMLA是真正能加速AGI进程的」。

快速入门

首先，需要打开终端，输入下面代码安装setup.py文件：

这是一个基于Python的安装命令，用于编译和安装FlashMLA模块，确保其高效运行于特定硬件。

python setup.py install

基准测试：

这段代码是一个测试脚本，用于验证FlashMLA的功能和性能，并与PyTorch的基准实现进行对比。

python tests/test_flash_mla.py

使用方法：

下面是一段使用的示例代码。

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

for i in range(num_layers): ... o_i, lse_i = flash_mla_with_kvcache( q_i, kvcache_i, block_table, cache_seqlens, dv, tile_scheduler_metadata, num_splits, causal=True, ) ...

DeepSeek训练成本如此之低的两大关键

DeepSeek的成本涉及两项关键的技术：一个是MoE，一个就是MLA（多头潜注意力）。

其中，MLA的开发耗时数月，可将每个查询KV缓存量减少93.3%，显著减少了推理过程中的内存占用（在训练过程也是如此）。

MLA架构需要一些巧妙的设计，因此实现的复杂性大大增加。而DeepSeek成功地将这些技术整合在一起，表明他们在高效语言模型训练方面走在了前沿

多头潜注意力（MLA）

KV缓存是Transforme模型中的一种内存机制，用于存储表示对话上下文的数据，从而减少不必要的计算开销。

随着对话上下文的增长，KV缓存会不断扩大，从而造成显著的内存限制。

通过大幅减少每次查询所需的KV缓存量，可以相应减少每次查询所需的硬件资源，从而降低运营成本。

与标准注意力机制相比，MLA将每次查询所需的KV缓存减少了约93.3%。

MLA这种全新多头潜注意力，可以将注意力机制的内存占用减少大约80%到90%，尤其有助于处理长上下文

此外，由于H20芯片比H100具有更高的内存带宽和容量，DeepSeek在推理工作负载方面获得了更多效率提升。

除了MLA，DeepSeek其他突破性进展还有哪些？

训练（前期和后期）

不是「下一个token预测」，而是「多token预测」

DeepSeek V3以前所未见的规模实现了多Token预测（MTP）技术，这些新增的注意力模块可以预测接下来的多个Token，而不是传统的单个Token。

这显著提高了训练阶段的模型性能，且这些模块可以在推理阶段移除。

这是一个典型的算法创新案例，实现了在更低计算资源消耗下的性能提升。

其他方面，虽然DeepSeek在训练中采用了FP8精度，但像全球一些顶尖的实验室已经采用这项技术相当长时间了。

DeepSeek V3采用了我们常见的「混合专家模型」（MoE）架构，个由多个专门处理不同任务的小型专家模型组成的大模型，展现出强大的涌现能力。

MoE模型面临的主要挑战是，如何确定将哪个Token分配给哪个子模型（即「专家」）。

DeepSeek创新性地采用了一个「门控网络」（gating network），能够高效且平衡地将Token路由到相应的专家，同时保持模型性能不受影响。

这意味着路由过程非常高效，在训练过程中每个Token只需要调整小量参数（相较于模型整体规模）。

这既提高了训练效率，又降低了推理成本。

尽管有人担心MoE带来的效率提升，可能降低投资意愿，但Dario指出，更强大的AI模型带来的经济效益非常可观，任何节省的成本都会立即被投入到开发更大规模的模型中。

因此，MoE效率提升不会减少总体投资，反而会加速模型Scaling的进程。

当前，包括OpenAI、谷歌、Anthropic等一些公司正专注于扩大模型的计算规模，并提高算法效率。

V3打好了基础，RL立大功

对于R1而言，它极大地受益于其强大的基础模型——V3，这在很大程度上要归功于强化学习（RL）。

RL主要关注两个方面：格式化（确保输出连贯性）以及有用性与安全性（确保模型实用且无害）。

模型的推理能力，是在对合成数据集进行微调过程中自然涌现的，这与o1的情况类似。

值得注意的是，R1论文中并没有提及具体的计算量，因为披露使用的计算资源，会暴露DeepSeek实际拥有的GPU数量远超过其对外宣称的规模。

这种规模的强化学习需要庞大的计算资源，特别是在生成合成数据时。

谈到蒸馏，R1论文最引人注目的发现可能是，通过具有推理能力的模型输出来微调较小的非推理模型，使其获得推理能力。

数据集包含了约80万个样本，现在研究人员可以利用R1的思维链（CoT）输出创建自己的数据集，并借此开发具有推理能力的模型。

未来，我们可能会看到更多小模型展现出推理能力，从而提升小模型的整体性能。

参考资料：

https://x.com/deepseek_ai/status/1893836827574030466

标签: DeepSeek 人工智能数据分析大数据应用场景

返回列表

上一篇：深城交：前期已接入DeepSeek并进行深度融合应用

下一篇：兆芯全系列整机形态成功部署 DeepSeek R1 大模型

“DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈” 的相关文章

15家银行集体押注，DeepSeek如何掀起金融AI革命？

银行业加速布局DeepSeek大模型，仍需解决技术幻觉问题。DeepSeek的开源模式和强大推理分析功能，为银行业的应用场景打开了想象空间。当传统银行遇上科技“新宠”DeepSeek，会碰撞出怎样的火...

探索文艺与科技融合！湖北文艺家上了一堂DeepSeek应用课

AI、AGI、GAI、AIGC的概念有什么不同？怎样清晰地给DeepSeek发出指令？美化PPT有哪些好用的软件……3月7日，湖北省文联举办的《DeepSeek等人工智能工具在文艺领域的应用与实践》讲...

鹰潭公司：开展Deepseek应用培训推动AI技术与业务融合

5月21日，鹰潭公司组织召开Deepseek应用培训，鹰潭公司董事长汪斌等参加。培训内容涵盖基础原理、实际应用案例，并特别设置了AI技术实操演练环节，让学员们更加直观地掌握了工具使用技巧。此次培训内容...

青青们快看过来，“青春来宾”携手DeepSeek让你的青春搭子24小时在线！

你的青春小助手来啦！“青春来宾” × DeepSeek亲爱的“青春来宾”粉丝们，重磅消息来啦！从今天开始，团团正式宣布共青团来宾市委员会官方新媒体平台“青春来宾”微信公众号平台正式接入DeepSeek...

提供智慧化服务！中国海洋大学推出DeepSeek版AI助手

齐鲁晚报·齐鲁壹点高雅洁2月23日，中国海洋大学以本地化服务的形式上线“中国海洋大学DeepSeek版AI助手”，实现DeepSeek-R1-671B满血大模型的本地化部署并将开始内测。据了解，“中...

编辑谈DeepSeek丨数智化浪潮中编辑的“智能觉醒”与转型

　　当前，数字洪流与人工智能技术正重构着当代出版业的面貌，出版人也正站在千年出版文明与智能革命的交汇点上。山东出版（601019）集团提出的“数智五化”战略，正如一把打开未来之门的钥匙，在内容生产及形...

DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈

“DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈” 的相关文章

15家银行集体押注，DeepSeek如何掀起金融AI革命？

探索文艺与科技融合！湖北文艺家上了一堂DeepSeek应用课

鹰潭公司：开展Deepseek应用培训推动AI技术与业务融合

青青们快看过来，“青春来宾”携手DeepSeek让你的青春搭子24小时在线！

提供智慧化服务！中国海洋大学推出DeepSeek版AI助手

编辑谈DeepSeek丨数智化浪潮中编辑的“智能觉醒”与转型

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.

DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈

“DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈” 的相关文章

15家银行集体押注，DeepSeek如何掀起金融AI革命？

探索文艺与科技融合！湖北文艺家上了一堂DeepSeek应用课

鹰潭公司：开展Deepseek应用培训 推动AI技术与业务融合

青青们快看过来，“青春来宾”携手DeepSeek让你的青春搭子24小时在线！

提供智慧化服务！中国海洋大学推出DeepSeek版AI助手

编辑谈DeepSeek丨数智化浪潮中编辑的“智能觉醒”与转型

Powered By Z-BlogPHP. Theme by TOYEAN.

鹰潭公司：开展Deepseek应用培训推动AI技术与业务融合