新闻资讯
热点资讯
- 开yun体育网“你看起来依然很有魔力”-开yun云体育入口(官方)网站/网页版登录入口/手机版最新下载
- 开云体育有些东谈主对蛇可能有少许儿感情终止-开yun云体育入口(官方)网站/网页版登录入口/手机版最新下载
- 开yun体育网并为真是脆弱的东说念主群提供有针对性的救济-开yun云体育入口(官方)网站/网页版登录入口/手机版最新下载
- 开云体育”主要负责文旅短剧的诸女士说-开yun云体育入口(官方)网站/网页版登录入口/手机版最新下载
- 世界杯体育得志业主从三口之家到长辈茕居的全人命周期需求-开yun云体育入口(官方)网站/网页版登录入口/手机版最新下载
- 开yun体育网如打喷嚏、流鼻涕、皮肤瘙痒等-开yun云体育入口(官方)网站/网页版登录入口/手机版最新下载
- 世界杯体育该债券拟刊行金额为5亿元-开yun云体育入口(官方)网站/网页版登录入口/手机版最新下载
- 体育游戏app平台以下是希悦的管制即时决策-开yun云体育入口(官方)网站/网页版登录入口/手机版最新下载
- 开云体育(中国)官方网站像片曝光后网友一派失望之声-开yun云体育入口(官方)网站/网页版登录入口/手机版最新下载
- 世界杯体育大学保洁大姨的休息室 -开yun云体育入口(官方)网站/网页版登录入口/手机版最新下载
- 发布日期:2026-04-18 13:22 点击次数:134

新智元报谈 世界杯体育
剪辑:好困 犀牛
【新智元导读】最近,开源了首个在Blackwell架构上优化的DeepSeek-R1,终清澈推理速率普及25倍,和每token资本裁汰20倍的惊东谈主效用。同期,DeepSeek勾通开源多个英伟达GPU优假名目,共同探索模子性能极限。
当FP4的魔法与Blackwell的精深算力相遇,会碰撞出若何的火花?
谜底是:推感性能暴涨25倍,资本狂降20倍!
跟着DeepSeek-R1土产货化部署的爆火,英伟达也躬行下场,开源了首个基于Blackwell架构的优化决议——DeepSeek-R1-FP4。

在新模子的加抓下,B200终澄炫夸达21,088 token每秒的的推理糊涂量,比较于H100的844 token每秒,普及了25倍。
与此同期,每token的资本也终清澈20倍的裁汰。
通过在Blackwell架构上应用TensorRT DeepSeek优化,英伟达让具有FP4分娩级精度的模子,在MMLU通用智能基准测试中达到了FP8模子性能的99.8%。

DeepSeek-R1初次基于Blackwell GPU优化
现在,英伟达基于FP4优化的DeepSeek-R1查抄点现已在Hugging Face上开源。
模子地址:https://huggingface.co/nvidia/DeepSeek-R1-FP4
后训练量化
模子将Transformer模块内的线性算子的权重和激活量化到了FP4,适用于TensorRT-LLM推理。
这种优化将每个参数从8位减少到4位,从而让磁盘空间和GPU显存的需求减少了约1.6倍。
使用TensorRT-LLM部署
要使用TensorRT-LLM LLM API部署量化后的FP4权重文献,并为给定的提醒生成文本反馈,请参照以下示例代码:
硬件条件:需要接济TensorRT-LLM的英伟达GPU(如B200),何况需要8个GPU来终了tensor_parallel_size=8的张量并行。
性能优化:代码欺诈FP4量化、TensorRT引擎和并行贪图,旨在终了高效、低资本的推理,适当分娩环境或高糊涂量应用。
from tensorrt_llm import SamplingParams\nfrom tensorrt_llm._torch import LLM\n\ndef main():\n\nprompts = [\n\"Hello, my name is\",\n\"The president of the United States is\",\n\"The capital of France is\",\n\"The future of AI is\",\n]\nsampling_params = SamplingParams(max_tokens=32)\n\nllm = LLM(model=\"nvidia/DeepSeek-R1-FP4\", tensor_parallel_size=8, enable_attention_dp=True)\n\noutputs = llm.generate(prompts, sampling_params)\n\n# Print the outputs.\nfor output in outputs:\nprompt = output.prompt\ngenerated_text = output.outputs[0].text\nprint(f\"Prompt: {prompt!r}, Generated text: {generated_text!r}\")\n\n\n# The entry point of the program need to be protected for spawning processes.\nif __name__ == '__main__':\nmain()关于这次优化的效用,网友示意惊羡。
「FP4魔法让AI改日依然热烈!」网友Isha批驳谈。

网友algorusty则宣称,有了这次的优化后,好意思国供应商大致以每百万token 0.25好意思元的价钱提供R1。
「还会有益润。」

网友Phil则将这次的优化与DeepSeek本周的开源5连发结合了起来。
「这展示了硬件和开源模子结合的可能性。」他示意。

DeepSeek全面开源
如今DeepSeek抓续5天的「开源周」也曾进行到了第3天。
周一,他们开源了FlashMLA。这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,至极针对变长序列进行了优化,现在已负责投产使用。
周二开源了DeepEP,这是一个专为夹杂民众系统(MoE)和民众并行(EP)联想的通讯库。
周三开源的是DeepGEMM。这是一个接济稠密和MoE模子的FP8 GEMM(通用矩阵乘法)贪图库,可为V3/R1的训练和推理提供精深接济。
总的来说,非论是英伟达开源的DeepSeek-R1-FP4,如故DeepSeek开源的三个仓库,皆是通过对英伟达GPU和集群的优化,来鼓励AI模子的高效贪图和部署。
参考贵寓:
https://x.com/NVIDIAAIDev/status/1894172956726890623
