每秒110万个token！微软MSFT.US和英伟达NVDA.US联手刷

2026-02-12 15:56 发布者：樊华 来源：证券之星 阅读量：13470

联手刷新AI推理纪录) 智通财经APP获悉，微软宣布，其AzureNDGB300v6虚拟机在Meta的Llama270B模型上实现了每秒推理速度达110万token的行业新纪录。据悉，AzureNDGB300虚拟机采用英伟达(NVDA.U...

联手刷新AI推理纪录)

智通财经APP获悉，微软宣布，其Azure ND GB300v6虚拟机在Meta的Llama270B模型上实现了每秒推理速度达110万token的行业新纪录。据悉，Azure ND GB300虚拟机采用英伟达(NVDA.US)的Blackwell Ultra GPU，具体为NVIDIA GB300NVL72系统，配置72个NVIDIA Blackwell Ultra GPU和36个NVIDIA Grace CPU，采用单机架构设计。这款虚拟机专为推理工作负载优化，具有50%的GPU内存提升和16%的热设计功率(TDP)提高。

微软首席执行官萨提亚?纳德拉在社交媒体上表示:“这一成就是我们与英伟达长期合作和在生产规模运行人工智能方面专业知识的结晶。”

资料显示，为了验证性能提升，微软在一个NVIDIA GB300NVL72域下的18台ND GB300v6虚拟机上运行了Llama270B模型，使用NVIDIA TensorRT-LLM作为推理引擎。微软表示:“一个NVL72机架的Azure ND GB300v6实现了总计110万个token/秒的推理速度。” 这一新记录超越了微软之前在NVIDIA GB200NVL72机架上实现的86.5万个token/秒的成绩。

对此，Signal65的实验室副总裁拉斯?费洛斯指出:“这一里程碑不仅突破了每秒百万token的障碍，还在一个能够满足现代企业动态使用和数据治理需求的平台上实现。” 他补充称，Azure ND GB300相较于上一代NVIDIA GB200在推理性能上提升了27%，而仅增加了17%的功率规格。

免责声明：该文章系本站转载，旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议，仅供读者参考。

猜你喜欢

资讯

万和电气2024年三季报发布：研

近日，广东万和新电气股份有限公司（以下简称“万和电气”）发布了2024年第三季度财报。根据...

不只每年150亿美元，谷歌为Sa

感谢IT之家网友华南吴彦祖的线索投递！，根据国外科技媒体TheRegister披露的最新细...

男子腰缠155片CPU入境被海关

2月12日10时许，该关关员在港珠澳大桥珠海公路口岸进境客车通道巡查时，发现一辆粤澳跨境客...

GitHub推Copilot企业

原文标题:《GitHub急推Copilot“PLUS版”，按人头收费每人每月130元，已有...