猫眼电影
猫眼电影记者 蹇晓卫 报道w3u7903ejky2ywls
近日,摩尔线程正式发布Torch-MUSA v2.0.0版本,这是其面向PyTorch深度学习框架的MUSA扩展库的重要升级。新版本基于MUSA Compute Capability 3.1计算架构,支持原生FP8数据类型,支持PyTorch 2.5.0,并通过多项针对MUSA计算平台的性能优化,进一步提升了对AI模型和大规模数据处理的支持能力。
FP8原生支持,国产GPU的技术突破
作为本次升级的核心亮点,Torch-MUSA v2.0.0率先在国产GPU上实现了对FP8数据类型的完整支持。FP8是当前AI计算的一种前沿低精度格式,在支持原生FP8的GPU上,大语言模型(LLM)训练采用FP8混合精度可大幅提高GPU算力,显著降低显存占用。摩尔线程基于新一代 MUSA Compute Capability 3.1 计算架构的全功能 GPU 原生支持 FP8 计算,这为 Torch-MUSA v2.0.0 实现 FP8 矩阵乘法和分布式通信优化提供了坚实的基础。依托这一底层架构优势,Torch-MUSA v2.0.0 能够充分发挥 FP8 的计算效能,显著提升大语言模型训练和推理的效率。
三大关键优化,提升AI计算效率
Torch-MUSA v2.0.0在MUSA计算平台引入多项创新功能,进一步提升深度学习任务的执行效率:
▼ 新增虚拟内存管理支持:
MUSA虚拟内存管理技术能够有效缓解GPU内存碎片化问题,降低模型训练过程中的峰值内存占用,特别适用于FSDP、DeepSpeed和Megatron-LM等主流大模型训练框架。
▼ 新增MUSA Graph支持:
MUSA Graph技术将多个MUSA内核整合到一个图中,通过单次CPU调度大幅减少启动开销,提升计算效率,同时与CUDA Graph接口高效兼容。
▼ torch.compile增加Triton后端支持:
为torch.compile提供了Triton-MUSA后端支持,开发者可以直接使用PyTorch原生接口,获得更高效的性能表现。
支持PyTorch 2.5.0,生态兼容性更强
Torch-MUSA v2.0.0在完整支持PyTorch 2.2.0的基础上,新增了对PyTorch 2.5.0的支持,使开发者能够在基于MUSA Compute Capability 3.1计算架构的全功能GPU上,无缝运行新版本的PyTorch,享受更高效的AI计算体验。
Torch-MUSA已完全开源,开发者可通过访问GitHub获取源代码。摩尔线程鼓励开发者积极参与该项目的开发与改进,通过提交问题报告(issue)或代码修改申请(pull request)等方式,共同推动Torch-MUSA以及MUSA软件生态的持续进步与创新。
▼ Torch-MUSA开源地址:
https://github.com/MooreThreads/torch_musa
▼ 功能特性:
在Torch-MUSA中,用户只需指定torch.device("musa"),即可轻松将现有的PyTorch模型迁移到MUSA架构的GPU上运行,无需大幅修改代码。Torch-MUSA完全兼容PyTorch的自动微分和动态图机制,支持多种常用的神经网络模块及优化算法,并加速了关键深度学习算子的计算。此外,Torch-MUSA还支持多种PyTorch特性,包括DDP、JIT、FSDP、Profiler、Extension等。
▼ 版本迭代:
MUSA Graph技术将多个MUSA内核整合到一个图中,通过单次CPU调度大幅减少启动开销,提升计算效率,同时与CUDA Graph接口高效兼容。
v1.1.0:初次发布,支持PyTorch 2.0,提供基础张量操作和常见神经网络层的MUSA加速。
v1.2.0:进一步扩展算子支持,支持了完整功能的Profiler、MUSA Extension,并增加了Torch-MUSA专有特性如compare_tool、musa_converter,帮助用户更快的定位模型精度问题。
v1.3.0:支持PyTorch 2.2.0,性能进一步提升,支持FSDP,支持更复杂的模型和更大规模的数据处理。
v2.0.0:在MUSA Compute Capability 3.1计算架构上,原生支持FP8数据类型,支持PyTorch 2.5.0,新增MUSA虚拟内存管理技术优化大模型训练内存效率,通过集成Triton-MUSA后端显著提升torch.compile编译效率,支持MUSA Graph技术。
▼ 未来计划:
Torch-MUSA将继续跟进PyTorch的版本更新,计划支持更高版本的PyTorch。摩尔线程期待与广大开发者和研究人员共同完善Torch-MUSA的功能,持续优化性能,为基于MUSA架构的国产全功能GPU构建更强大的深度学习生态。
时事1:魈被钟离摸尿了
05月15日,(财经天下)日韩股市罕见暴跌,对A股有何影响?,
六、在我们的日常生活中,当发现有人落水时,不能冒然下水营救,应立即大声呼救,同时将救生圈、竹竿、木板等物抛给溺水者,再将其拖至岸边。
,龙卷被❌到爽🔞奶头。05月15日,【小新的Vlog】小新变身“延吉公主”感受活力之城的“潮文化”,
消防安全国旗下精彩 篇24
,涩涩视频免费观看,美女免费视频,美女被🈲脱脱内内㊙️免费直播。时事2:性欧美❌❌潮喷第一次
05月15日,公益医疗守护先心患儿 共铸中国心传递大爱,
1、不玩火。不随意焚烧废纸等。
,军训教官解开裤裆吃我j男男视频,杨幂又大又粗又紧又爽,同性男同yaoi❤♂动漫软件。05月15日,台湾大学生“大厂”实习谁最卷?“首来族”被机器人送餐“惊到”!,
“大黑……”小清风快速扑了过去,充满了喜悦。
,邪恶道全彩※ACG邪恶色哟哟,порнолера👄hd,日本❌裸体❌巨乳。时事3:王乙进城一大早王乙就起来等汽车
05月15日,工信部:创新信息通信行业管理 优化营商环境,
同上一堂国家安全教育课个人 篇13
,ciese熟女老女人hd视频,汤芳《丝》经典图片,成人版巜劳伦的性放荡ID。05月15日,瑞典专家:二十届三中全会为全球发展注入动力,
冬季体育锻炼,接受阳光的照射。阳光中的紫外线不但能杀死人体皮肤、衣服上的病毒和病菌。还能帮助身体吸收钙、磷,有助于骨骼的生长发育。
,女人屁股,💚奇优影院 ️,欧美性猛交ⅩXX乱大交03。时事4:动漫🔞巨乳游戏
05月15日,南京至马鞍山城际铁路(马鞍山段)姑溪河特大桥顺利合龙,
创新工场的主要预期分为三部分:从人才培养的角度,我们希望看到越来越多的青年在我们的帮助下实现梦想、创造奇迹;从公司商业运作的角度,希望每年能够孵化出3-5个成熟的公司,看到他们一天天的成长;从投资者的角度,我们希望在几年之后就能够有对投资者有优厚的回报。
,qq免费看片➕V群,国产做受❌❌❌入口,50岁岳伦和岳伦最后怎么了。05月15日,阿富汗两省省会发生爆炸,
石飞蛟也提着滴血的大剑走来,道:“好男儿生活在大荒中,怎能不杀生,你虽然还小,但是实力比我们都强大,可如果始终不杀人早晚会吃大亏。”
,国产91❤️在线观看,虐妻刑房调教刑奴h,摸进她的内裤里全都是液体。责编:周和平
审核:张志南
责编:赛尔