跳到主要内容
feedback
feedback

摩尔线程 MTT S5000

1. 产品概述:MTT S5000

MTT S5000 是一款面向生成式 AI 时代,专为大模型训练、推理及高性能计算而生的全功能 GPU 智算卡。凭借先进的"平湖"架构,提供从 FP8 到 FP64 的全精度算力支持。MTT S5000 依托第四代 MUSA 全栈平台打破生态壁垒,原生适配 PyTorch、Megatron-LM、vLLM 及 SGLang 等主流框架,让用户能够以"零成本"完成代码迁移。无论是构建万卡级超大规模训练集群,还是部署高并发、低延迟的在线推理服务,MTT S5000 均展现出对标国际主流旗舰产品的卓越性能与稳定性,为您构建坚实、易用的国产算力底座。

平湖架构

平湖架构是摩尔线程专为人工智能与高性能计算开发的第四代 MUSA 架构,为旗舰智算卡 MTT S5000 的高性能训推提供核心支撑。

  • 集成多项创新技术,针对大模型和 Transformer 架构深度优化。
  • 以计算-访存-通信深度协同为核心设计理念,搭载 TCE、TME、ACE 三大自主研发引擎,助力 MTT S5000 实现端到端性能优化,突破传统架构瓶颈
  • 依托第二代 MTLink 互联技术和 MUSA软件栈,平湖架构可实现从单卡到万卡集群的线性扩展,为千亿至万亿参数大模型训练、推理提供高效强大的算力支撑。

架构特点

引擎名称核心能力关键指标
TCE张量计算引擎原生 FP8 支持,GEMM/CONV 五维张量计算MMA 提升 5×;FP8 累加尾数 24bit(行业 14bit);FP8 训练性能 +30%
TME张量访存引擎全局-本地内存大块张量高效传输,原生数据布局转换消除 GEMM/Attention/Conv 数据搬移瓶颈
ATB异步事务屏障计算-访存-通信流水化并行,硬件级依赖解决Flash Attention 利用率 ≥95%
ACE异步通信引擎独立通信卸载,不占用计算资源MoE 训练 MFU +5%+
MTLink第二代互联技术Scale Up 协议,8 卡全连接拓扑带宽提升 7×;AllReduce 达国内平均 1.62×
Memory增强内存子系统高容量 LLC + 原子操作 + 细粒度一致性控制60MB LLC

2. 算力规格与精度支持

算力规格

  • AI 算力 (Dense 稠密):1000 TFlops
  • 显存容量:80 GB
  • 显存带宽:1.6 TB/s
  • 卡间互联 MTlink (8 卡全互联):784 GB/s

支持的计算精度

MTT S5000 提供从 FP8 到 FP64 的全精度算力支持:

精度类型适用场景
FP8大模型训练/推理加速,新一代混合精度格式,显存占用更低,主流 LLM 训练可带来约 30% 性能提升
FP16高性能推理首选,精度与速度的最佳平衡
BF16大模型推理主流格式,无需转换即可运行
INT8极致性能量化推理
FP32基础精度,用于验证或对精度要求极高的场景
FP64科学计算、数值模拟、金融建模等高精度计算场景

3. 核心软件生态:MUSA

MUSA 是摩尔线程推出的通用并行计算平台和编程模型,为开发者提供 GPU 编程的简易接口,配套 MUSA Toolkits 工具箱(含 GPU 加速库、运行时库、编译器、调试优化工具等)。

Torch MUSA — PyTorch 原生适配

Torch MUSA 是基于 PyTorch 的官方扩展包,以插件形式支持摩尔线程 GPU,最大程度与 PyTorch 代码解耦。

特性说明
API 兼容Python 前端接口与 PyTorch CUDA 接口基本一致,学习成本极低
CUDA 兼容模块内置 CUDA Porting,社区 CUDA Kernels 经自动移植即可运行
混合精度 AMP原生支持 torch.musa.amp.autocast / GradScaler
分布式训练支持 DistributedDataParallel (DDP) + MCCL 后端
性能分析适配 torch.profiler,支持单机单卡/单机多卡/多机多卡
TensorCore 加速支持 TF32 模式与 NHWC layout 优化

方案:CUDA 代码一键迁移

为了降低迁移门槛,摩尔线程提供了 torch_musa 库,支持通过简单的代码注入实现零成本一键迁移

提示

迁移步骤: 在您的 PyTorch 代码最前端 添加 import torch_musa 即可。

代码示例:

import torch
import torch_musa

print(f"Device available status: {torch.cuda.is_available()}")

a_tensor = torch.ones(3, 3).cuda()
b_tensor = torch.ones(size=(3, 1), device="cuda")
add_out = torch.add(a_tensor, b_tensor)
print(add_out)

4. AI 开发库:版本管理与避坑指南

为了发挥 MTT S5000 的最佳性能,PyTorch、vLLM 等主流 AI 框架均需要使用摩尔线程官方适配版

严禁随意更新核心库

在使用过程中,请极度小心 pip installpip upgrade 操作。

  • 风险:执行标准的 pip install torch 会从 PyPI 拉取社区公版,这将覆盖掉环境内预装的适配版(带 musa 后缀),直接导致无法调用 GPU,程序运行失败。

识别适配版本

摩尔线程适配的 Python 库版本号中通常包含 musa 标识。你可以通过以下命令检查当前环境状态:

pip list | grep -e musa

正常输出示例:

apache-tvm-ffi                           0.1.8.post2+musa
torch_musa 2.7.1
vllm 0.16.1rc1.dev187+g9c11d3b5d.musa

最佳实践:

  1. 优先使用官方镜像:如果您需要特定的 AI 库,请优先查找是否提供了包含该库的摩尔线程官方镜像。
  2. 检查是否存在:在安装新库前,先检查该库是否已存在 musa 版本。
  3. 获取正确源:如确需更新,请访问摩尔线程官方软件中心获取正确的 whl 安装包或安装源。

5. 模型部署建议

模型支持列表

模型厂商类型推理框架备注
GLM-5智谱 AILLM(Coding)SGLang / vLLMDay-0 适配,原生 FP8 加速
Qwen3.5阿里云LLMvLLM / SGLang全流程验证通过
DeepSeek-V3/R1DeepSeekLLM / MoEvLLMMoE 训练 MFU +5%
Kimi K2.5月之暗面LLMvLLM / SGLang已适配
MiniMax M2.5MiniMaxLLMvLLM已适配
RoboBrain 2.5北智院多模态具身智能Megatron-LM万卡集群训练,loss 差异仅 0.62%
YOLOv5UltralyticsCV 目标检测Torch MUSA官方迁移示例
ResNet50torchvisionCV 分类Torch MUSA快速入门标准示例

6. 监控工具:mthreads-gmi 使用简明手册

mthreads-gmi是摩尔线程 GPU 监控管理工具。

常用命令速查

场景命令
GPU 概览mthreads-gmi
详细信息mthreads-gmi -q
实时监控(每秒刷新)mthreads-gmi -q -l 1
进程列表mthreads-gmi -pm
拓扑矩阵mthreads-gmi topo -m
MTLink 链路状态mthreads-gmi mtlink -s
版本号mthreads-gmi -v

高级查询选项

查询类别 (-d): MEMORY / UTILIZATION / TEMPERATURE / POWER / CLOCK / FAN / ECC / PERFORMANCE / THERMAL_SLOWDOWN_STATS

# 组合查询 + JSON 输出
mthreads-gmi -q -d MEMORY,UTILIZATION,POWER,TEMPERATURE --json

# 日志记录 + 定时刷新
mthreads-gmi -q -f gpu.log -l 5

# 毫秒级指标监控(字段:Temp/Power/Freq/SlowdownCnt)
mthreads-gmi -mm "GpuId,Temp,Power" -l 1000


7. 平台与官方资源导航

摩尔线程官方技术资料