摩尔线程 MTT S5000

1. 产品概述：MTT S5000

MTT S5000 是一款面向生成式 AI 时代，专为大模型训练、推理及高性能计算而生的全功能 GPU 智算卡。凭借先进的"平湖"架构，提供从 FP8 到 FP64 的全精度算力支持。MTT S5000 依托第四代 MUSA 全栈平台打破生态壁垒，原生适配 PyTorch、Megatron-LM、vLLM 及 SGLang 等主流框架，让用户能够以"零成本"完成代码迁移。无论是构建万卡级超大规模训练集群，还是部署高并发、低延迟的在线推理服务，MTT S5000 均展现出对标国际主流旗舰产品的卓越性能与稳定性，为您构建坚实、易用的国产算力底座。

平湖架构

平湖架构是摩尔线程专为人工智能与高性能计算开发的第四代 MUSA 架构，为旗舰智算卡 MTT S5000 的高性能训推提供核心支撑。

集成多项创新技术，针对大模型和 Transformer 架构深度优化。
以计算-访存-通信深度协同为核心设计理念，搭载 TCE、TME、ACE 三大自主研发引擎，助力 MTT S5000 实现端到端性能优化，突破传统架构瓶颈
依托第二代 MTLink 互联技术和 MUSA软件栈，平湖架构可实现从单卡到万卡集群的线性扩展，为千亿至万亿参数大模型训练、推理提供高效强大的算力支撑。

架构特点

引擎	名称	核心能力	关键指标
TCE	张量计算引擎	原生 FP8 支持，GEMM/CONV 五维张量计算	MMA 提升 5×；FP8 累加尾数 24bit（行业 14bit）；FP8 训练性能 +30%
TME	张量访存引擎	全局-本地内存大块张量高效传输，原生数据布局转换	消除 GEMM/Attention/Conv 数据搬移瓶颈
ATB	异步事务屏障	计算-访存-通信流水化并行，硬件级依赖解决	Flash Attention 利用率 ≥95%
ACE	异步通信引擎	独立通信卸载，不占用计算资源	MoE 训练 MFU +5%+
MTLink	第二代互联技术	Scale Up 协议，8 卡全连接拓扑	带宽提升 7×；AllReduce 达国内平均 1.62×
Memory	增强内存子系统	高容量 LLC + 原子操作 + 细粒度一致性控制	60MB LLC

2. 算力规格与精度支持

算力规格

AI 算力 (Dense 稠密)：1000 TFlops
显存容量：80 GB
显存带宽：1.6 TB/s
卡间互联 MTlink (8 卡全互联)：784 GB/s

支持的计算精度

MTT S5000 提供从 FP8 到 FP64 的全精度算力支持：

精度类型	适用场景
FP8	大模型训练/推理加速，新一代混合精度格式，显存占用更低，主流 LLM 训练可带来约 30% 性能提升
FP16	高性能推理首选，精度与速度的最佳平衡
BF16	大模型推理主流格式，无需转换即可运行
INT8	极致性能量化推理
FP32	基础精度，用于验证或对精度要求极高的场景
FP64	科学计算、数值模拟、金融建模等高精度计算场景

3. 核心软件生态：MUSA

MUSA 是摩尔线程推出的通用并行计算平台和编程模型，为开发者提供 GPU 编程的简易接口，配套 MUSA Toolkits 工具箱（含 GPU 加速库、运行时库、编译器、调试优化工具等）。

Torch MUSA — PyTorch 原生适配

Torch MUSA 是基于 PyTorch 的官方扩展包，以插件形式支持摩尔线程 GPU，最大程度与 PyTorch 代码解耦。

特性	说明
API 兼容	Python 前端接口与 PyTorch CUDA 接口基本一致，学习成本极低
CUDA 兼容模块	内置 CUDA Porting，社区 CUDA Kernels 经自动移植即可运行
混合精度 AMP	原生支持 `torch.musa.amp.autocast` / `GradScaler`
分布式训练	支持 `DistributedDataParallel (DDP)` + MCCL 后端
性能分析	适配 `torch.profiler`，支持单机单卡/单机多卡/多机多卡
TensorCore 加速	支持 TF32 模式与 NHWC layout 优化

方案：CUDA 代码一键迁移

为了降低迁移门槛，摩尔线程提供了 torch_musa 库，支持通过简单的代码注入实现零成本一键迁移。

提示

迁移步骤： 在您的 PyTorch 代码最前端添加 import torch_musa 即可。

代码示例：

import torch
import torch_musa

print(f"Device available status: {torch.cuda.is_available()}")

a_tensor = torch.ones(3, 3).cuda()
b_tensor = torch.ones(size=(3, 1), device="cuda")
add_out = torch.add(a_tensor, b_tensor)
print(add_out)

4. AI 开发库：版本管理与避坑指南

为了发挥 MTT S5000 的最佳性能，PyTorch、vLLM 等主流 AI 框架均需要使用摩尔线程官方适配版。

严禁随意更新核心库

在使用过程中，请极度小心 pip install 或 pip upgrade 操作。

风险：执行标准的 pip install torch 会从 PyPI 拉取社区公版，这将覆盖掉环境内预装的适配版（带 musa 后缀），直接导致无法调用 GPU，程序运行失败。

识别适配版本

摩尔线程适配的 Python 库版本号中通常包含 musa 标识。你可以通过以下命令检查当前环境状态：

pip list | grep -e musa

正常输出示例：

apache-tvm-ffi                           0.1.8.post2+musa
torch_musa                               2.7.1
vllm                                     0.16.1rc1.dev187+g9c11d3b5d.musa

最佳实践：

优先使用官方镜像：如果您需要特定的 AI 库，请优先查找是否提供了包含该库的摩尔线程官方镜像。
检查是否存在：在安装新库前，先检查该库是否已存在 musa 版本。
获取正确源：如确需更新，请访问摩尔线程官方软件中心获取正确的 whl 安装包或安装源。

5. 模型部署建议

模型支持列表

模型	厂商	类型	推理框架	备注
GLM-5	智谱 AI	LLM（Coding）	SGLang / vLLM	Day-0 适配，原生 FP8 加速
Qwen3.5	阿里云	LLM	vLLM / SGLang	全流程验证通过
DeepSeek-V3/R1	DeepSeek	LLM / MoE	vLLM	MoE 训练 MFU +5%
Kimi K2.5	月之暗面	LLM	vLLM / SGLang	已适配
MiniMax M2.5	MiniMax	LLM	vLLM	已适配
RoboBrain 2.5	北智院	多模态具身智能	Megatron-LM	万卡集群训练，loss 差异仅 0.62%
YOLOv5	Ultralytics	CV 目标检测	Torch MUSA	官方迁移示例
ResNet50	torchvision	CV 分类	Torch MUSA	快速入门标准示例

6. 监控工具：mthreads-gmi 使用简明手册

mthreads-gmi是摩尔线程 GPU 监控管理工具。

常用命令速查

场景	命令
GPU 概览	`mthreads-gmi`
详细信息	`mthreads-gmi -q`
实时监控（每秒刷新）	`mthreads-gmi -q -l 1`
进程列表	`mthreads-gmi -pm`
拓扑矩阵	`mthreads-gmi topo -m`
MTLink 链路状态	`mthreads-gmi mtlink -s`
版本号	`mthreads-gmi -v`

高级查询选项

查询类别 (-d)： MEMORY / UTILIZATION / TEMPERATURE / POWER / CLOCK / FAN / ECC / PERFORMANCE / THERMAL_SLOWDOWN_STATS

# 组合查询 + JSON 输出
mthreads-gmi -q -d MEMORY,UTILIZATION,POWER,TEMPERATURE --json

# 日志记录 + 定时刷新
mthreads-gmi -q -f gpu.log -l 5

# 毫秒级指标监控（字段：Temp/Power/Freq/SlowdownCnt）
mthreads-gmi -mm "GpuId,Temp,Power" -l 1000

7. 平台与官方资源导航

摩尔线程官方技术资料

摩尔线程开发者中心: 提供驱动下载、安装指南、故障排查手册及全栈开发文档。

1. 产品概述：MTT S5000​

平湖架构​

架构特点​

2. 算力规格与精度支持​

算力规格​

支持的计算精度​

3. 核心软件生态：MUSA​

Torch MUSA — PyTorch 原生适配​

方案：CUDA 代码一键迁移​

4. AI 开发库：版本管理与避坑指南​

严禁随意更新核心库​

识别适配版本​

5. 模型部署建议​

模型支持列表​

6. 监控工具：mthreads-gmi 使用简明手册​

常用命令速查​

高级查询选项​

7. 平台与官方资源导航​

摩尔线程官方技术资料​