海光 BW1000

1. 产品概述：BW1000

BW1000 是一款面向生成式 AI 时代，专为大规模人工智能训练、推理及高性能科学计算而生的高端通用 GPU。凭借先进的"深算"架构，提供从 FP16 到 FP64 的全面算力支持。BW1000 依托海光 HIP 全栈软件平台打破生态壁垒，原生适配 PyTorch、TensorFlow 及 PaddlePaddle 等主流框架，让用户能够以极低成本完成代码迁移。无论是构建千卡级超大规模训练集群，还是部署高精度科学仿真服务，BW1000 均展现出卓越性能与稳定性，为您构建坚实、易用的国产算力底座。

2. 算力规格与精度支持

算力规格

显存容量：64 GB HBM2e
显存带宽：1.6 TB/s
典型功耗：约 300W

重要限制：不支持 FP8

不支持精度：FP8。
影响：当前 BW1000 硬件架构及软件栈无法直接运行 FP8 量化的模型。如果强行加载 Hugging Face 上最新的 FP8 版本模型，将会报错。

支持的计算精度

BW1000 提供从 FP16 到 FP64 的全精度算力支持：

精度类型	性能指标	适用场景
FP16	480 TFlops	大模型训练/推理加速，兼顾性能与精度，在主流 LLM 训练中性能接近 A100
BF16	-	大模型推理主流格式，防止梯度下溢，适合深度学习训练场景
FP32	60 TFlops	基础精度，用于模型验证、传统机器学习或对精度要求较高的场景
FP64	30 TFlops	科学计算、CAE 仿真、气象模拟、流体力学等极致高精度计算场景（业界顶尖水平）

3. 核心软件生态：HIP

HIP 是海光推出的全栈软件开发平台，旨在提供与国际主流生态（如 CUDA/ROCm）高度兼容的开发环境。配套工具箱含加速库、运行时库、编译器、调试优化工具等。

PyTorch 原生适配

特性	说明
API 兼容	Python 前端接口与 PyTorch CUDA 接口基本一致，学习成本极低
ROCm 兼容	采用“类 CUDA”路线，兼容 ROCm 源代码级别，社区 Kernels 轻松移植
混合精度 AMP	原生支持 `torch.autocast` / `GradScaler`
分布式训练	支持 `DistributedDataParallel (DDP)` + HCCL 后端
性能分析	适配原生 `torch.profiler` 及海光专用性能调优工具

方案：CUDA 代码平滑迁移

为了降低迁移门槛，海光 HIP 提供了代码转换工具，支持通过简单的转换脚本实现低成本一键迁移。

提示

迁移步骤： 对于绝大多数基于 PyTorch 的模型代码，无需进行任何代码修改，直接在海光 DTK 环境中运行即可。底层框架会自动将 .cuda() 等方法重定向至海光 DCU 设备。

代码示例：

import torch

print(f"Device available status: {torch.cuda.is_available()}")

# 海光 PyTorch 兼容 CUDA 语义，底层自动映射至 DCU
matrix_a = torch.randn(4, 8).cuda()
matrix_b = torch.randn(8, 2, device="cuda")
gemm_result = torch.matmul(matrix_a, matrix_b)
print("GEMM Shape:", gemm_result.shape)
print(gemm_result)

4. AI 开发库：版本管理与避坑指南

为了发挥 BW1000 的最佳性能，PyTorch、vLLM 等主流 AI 框架均需要使用海光官方适配版。

严禁随意更新核心库

在使用过程中，请极度小心 pip install 或 pip upgrade 操作。

风险：执行标准的 pip install torch 会从 PyPI 拉取社区公版，这将覆盖掉环境内预装的适配版（带 dtk 后缀），直接导致无法调用 DCU，程序运行失败。

识别适配版本

海光适配的版本号中通常包含 dtk 标识。你可以通过以下命令检查当前环境状态：

pip list | grep -e dtk

正常输出示例：

apex                                     1.4.0+das.opt1.dtk25041
deepspeed                                0.14.2+das.opt1.dtk25041
dgl                                      2.2.1+das.opt1.dtk25041
dropout_layer_norm                       2.6.1+das.opt1.dtk25041
flash_attn                               2.6.1+das.opt1.dtk25041
flash_mla                                1.0.0+das.opt1.dtk25041
fused_dense_lib                          2.6.1+das.opt1.dtk25041
grouped-gemm                             0.5.0+das.dtk2504
grouped-gemm-int4                        0.5.0+das.dtk2504
lightop                                  0.5.0+das.dtk25041
lmslim                                   0.3.0+das.dtk25041
mmcv                                     2.2.0+das.opt1.dtk25041
moe-w8a8                                 0.0.1+das.dtk2504
moe-w8a8-prefill-gemm                    0.0.1+das.dtk2504
onnxruntime                              1.19.2+das.opt1.dtk25041
rotary_emb                               2.6.1+das.opt1.dtk25041
torch                                    2.4.1+das.opt1.dtk25041
torchaudio                               2.4.1+das.opt1.dtk25041
torchvision                              0.19.1+das.opt1.dtk25041
transformer-engine                       2.2.0+das.opt1.dtk25041
triton                                   3.0.0+das.opt1.dtk25041
vllm                                     0.8.5.post1+das.opt1.dtk25041
xentropy_cuda_lib                        2.6.1+das.opt1.dtk25041

最佳实践：

优先使用官方镜像：如果您需要特定的 AI 库，请优先查找是否提供了包含该库的官方镜像。
检查是否存在：在安装新库前，先检查该库是否已存在 dtk 版本。
获取正确源：如确需更新，请访问海光官方软件中心获取正确的 whl 安装包或安装源。

5. 模型部署建议与排查

模型支持列表

海光 BW1000 依托日益完善的 DTK 生态，已完成适配的大量主流大模型与推理框架：

模型	厂商	类型	推理框架	备注
DeepSeek 系列	DeepSeek	LLM / MoE	vLLM / 原生框架	完美支持 DeepSeek-V3/V4 等大模型训练与推理
Qwen 系列	阿里云	LLM / 多模态	vLLM	全流程验证通过
Llama 3	Meta	LLM	vLLM	开源社区主流模型全面兼容
科学计算模型	多家科研机构	HPC/CAE	自研/传统框架	利用 30T FP64 算力，实现 700 倍以上加速

6. 监控工具：hy-smi

常用命令速查

场景	命令	对应选项
状态概览	`hy-smi` 或 `hy-smi -a`	`-a` / `--showallinfo`
显存使用	`hy-smi --showmemuse`	`--showmemuse`
功耗监控	`hy-smi -P`	`-P` / `--showpower`
利用率监控	`hy-smi -u`	`-u` / `--showuse`
温度与风扇	`hy-smi -t` / `hy-smi -f`	`-t` / `-f`
拓扑结构	`hy-smi --showtopo`	`--showtopo`
MIG 管理	`hy-smi mig`	`--mig`

高级监控 (Dmon 模式)

hy-smi 提供了 -idmon 系列参数进行滚动监控：

# 监控 0 号卡的 频率(c)、风扇(f)、功耗/温度(p)、利用率(u)
# 每 2 秒刷新一次 (-ddmon 2)，总计采集 10 次 (-cdmon 10)
hy-smi -idmon 0 -sdmon cfpu -ddmon 2 -cdmon 10

# 记录到指定文件，并带上时间戳
hy-smi -idmon 0 -sdmon pu -fdmon hcu.log -odmon 1

拓扑与底层监控

# 查看 DCU 之间的拓扑与通信状态
hy-smi --showtopo           # 显示互联拓扑矩阵
hy-smi --showtopohops       # 显示 DCU 之间的跳数
hy-smi --showtopotype       # 显示互联链路类型 (XGMI 等)

# 带宽性能监控
hy-smi --showdfbw           # 显示 Data Fabric 读写带宽
hy-smi --showxhclbw         # 显示 XHCL 互联收发带宽

# 页面退役查询 (ECC)
hy-smi --showpagesinfo      # 显示所有退役、挂起、不可保留的页面

7. 平台与官方资源导航

海光官方技术资料

光合社区文档中心: 提供驱动下载、安装指南、故障排查手册及全栈开发文档。

1. 产品概述：BW1000​

2. 算力规格与精度支持​

算力规格​

重要限制：不支持 FP8​

支持的计算精度​

3. 核心软件生态：HIP​

PyTorch 原生适配​

方案：CUDA 代码平滑迁移​

4. AI 开发库：版本管理与避坑指南​

严禁随意更新核心库​

识别适配版本​

5. 模型部署建议与排查​

模型支持列表​

6. 监控工具：hy-smi​

常用命令速查​

高级监控 (Dmon 模式)​

拓扑与底层监控​

7. 平台与官方资源导航​

海光官方技术资料​