跳到主要内容
feedback
feedback

海光 BW1000

1. 产品概述:BW1000

BW1000 是一款面向生成式 AI 时代,专为大规模人工智能训练、推理及高性能科学计算而生的高端通用 GPU。凭借先进的"深算"架构,提供从 FP16 到 FP64 的全面算力支持。BW1000 依托海光 HIP 全栈软件平台打破生态壁垒,原生适配 PyTorch、TensorFlow 及 PaddlePaddle 等主流框架,让用户能够以极低成本完成代码迁移。无论是构建千卡级超大规模训练集群,还是部署高精度科学仿真服务,BW1000 均展现出卓越性能与稳定性,为您构建坚实、易用的国产算力底座。


2. 算力规格与精度支持

算力规格

  • 显存容量:64 GB HBM2e
  • 显存带宽:1.6 TB/s
  • 典型功耗:约 300W

重要限制:不支持 FP8

  • 不支持精度FP8
  • 影响:当前 BW1000 硬件架构及软件栈无法直接运行 FP8 量化的模型。如果强行加载 Hugging Face 上最新的 FP8 版本模型,将会报错。

支持的计算精度

BW1000 提供从 FP16 到 FP64 的全精度算力支持:

精度类型性能指标适用场景
FP16480 TFlops大模型训练/推理加速,兼顾性能与精度,在主流 LLM 训练中性能接近 A100
BF16-大模型推理主流格式,防止梯度下溢,适合深度学习训练场景
FP3260 TFlops基础精度,用于模型验证、传统机器学习或对精度要求较高的场景
FP6430 TFlops科学计算、CAE 仿真、气象模拟、流体力学等极致高精度计算场景(业界顶尖水平)

3. 核心软件生态:HIP

HIP 是海光推出的全栈软件开发平台,旨在提供与国际主流生态(如 CUDA/ROCm)高度兼容的开发环境。配套工具箱含 加速库、运行时库、编译器、调试优化工具等。

PyTorch 原生适配

特性说明
API 兼容Python 前端接口与 PyTorch CUDA 接口基本一致,学习成本极低
ROCm 兼容采用“类 CUDA”路线,兼容 ROCm 源代码级别,社区 Kernels 轻松移植
混合精度 AMP原生支持 torch.autocast / GradScaler
分布式训练支持 DistributedDataParallel (DDP) + HCCL 后端
性能分析适配原生 torch.profiler 及海光专用性能调优工具

方案:CUDA 代码平滑迁移

为了降低迁移门槛,海光 HIP 提供了代码转换工具,支持通过简单的转换脚本实现低成本一键迁移

提示

迁移步骤: 对于绝大多数基于 PyTorch 的模型代码,无需进行任何代码修改,直接在海光 DTK 环境中运行即可。底层框架会自动将 .cuda() 等方法重定向至海光 DCU 设备。

代码示例:

import torch

print(f"Device available status: {torch.cuda.is_available()}")

# 海光 PyTorch 兼容 CUDA 语义,底层自动映射至 DCU
matrix_a = torch.randn(4, 8).cuda()
matrix_b = torch.randn(8, 2, device="cuda")
gemm_result = torch.matmul(matrix_a, matrix_b)
print("GEMM Shape:", gemm_result.shape)
print(gemm_result)

4. AI 开发库:版本管理与避坑指南

为了发挥 BW1000 的最佳性能,PyTorch、vLLM 等主流 AI 框架均需要使用海光官方适配版

严禁随意更新核心库

在使用过程中,请极度小心 pip installpip upgrade 操作。

  • 风险:执行标准的 pip install torch 会从 PyPI 拉取社区公版,这将覆盖掉环境内预装的适配版(带 dtk 后缀),直接导致无法调用 DCU,程序运行失败。

识别适配版本

海光适配的版本号中通常包含 dtk 标识。你可以通过以下命令检查当前环境状态:

pip list | grep -e dtk

正常输出示例:

apex                                     1.4.0+das.opt1.dtk25041
deepspeed 0.14.2+das.opt1.dtk25041
dgl 2.2.1+das.opt1.dtk25041
dropout_layer_norm 2.6.1+das.opt1.dtk25041
flash_attn 2.6.1+das.opt1.dtk25041
flash_mla 1.0.0+das.opt1.dtk25041
fused_dense_lib 2.6.1+das.opt1.dtk25041
grouped-gemm 0.5.0+das.dtk2504
grouped-gemm-int4 0.5.0+das.dtk2504
lightop 0.5.0+das.dtk25041
lmslim 0.3.0+das.dtk25041
mmcv 2.2.0+das.opt1.dtk25041
moe-w8a8 0.0.1+das.dtk2504
moe-w8a8-prefill-gemm 0.0.1+das.dtk2504
onnxruntime 1.19.2+das.opt1.dtk25041
rotary_emb 2.6.1+das.opt1.dtk25041
torch 2.4.1+das.opt1.dtk25041
torchaudio 2.4.1+das.opt1.dtk25041
torchvision 0.19.1+das.opt1.dtk25041
transformer-engine 2.2.0+das.opt1.dtk25041
triton 3.0.0+das.opt1.dtk25041
vllm 0.8.5.post1+das.opt1.dtk25041
xentropy_cuda_lib 2.6.1+das.opt1.dtk25041

最佳实践:

  1. 优先使用官方镜像:如果您需要特定的 AI 库,请优先查找是否提供了包含该库的官方镜像。
  2. 检查是否存在:在安装新库前,先检查该库是否已存在 dtk 版本。
  3. 获取正确源:如确需更新,请访问海光官方软件中心获取正确的 whl 安装包或安装源。

5. 模型部署建议与排查

模型支持列表

海光 BW1000 依托日益完善的 DTK 生态,已完成适配的大量主流大模型与推理框架:

模型厂商类型推理框架备注
DeepSeek 系列DeepSeekLLM / MoEvLLM / 原生框架完美支持 DeepSeek-V3/V4 等大模型训练与推理
Qwen 系列阿里云LLM / 多模态vLLM全流程验证通过
Llama 3MetaLLMvLLM开源社区主流模型全面兼容
科学计算模型多家科研机构HPC/CAE自研/传统框架利用 30T FP64 算力,实现 700 倍以上加速

6. 监控工具:hy-smi

常用命令速查

场景命令对应选项
状态概览hy-smihy-smi -a-a / --showallinfo
显存使用hy-smi --showmemuse--showmemuse
功耗监控hy-smi -P-P / --showpower
利用率监控hy-smi -u-u / --showuse
温度与风扇hy-smi -t / hy-smi -f-t / -f
拓扑结构hy-smi --showtopo--showtopo
MIG 管理hy-smi mig--mig

高级监控 (Dmon 模式)

hy-smi 提供了 -idmon 系列参数进行滚动监控:

# 监控 0 号卡的 频率(c)、风扇(f)、功耗/温度(p)、利用率(u)
# 每 2 秒刷新一次 (-ddmon 2),总计采集 10 次 (-cdmon 10)
hy-smi -idmon 0 -sdmon cfpu -ddmon 2 -cdmon 10

# 记录到指定文件,并带上时间戳
hy-smi -idmon 0 -sdmon pu -fdmon hcu.log -odmon 1

拓扑与底层监控

# 查看 DCU 之间的拓扑与通信状态
hy-smi --showtopo # 显示互联拓扑矩阵
hy-smi --showtopohops # 显示 DCU 之间的跳数
hy-smi --showtopotype # 显示互联链路类型 (XGMI 等)

# 带宽性能监控
hy-smi --showdfbw # 显示 Data Fabric 读写带宽
hy-smi --showxhclbw # 显示 XHCL 互联收发带宽

# 页面退役查询 (ECC)
hy-smi --showpagesinfo # 显示所有退役、挂起、不可保留的页面

7. 平台与官方资源导航

海光官方技术资料