Ascend 910B
1. 产品概述:Ascend 910B
华为昇腾 (HUAWEI Ascend) 910B 是业界领先的旗舰级 AI 处理器,基于华为自研的 达芬奇架构 与 3D Cube 技术,实现了业界最佳的 AI 性能与能效比。其架构设计灵活伸缩,能够完美支持 “端、边、云” 全栈全场景应用,是当前国产化智算集群的首选算力底座。
1.1 核心架构:达芬奇架构
Ascend 910B 的算力核心来源于 AI Core,基于达芬奇架构设计,实现了计算、存储、控制的精细化分工。每个 AI Core 内部包含三大计算单元:
- Cube Unit (矩阵运算单元):
- 功能: 达芬奇架构的核心(3D Cube),专门负责执行 FP16/INT8 的矩阵乘法运算(C = A * B)。
- 优势:在一个时钟周期内可完成 16x16x16 的矩阵乘加运算。在 Transformer 模型推理中,它负责加速核心的矩阵乘法层,提供极致的吞吐量。
- Vector Unit (向量运算单元):
- 功能:负责处理 FP32/FP16 的向量运算,如 Activation、LayerNorm、Softmax 等非矩阵类计算。
- Scalar Unit (标量运算单元):
- 功能:负责程序的流程控制、地址计算及简单的标量运算。
1.2 关键硬件特性
- HCCS 高速互联:支持高速片间互联技术,单机内 8 卡全互联,能够构建大规模、低延迟的分布式训练集群。
- 大显存优势:配备 64GB HBM2e 高带宽显存,提供超高的数据吞吐能力,显著缓解了百亿参数大模型在训练与推理过程中的“显存墙”瓶颈。
2. 算力规格与精度支持
为了保障您的模型运行效率,请务必了解 NPU 对不同计算精度的支持情况。