存储单元
AI处理器中的计算资源要想发挥强劲算力,必要条件是保证输入数据能够及时准确地出现在计算单元中,需要精心设计存储系统,保证计算单元所需的数据供应。
AI Core中包含多级内部存储,AI Core需要把外部存储中的数据加载到内部存储中,才能完成相应的计算。AI Core的主要内部存储包括:L1 Buffer(L1缓冲区)、L0 Buffer(L0缓冲区)、Unified Buffer(统一缓冲区)等。为了配合AI Core中的数据传输和搬运,AI Core中还包含MTE(Memory Transfer Engine,存储转换引擎)搬运单元,在搬运过程中可执行随路数据格式类型转换。
AI Core的内部存储列表如表1所示。
表1 存储单元介绍
| 存储单元 | 描述 |
|---|---|
| L1 Buffer | L1缓冲区,通用内部存储,是AI Core内比较大的一块数据中转区,可暂存AI Core中需要反复使用的一些数据从而减少从总线读写的次数。 |
| L0A Buffer / L0B Buffer | Cube指令的输入。 |
| L0C Buffer | Cube指令的输出,但进行累加计算的时候,也是输入的一部分。 |
| Unified Buffer | 统一缓冲区,向量和标量计算的输入和输出。 |
| BT Buffer | BiasTable Buffer,存放Bias。 |
| FP Buffer | Fixpipe Buffer,存放量化参数、Relu参数等。 |
表2 搬运单元介绍
| 搬运单元 | 描述 |
|---|---|
| MTE1 | 负责如下通路的数据搬运: - L1->L0A/L0B - L1->UB(只有耦合架构支持) - L1->BT Buffer |
| MTE2 | 负责如下通路的数据搬运: - GM->{L1, L0A/B},在该通路下,基于分形大小搬运,搬运时满足cacheline(512Byte)对齐,性能更优。 - GM->UB,基于cacheline大小搬运性能更优。 |
| MTE3 | 负责如下通路的数据搬运:UB -> GM |
| FixPipe | 只有分离架构支持,负责如下通路的数据搬运,搬运过程中可以完成随路数据格式/类型转换: - L0C->{GM/L1} - L1->FP Buffer |
- 不同类型的AI处理器,存储单元大小不同,开发者可通过GetCoreMemSize接口获取。
- 所有通过搬运单元读写GM的数据都缺省被缓存在L2Cache,以此加快访问速度,提高访问效率。核外L2Cache以cacheline为单位加载数据,根据硬件规格不同,cacheline大小不同(128/256/512Byte等)。