8.5 KiB
8.5 KiB
如何在启智平台上进行模型训练 - NPU版本
- 启智集群和智算网络集群的单数据集训练,多数据集训练,训练使用方式不同,请按需求选择一种训练方式即可,注意区别(以下环境默认是训练环境):
- 启智集群单数据集单卡的训练示例请参考示例中train.py的代码注释
- 启智集群单数据集单卡的推理的示例请参考示例中inference.py的代码注释
- 启智集群单数据集多卡数据并行训练的示例请参考示例中train_dataparallel.py的代码
- 启智集群多数据集单卡的训练示例请参考示例中train_for_multidataset.py的代码注释
- 启智集群多数据集多卡数据并行训练的示例请参考示例中train_for_multidataset_dataparallel.py的代码
- 智算网络集群单卡训练示例请参考示例中train_for_c2net.py的代码注释
- 智算网络集群多卡数据并行训练的示例请参考示例中train_for_c2net_dataparallel.py的代码
- 更多关于分布式训练的教程可参考mindspore官网教程mindspore分布式训练教程
1 概述
- 本项目以LeNet-MNIST为例,简要介绍如何在启智AI协同平台上使用MindSpore完成训练任务,并提供单数据集的训练,多数据集的训练,智算网络的训练,单数据集推理等训练代码示例,旨在为AI开发者提供启智npu训练示例。对于示例代码有任何问题,欢迎在本项目中提issue。
- 用户可以直接使用本项目提供的数据集和代码文件创建自己的训练任务。
- 启智平台对接ModelArts和OBS,将数据集,代码,训练资源池等整合在启智AI协同平台上供开发者使用。
- ModelArts是华为云提供的面向开发者的一站式AI开发平台,集成了昇腾AI处理器资源池,用户可以在ModelArts下体验MindSpore。
- OBS是华为云提供的存储方式。
2 准备工作
- 启智平台使用准备,本项目需要用户创建启智平台账户,克隆代码到自己的账户,上传数据集,具体操作方法可以通过访问OpenI_Learning项目学习小白训练营系列课程进行学习。
2.1 数据准备
数据集下载
- 数据集可从本项目的数据集目录中下载,数据集下载
- 数据文件说明
-
MNISTData数据集是由10类28∗28的灰度图片组成,训练数据集包含60000张图片,测试数据集包含10000张图片。
-
数据集压缩包的目录结构如下:
MNIST_Data.zip ├── test │ ├── t10k-images-idx3-ubyte │ └── t10k-labels-idx1-ubyte └── train ├── train-images-idx3-ubyte └── train-labels-idx1-ubyte
checkpoint_lenet-1_1875.zip ├── checkpoint_lenet-1_1875.ckpt
-
数据集上传
- 由于本示例使用的是Mindspore开发,需要在NPU芯片运行,所以上传的数据集需要传到NPU界面。
【注意:如果你需要试运行本示例,则无需再次上传数据集,因为本示例中的数据集MNIST_Example已经设置为公开数据集,可以直接引用或点赞收藏后使用】 - 如下所示:
2.2 执行脚本准备
示例代码
- 示例代码可从本仓库中下载,代码下载
- 代码文件说明
-
train.py,单数据集训练的脚本文件,包括将数据集从obs拷贝到训练镜像中、指定迭代次数、把训练后的模型数据拷贝回obs等。具体说明请参考train.py的代码注释
-
train_for_c2net.py,智算网络训练的脚本文件,包括指定迭代次数等。具体说明请参考train_for_c2net.py的代码注释
-
train_for_multidataset.py,包括多数据集训练的脚本文件,将多数据集从obs拷贝到训练镜像中、指定迭代次数、把训练后的模型数据拷贝回obs等。具体说明请参考train_for_multidataset.py的代码注释
-
inference.py,用于推理的脚本文件,包括将数据集从obs拷贝到训练镜像中、指定迭代次数、把训练后的模型数据拷贝回obs等。具体说明请参考inference.py的代码注释
-
config.py,网络配置信息,在单数据集训练,多数据集训练,智算网络训练等训练脚本中会使用到。
-
dataset.py,对原始数据集进行预处理,产生可用于网络训练的数据集,在单数据集的训练,多数据集的训练,智算网络的训练等训练脚本中会使用到。
-
lenet.py,使用的训练网络,在单数据集训练,多数据集训练,智算网络训练等训练脚本中会使用到。
-
dataset_distributes.py,对原始数据集进行预处理,产生可用于单机多卡训练的数据集。
-
3 创建训练任务
- 准备好数据和执行脚本以后,需要创建训练任务将MindSpore脚本真正运行起来。首次使用的用户可参考本示例代码。
使用MindSpore作为训练框架创建训练作业,界面截图如下图所示。
表1 创建训练作业界面参数说明
参数名称 | 说明 |
---|---|
代码分支 | 选择仓库代码中要使用的代码分支,默认可选择master分支。 |
AI引擎 | AI引擎选择[Ascend-Powered-Engine]和所需的MindSpore版本(本示例图片为 [Mindspore-1.3.0-python3.7-aarch64],请注意使用与所选版本对应的脚本)。 |
启动文件 | 启动文件选择代码目录下的启动脚本。 |
数据集 | 数据集选择已上传到启智平台的数据集。 |
运行参数 | 单数据集数据存储位置和训练输出位置分别对应运行参数data_url和train_url,注意多数据集需要增加参数multi_data_url并在代码中声明,选择增加运行参数可以向脚本中其他参数传值,如epoch_size。在这里只需填入其他参数传值,data_url和train_url已默认加入运行参数,用户无需重复指定,只需在代码中指定。 |
资源池 | 规格选择[Ascend: 1 * Ascend 910 CPU:24 核 256GiB],表示单机单卡 |