- 运行示例
- 1 上传训练数据至hdfs路径
- 2 提交运行
运行示例
在XLearning客户端,使用$XLEARNING_HOME/bin/xl-submit提交脚本将作业提交至Yarn集群。以TensorFlow作业提交为例:
1 上传训练数据至hdfs路径
将发布包解压后的data文件夹上传至hdfs,如:
cd $XLEARNING_HOMEhadoop fs -put data /tmp/
2 提交运行
cd $XLEARNING_HOME/examples/tensorflow$XLEARNING_HOME/bin/xl-submit \--app-type "tensorflow" \--app-name "tf-demo" \--input /tmp/data/tensorflow#data \--output /tmp/tensorflow_model#model \--files demo.py,dataDeal.py \--launch-cmd "python demo.py --data_path=./data --save_path=./model --log_dir=./eventLog --training_epochs=10" \--worker-memory 10G \--worker-num 2 \--worker-cores 3 \--ps-memory 1G \--ps-num 1 \--ps-cores 2 \--queue default \
提交脚本各参数含义如下:
| 参数名称 | 含义 |
|---|---|
| app-name | 作业名称为 "tf-demo" |
| app-type | 作业类型为 "tensorflow" |
| input | 输入文件,HDFS路径:/tmp/data/tensorflow,对应本地路径./data |
| output | 输出文件,HDFS路径:/tmp/tensorflow_model,对应本地路径./model |
| files | 需要传给各container的本地文件,包括 demo.py、dataDeal.py |
| launch-cmd | 训练执行命令 |
| worker-memory | worker内存使用为10G |
| worker-num | worker数目为2 |
| worker-cores | worker使用CPU核数为3 |
| ps-memory | parameterServer内存使用为1G |
| ps-num | parameterServer数目为1 |
| ps-cores | parameterServer使用CPU核数为2 |
| queue | 作业提交队列 |
更多相关参数详细说明请见运行提交参数部分。
