挂载数据集
基本用法
使用 --data 参数
方法1:使用版本索引挂载
你需要准备:
数据集版本索引:由 {用户名/数据集名/版本号} 组成,如 RussellCloud/MovieLens_20M/1 ;
挂载名称:
<mount_name>
用法:
russell run <command> --data <username/dataset_name/version>:<mount_name>
<command> 是运行的命令,这里的 --data 参数会将 /input/<mount_name> 目录下。如果未指定挂载名称,则会默认挂载到 /input/<dataset_name>-<version> 目录下。
例如:
russell run "python trainer.py" --data RussellCloud/MovieLens_20M/1:data
这里会将数据集的内容挂载到 /input/data 下,如果不指定挂载名称,对于这个数据集名称为 MovieLens_20M 版本为 1 的数据集来说,会挂载到 /input/MovieLens_20M-1 目录下。
方法2:使用数据集版本id挂载
你需要准备:
需要挂载的数据集某个版本的id
<data_id>。注意不是数据集概览 id(创建数据集时的 id ),一个数据集可能有多个版本,版本 id 是上传完成后提示的 id ,也可以在数据集页面的版本标签下查看和复制。
挂载名称
<mount_name>
用法:
russell run <command> --data <data_id>:<mount_name>
<command> 是运行的命令,这里的 --data 参数会将 data_id 对应的数据集挂载到 /input/<mount_name> 目录下。如果未指定挂载名称,则会默认挂载到 /input/<dataset_name>-<version> 目录下。
挂载多个数据集
russell run <command> --data <data_id_1>:<mount_name_1> --data <data_id_2>:<mount_name_2> ......
每个挂载的数据集前都需要加上 --data 参数(使用data_id或索引皆可),单个任务最多可挂载5个数据集。
帮助我们完善文档
本文档同步公开在 GitHub 上。团队在尽力完善文档,但错误难免存在,或许有些功能迭代也未能及时更新在文档上。若你有什么新的想法或体验,欢迎提交 Pull Request 为我们提供支持。
除此之外,你还可以通过 issue 直接提交问题。