挂载数据集

基本用法

使用 --data 参数

你需要准备：

用法:

 russell run <command> --data <username/dataset_name/version>:<mount_name>

<command> 是运行的命令，这里的 --data 参数会将对应的数据集版本挂载到 /input/<mount_name> 目录下。如果未指定挂载名称，则会默认挂载到 /input/<dataset_name>-<version> 目录下。

例如：

 russell run "python trainer.py" --data RussellCloud/MovieLens_20M/1:data

这里会将数据集的内容挂载到 /input/data 下，如果不指定挂载名称，对于这个数据集名称为 MovieLens_20M 版本为 1 的数据集来说，会挂载到 /input/MovieLens_20M-1 目录下。

你需要准备：

需要挂载的数据集某个版本的id <data_id>。注意不是数据集概览 id（创建数据集时的 id ），一个数据集可能有多个版本，版本 id 是上传完成后提示的 id ，也可以在数据集页面的版本标签下查看和复制。
挂载名称 <mount_name>

用法:

 russell run <command> --data <data_id>:<mount_name>

<command> 是运行的命令，这里的 --data 参数会将 data_id 对应的数据集挂载到 /input/<mount_name> 目录下。如果未指定挂载名称，则会默认挂载到 /input/<dataset_name>-<version> 目录下。

 russell run <command> --data <data_id_1>:<mount_name_1> --data <data_id_2>:<mount_name_2> ......

每个挂载的数据集前都需要加上 --data 参数（使用data_id或索引皆可）,单个任务最多可挂载5个数据集。

本文档同步公开在 GitHub 上。团队在尽力完善文档，但错误难免存在，或许有些功能迭代也未能及时更新在文档上。若你有什么新的想法或体验，欢迎提交 Pull Request 为我们提供支持。

除此之外，你还可以通过 issue 直接提交问题。