泰坦尼克号乘客分析(Notebook)

这一小节中我们将会在 RussellCloud 上示范 kaggle 上面泰坦尼克号乘客死亡预测的例子。

您将在这个例子中学会:

  • 如何上传数据集
  • 如何添加依赖
  • 如何创建 Jupyter 模式下的任务

目录:


准备:

数据集准备:

去网站登录,在控制台创建一个数据集,并使用下列命令初始化及上传数据集(准备数据集步骤可跳过,直接使用准备好的数据集,数据集ID:309252b75bb84eb89b01f47c3a1f78a5):

# 打开数据集所在目录
$ cd kaggle_titanic/data/

# 数据集初始化
$ russell data init --name Titanic_Predict
# 你也可以使用russell data init --id <数据集概览ID> 初始化

# 数据集上传
$ russell data upload

上传成功输出:

# 上传成功后你将会获得数据集的版本ID,非常重要,挂载只能使用版本ID
Upload finished
DATA ID                           NAME                  VERSION
--------------------------------  --------------------  -------
309252b75bb84eb89b01f47c3a1f78a5  Kaggle/Titanic_Predict:1    1

Upload finished, start extracting to data module

    To check data status enter:
        russell data status 309252b75bb84eb89b01f47c3a1f78a5

复现项目

新建项目

点击[项目创建页]创建名为Kaggle_Titanic的项目,默认环境选Keras

初始化项目

# 转到 code 目录下
$ cd ../code

# 初始化项目
$ russell init --name Kaggle_Titanic
# 或使用russell init --id <项目概览ID>初始化

启动项目

本项目需要使用seaborn库进行数据可视化,我们将通过编写一个russell_requirements.txt文件来配置我们的依赖。然后通过 russell run 命令以 Jupyter 模式启动我们的项目。

# 创建russell_requirements.txt,配置seaborn库依赖
$ echo "seaborn" >> russell_requirements.txt

# 以jupyter模式启动,可能需要等待一小会,返回相应浏览器可访问的notebook链接
$ russell run --mode jupyter --data <data_id>:data

成功启动Jupyter:

结束任务

jupyter模式下的任务不会自动关闭,使用stop命令主动结束,如下:

# russell stop 关闭任务 <run_id>是运行成功后返回的标识ID
$ russell stop <run_id>

运行结果展示

运行中数据可视化:

预测结果:


帮助我们完善文档

本文档同步公开在 GitHub 上。团队在尽力完善文档,但错误难免存在,或许有些功能迭代也未能及时更新在文档上。若你有什么新的想法或体验,欢迎提交 Pull Request 为我们提供支持。

除此之外,你还可以通过 issue 直接提交问题。

Copyright © russellcloud.com 2017 all right reserved,powered by Gitbook该文件修订时间: 2018-06-14 01:49:18

results matching ""

    No results matching ""