知识库/参考文档/云服务器训练教程

云服务器训练教程

1. 声明

本文档仅为云端服务器租赁教程,具体平台可自行选择,我们这里选择的是AutoDL平台。官方文档可以参考:AutoDL官方文档。我们这里以Lerobot采集了10条训练数据,在ACT模型下用RTX5090训练为例,训练用时为大约2h。

2. 云服务器租赁

AutoDL官网注册账号后,进行GPU的选择。根据个人的数据集的大小、训练的模型来进行GPU的租赁。

租赁的时候可以选择不同的地区,本身没有什么差别,哪里有卡就选哪个区,一般情况下GPU数量选择1就足够了。

img

选择社区镜像,找到lerobot的镜像。

img

img

或者基础镜像中选择2.70的pytorch和12.8的CUDA。然后创建并开机软件

img

3. 云服务器登录

建议先选择“无卡模式”启动虚拟机,这样可以节省一定的费用。无卡模式下,虽然没有显卡资源,但仍然可以进行代码上传、环境配置等操作。

img

在AutoDL中可以直接点击JupyterLab进入终端页面,也可以选择SSH登录。SSH登录指令为:

ssh -p 端口号 用户名@主机IP

img

4. 训练准备阶段

  • 官方学术资源加速
source /etc/network_turbo
  • 下载代码

    • /root/autodl.tmp盘会在关机15天后清空,但加载速度会偏快,可以把代码clone到这个文件夹。也可以直接在root下clone

    • git clone https://github.com/JoyandAI/lerobot.git /autodl-tmp
      

img

  • 安装FileZilla

    • FileZilla官网

    • Windows:

    • 暂时无法在飞书文档外展示此内容

    • MacOS:

    • 暂时无法在飞书文档外展示此内容

    • Linux:

    • 安装完后输入filezilla打开

    • sudo apt install filezilla
      
  • 环境配置

左上角点击:文件(File)->站点管理器(File manager)->新站点(new site)。协议选择SFTP,用户名填写root,其余根据个人服务器情况进行填写。

  • 上传数据

在/root/.cache/huggingface/ 下,创建项目名称的文件夹。本文训练的为lerobot,则创建lerobot文件(xlerobot此类同理),将数据放到lerobot文件夹之下。本地文件夹可以直接拖拽上传。

5. 训练模型

搭建基本依赖环境,然后进入lerobot文件夹

conda activate lerobot
cd /root/autodl.tmp
pip instsall -e .
cd ./src

${HF_USER}更改为你的数据集名称,policy.type为可选模型,建议选择ACT。在该默认配置下,batch_size=32,step=100000。

训练过程中可以通过AutoPanel查看GPU的使用情况和性能监控,确保你的训练进程顺利进行。训练完记得下载训练完的模型文件到本地电脑

python -m lerobot.scripts.train \
  --dataset.repo_id=${HF_USER}/so101_test \
  --policy.type=act \
  --output_dir=outputs/train/act_so101_test \
  --job_name=act_so101_test \
  --policy.device=cuda \
  --policy.push_to_hub=false \
  --wandb.enable=false  

img

其他可选择的策略:

有些模型需要单独安装依赖,回到 ../lerobot 目录下

  • act, Action Chunking Transformers

  • diffusion, Diffusion Policy

  • tdmpc, TDMPC Policy

  • vqbet, VQ-BeT

  • smolvla, SmolVLA

    • pip install -e ".[smolvla]"
      
  • pi0, A Vision-Language-Action Flow Model for General Robot Control

    • pip install -e ".[pi]"
      
  • pi0-fast

    • pip install -e ".[pi]"
      
  • sac

  • reward_classifier