云服务器训练教程
1. 声明
本文档仅为云端服务器租赁教程,具体平台可自行选择,我们这里选择的是AutoDL平台。官方文档可以参考:AutoDL官方文档。我们这里以Lerobot采集了10条训练数据,在ACT模型下用RTX5090训练为例,训练用时为大约2h。
2. 云服务器租赁
AutoDL官网注册账号后,进行GPU的选择。根据个人的数据集的大小、训练的模型来进行GPU的租赁。
租赁的时候可以选择不同的地区,本身没有什么差别,哪里有卡就选哪个区,一般情况下GPU数量选择1就足够了。

选择社区镜像,找到lerobot的镜像。


或者基础镜像中选择2.70的pytorch和12.8的CUDA。然后创建并开机软件

3. 云服务器登录
建议先选择“无卡模式”启动虚拟机,这样可以节省一定的费用。无卡模式下,虽然没有显卡资源,但仍然可以进行代码上传、环境配置等操作。

在AutoDL中可以直接点击JupyterLab进入终端页面,也可以选择SSH登录。SSH登录指令为:
ssh -p 端口号 用户名@主机IP

4. 训练准备阶段
- 官方学术资源加速
source /etc/network_turbo
-
下载代码
-
/root/autodl.tmp盘会在关机15天后清空,但加载速度会偏快,可以把代码clone到这个文件夹。也可以直接在root下clone
-
git clone https://github.com/JoyandAI/lerobot.git /autodl-tmp
-

-
安装FileZilla
-
Windows:
-
暂时无法在飞书文档外展示此内容
-
MacOS:
-
暂时无法在飞书文档外展示此内容
-
Linux:
-
安装完后输入filezilla打开
-
sudo apt install filezilla
-
环境配置
左上角点击:文件(File)->站点管理器(File manager)->新站点(new site)。协议选择SFTP,用户名填写root,其余根据个人服务器情况进行填写。
- 上传数据
在/root/.cache/huggingface/ 下,创建项目名称的文件夹。本文训练的为lerobot,则创建lerobot文件(xlerobot此类同理),将数据放到lerobot文件夹之下。本地文件夹可以直接拖拽上传。
5. 训练模型
搭建基本依赖环境,然后进入lerobot文件夹
conda activate lerobot
cd /root/autodl.tmp
pip instsall -e .
cd ./src
${HF_USER}更改为你的数据集名称,policy.type为可选模型,建议选择ACT。在该默认配置下,batch_size=32,step=100000。
训练过程中可以通过AutoPanel查看GPU的使用情况和性能监控,确保你的训练进程顺利进行。训练完记得下载训练完的模型文件到本地电脑
python -m lerobot.scripts.train \
--dataset.repo_id=${HF_USER}/so101_test \
--policy.type=act \
--output_dir=outputs/train/act_so101_test \
--job_name=act_so101_test \
--policy.device=cuda \
--policy.push_to_hub=false \
--wandb.enable=false

其他可选择的策略:
有些模型需要单独安装依赖,回到 ../lerobot 目录下
-
act, Action Chunking Transformers
-
diffusion, Diffusion Policy
-
tdmpc, TDMPC Policy
-
vqbet, VQ-BeT
-
smolvla, SmolVLA
-
pip install -e ".[smolvla]"
-
-
pi0, A Vision-Language-Action Flow Model for General Robot Control
-
pip install -e ".[pi]"
-
-
pi0-fast
-
pip install -e ".[pi]"
-
-
sac
-
reward_classifier