🎁 Get the FREE AI Skills Starter GuideSubscribe →
BytesAgainBytesAgain
🦀 ClawHub

Step3-VL Finetune

by @hunwenpinghao

Step3-VL-10B 多模态模型微调指南。用于在 GPU 服务器上进行 Step3-VL 模型的 LoRA/全量微调。包含配置、训练、推理完整流程。

Versionv1.0.0
📋 Tips & Best Practices

1. NCCL 通信错误

RuntimeError: NCCL error in: /path/to/nccl.cpp

解决: 设置 NCCL_P2P_DISABLE=1NCCL_IB_DISABLE=1

2. vocab_size 属性缺失

AttributeError: 'StepRoboticsConfig' object has no attribute 'vocab_size'

解决: 使用自定义的 save_adapter() 函数,绕过 PEFT 检查

3. forward 参数不匹配

TypeError: forward() got an unexpected keyword argument 'pixel_values'

解决: 使用 monkey patch 重写 forward 方法

4. 显存不足

解决方案:

  • 减小 per_device_train_batch_size
  • 增加 gradient_accumulation_steps
  • 使用 DeepSpeed ZeRO-2/3
  • 启用梯度检查点
  • 5. 多模态数据加载慢

    优化方案:

  • 预处理图像到固定尺寸
  • 使用 WebDataset 格式
  • 增加数据加载线程数
  • View on ClawHub
    TERMINAL
    clawhub install step3-vl-finetune

    🧪 Use this skill with your agent

    Most visitors already have an agent. Pick your environment, install or copy the workflow, then run the smoke-test prompt above.

    🔍 Can't find the right skill?

    Search 60,000+ AI agent skills — free, no login needed.

    Search Skills →