記事内に広告が含まれる場合があります

Stable Diffusion Loraの使い方・作り方・学習方法

ゲーミングPC・クリエイターPC

覚書です。

Stable Diffusion Loraの使い方・作り方・学習方法

Loraの学習方法はこちらの書籍にも記載されていました。

著:AICU media編集部, 著:白井 暁彦
¥2,376 (2025/09/08 10:58時点 | Amazon調べ)

上記の本はGoogle Colabを使っています。

著:大﨑 顕一, 著:水口 瑛介
¥2,479 (2025/09/08 10:58時点 | Amazon調べ)

Udemyでも「Stable Diffusionをマスターしよう!+拡張機能【ControlNet】【LoRA】画像生成AI」

と講座は動画でloraの説明がされています。

Udemy

Stable DiffusionのLoRAとは

LoRA(Low-Rank Adaptation)は、大規模なモデルを効率的にファインチューニングする手法です。Stable Diffusionにおいては、特定のキャラクターやスタイルを学習させるために使用されます。

別の手法としてDreamBoothなど、他の選択肢もありますが、次のような理由からLoRAが使われます。

  • ファイルが数 MB—GitHub やモデル共有サイトに上げやすい。
  • DreamBoothより速度が速い
  • VRAM が少なくて済む
  • 枚数も少なくて OK—絵柄 10-30 / キャラ 20-40 枚で実用品質

ちなみに、DreamBoothはGoogle が中心となって開発したファインチューニング手法です。

Google Research

https://dreambooth.github.io

Stable DiffusionのLoraの学習はハイスペックPCが必要!

普段、Stable Diffusionを使うより、Loraの学習にはハイスペックのPCが必要と言われます。

詳しくはこちらの記事をみてください。

Stable DiffusionのLoraでMacとWindowsはどっちがおすすめ!?

Macは、速度の問題、特有の設定やトラブルが多いため、Windowsがおすすめです。

Macはおすすめしない理由はこの記事に説明しました。

マウスコンピューターなどのWindowsBTOパソコンが便利。

詳細はこちらの記事が便利です。

Stable DiffusionのLoraで解像度とグラボ別に時間

ざっくりとした目安です。画像サイズはPhotoshopなどで調整します。

解像度最小 VRAM(勾配CP有)推奨 VRAM推奨 RAM典型 BS1500 step 学習時間RTX 5070 TiRTX 5080RTX 5090
512×5126 GB8 GB16 GB238–48 分27–37 分18–23 分
768×76810 GB12 GB24 GB255–72 分42–57 分27–38 分
1024×102416 GB20 GB32 GB1–283–105 分60–83 分38–53 分
1536×153620 GB24 GB48 GB1143–180 分105–135 分75–100 分
2048×204824 GB32 GB64 GB1270–360 分210–270 分140–180 分
  • 最小 VRAM … fp16 + Gradient Checkpointing + xFormers を併用した「ギリギリ動く」ライン。
  • 推奨 VRAM … 勾配CPなしで安定動作する目安。
  • 推奨 RAM … GPU に載り切らないテンソルを CPU 側に逃がす際の最低ライン(=VRAM×1.5〜2)。
  • 典型 BS … その解像度で多くのユーザが現実的に設定しているバッチサイズ。
  • 学習時間 … 枚数を 20 → 30 枚に増やしても 1500 step のままなら時間は同じ(1 step で扱う画像枚数が増えるだけ)です。 LoRA rank64/画像20枚×repeat15 = 300仮想枚/1 500 step。5070 Ti ≒ 4080 S、5080 ≒ 4090×0.8、5090 = 現行最速級 の実測レンジを反映。

グラボが弱い場合はPCの買い替えも視野に入れましょう。

Stable DiffusionのLoraで自分絵の学習に必要な枚数について

  • 最小枚数: 10-20枚
  • 推奨枚数: 21-40枚
  • 理想枚数: 41-100枚

多様性が重要

  • 多様なポーズ: 正面、横顔、後ろ姿など
  • 多様な表情: 笑顔、真顔、怒り顔など
  • 多様な服装: 私服、制服、水着など
  • 背景: 背景なしが望ましい

ポーズを左右反転する方法も有効です。

sd-scriptsの必要性

  • 必須ではない: 他の学習ツールも存在するが、sd-scriptsが人気
  • 豊富な機能: 詳細な設定が可能
  • 継続的更新: 活発に開発されている

sd-scriptsは「公式ツール」ではなく、あくまでコミュニティ主導の OSS です。LoRA / LoCon / B-LoRA / DreamBooth / Textual Inversionなどをカバーしています。

sd-scriptsの代替ツール

  1. Diffusers: Hugging Faceの公式ライブラリ
  2. EveryDream2: GUI付きの学習ツール

Stable DiffusionのLoraの学習方法

sd-scripts ルート

# 1. Python/CUDA 12.1 環境を用意
conda create -n lora python=3.10
conda activate lora
pip install torch==2.3.0+cu121 torchvision==0.18.0+cu121 torchaudio==2.3.0+cu121 \
  --index-url https://download.pytorch.org/whl/cu121

# 2. sd-scripts を取得して依存関係を入れる(xformers 同梱)
git clone https://github.com/kohya-ss/sd-scripts.git
cd sd-scripts
pip install -r requirements_cuda121.txt

データセット構造(例)

dataset/
└── train/
    └── 10_mychar/       # “10_” は repeat 数
        ├── img01.png
        ├── img01.txt    # キャプション(必須)
        └── ...

config.json サンプル

{
  "pretrained_model_name_or_path": "runwayml/stable-diffusion-v1-5",
  "train_data_dir": "./dataset/train",
  "output_dir": "./output",
  "resolution": 768,
  "train_batch_size": 2,
  "max_train_steps": 2000,
  "learning_rate": 1e-4,
  "mixed_precision": "fp16",
  "gradient_checkpointing": true,
  "enable_bucket": true,
  "network_module": "networks.lora",
  "network_dim": 64,
  "network_alpha": 64
}

学習実行

accelerate launch train_network.py --config_file=config.json

Stable Diffusion Loraの複数使用

Loraは複数使用することができます。

Stable Diffusion Loraのフォルダ分け

Loraのフォルダ内に階層を掘ってフォルダ分けしても問題ありません。

Stable DiffusionのLoraで自作!自分の絵

実は素材の用意が1番大変です。手描きで絵を描いていきます。

自分の絵は最低10枚用意した方がよさそうです。いろいろな角度やバリエーションも用意します。

以前作った物を使うのも手です。個人的に正面、側面、背面の他に、lineスタンプで作ったポーズを使うことにしました。

新規キャラクターも手描きで用意する予定です。

著:AICU media編集部, 著:白井 暁彦
¥2,376 (2025/09/08 10:58時点 | Amazon調べ)

ご参考になれば幸いです。

コメント

タイトルとURLをコピーしました