覚書です。
- Stable Diffusion Loraの使い方・作り方・学習方法
- Stable DiffusionのLoRAとは
- Stable DiffusionのLoraの学習はハイスペックPCが必要!
- Stable DiffusionのLoraでMacとWindowsはどっちがおすすめ!?
- Stable DiffusionのLoraで解像度とグラボ別に時間
- Stable DiffusionのLoraで自分絵の学習に必要な枚数について
- 多様性が重要
- sd-scriptsの必要性
- sd-scriptsの代替ツール
- Stable DiffusionのLoraの学習方法
- Stable Diffusion Loraの複数使用
- Stable Diffusion Loraのフォルダ分け
- Stable DiffusionのLoraで自作!自分の絵
Stable Diffusion Loraの使い方・作り方・学習方法
Loraの学習方法はこちらの書籍にも記載されていました。

上記の本はGoogle Colabを使っています。

Udemyでも「Stable Diffusionをマスターしよう!+拡張機能【ControlNet】【LoRA】画像生成AI」
と講座は動画でloraの説明がされています。
UdemyStable DiffusionのLoRAとは
LoRA(Low-Rank Adaptation)は、大規模なモデルを効率的にファインチューニングする手法です。Stable Diffusionにおいては、特定のキャラクターやスタイルを学習させるために使用されます。
別の手法としてDreamBoothなど、他の選択肢もありますが、次のような理由からLoRAが使われます。
- ファイルが数 MB—GitHub やモデル共有サイトに上げやすい。
- DreamBoothより速度が速い
- VRAM が少なくて済む
- 枚数も少なくて OK—絵柄 10-30 / キャラ 20-40 枚で実用品質
ちなみに、DreamBoothはGoogle が中心となって開発したファインチューニング手法です。
Google Research
https://dreambooth.github.io
Stable DiffusionのLoraの学習はハイスペックPCが必要!
普段、Stable Diffusionを使うより、Loraの学習にはハイスペックのPCが必要と言われます。
flux.1ちょっと重めのLoRAを読み込むと32GBの物理メモリを一瞬で食い潰してスワップし始めるので(NVMeって100%張り付くんだ)64GBに増設したくなってきたな
— なゆ (@nayuneko) June 23, 2025
詳しくはこちらの記事をみてください。
Stable DiffusionのLoraでMacとWindowsはどっちがおすすめ!?

Macは、速度の問題、特有の設定やトラブルが多いため、Windowsがおすすめです。
Macはおすすめしない理由はこの記事に説明しました。

詳細はこちらの記事が便利です。
Stable DiffusionのLoraで解像度とグラボ別に時間
ざっくりとした目安です。画像サイズはPhotoshopなどで調整します。
解像度 | 最小 VRAM(勾配CP有) | 推奨 VRAM | 推奨 RAM | 典型 BS | 1500 step 学習時間RTX 5070 Ti | RTX 5080 | RTX 5090 |
---|---|---|---|---|---|---|---|
512×512 | 6 GB | 8 GB | 16 GB | 2 | 38–48 分 | 27–37 分 | 18–23 分 |
768×768 | 10 GB | 12 GB | 24 GB | 2 | 55–72 分 | 42–57 分 | 27–38 分 |
1024×1024 | 16 GB | 20 GB | 32 GB | 1–2 | 83–105 分 | 60–83 分 | 38–53 分 |
1536×1536 | 20 GB | 24 GB | 48 GB | 1 | 143–180 分 | 105–135 分 | 75–100 分 |
2048×2048 | 24 GB | 32 GB | 64 GB | 1 | 270–360 分 | 210–270 分 | 140–180 分 |
- 最小 VRAM … fp16 + Gradient Checkpointing + xFormers を併用した「ギリギリ動く」ライン。
- 推奨 VRAM … 勾配CPなしで安定動作する目安。
- 推奨 RAM … GPU に載り切らないテンソルを CPU 側に逃がす際の最低ライン(=VRAM×1.5〜2)。
- 典型 BS … その解像度で多くのユーザが現実的に設定しているバッチサイズ。
- 学習時間 … 枚数を 20 → 30 枚に増やしても 1500 step のままなら時間は同じ(1 step で扱う画像枚数が増えるだけ)です。 LoRA rank64/画像20枚×repeat15 = 300仮想枚/1 500 step。5070 Ti ≒ 4080 S、5080 ≒ 4090×0.8、5090 = 現行最速級 の実測レンジを反映。
グラボが弱い場合はPCの買い替えも視野に入れましょう。
Stable DiffusionのLoraで自分絵の学習に必要な枚数について
- 最小枚数: 10-20枚
- 推奨枚数: 21-40枚
- 理想枚数: 41-100枚
多様性が重要
- 多様なポーズ: 正面、横顔、後ろ姿など
- 多様な表情: 笑顔、真顔、怒り顔など
- 多様な服装: 私服、制服、水着など
- 背景: 背景なしが望ましい
ポーズを左右反転する方法も有効です。
sd-scriptsの必要性
- 必須ではない: 他の学習ツールも存在するが、sd-scriptsが人気
- 豊富な機能: 詳細な設定が可能
- 継続的更新: 活発に開発されている
sd-scripts
は「公式ツール」ではなく、あくまでコミュニティ主導の OSS です。LoRA / LoCon / B-LoRA / DreamBooth / Textual Inversionなどをカバーしています。
sd-scriptsの代替ツール
- Diffusers: Hugging Faceの公式ライブラリ
- EveryDream2: GUI付きの学習ツール
Stable DiffusionのLoraの学習方法
sd-scripts ルート
# 1. Python/CUDA 12.1 環境を用意
conda create -n lora python=3.10
conda activate lora
pip install torch==2.3.0+cu121 torchvision==0.18.0+cu121 torchaudio==2.3.0+cu121 \
--index-url https://download.pytorch.org/whl/cu121
# 2. sd-scripts を取得して依存関係を入れる(xformers 同梱)
git clone https://github.com/kohya-ss/sd-scripts.git
cd sd-scripts
pip install -r requirements_cuda121.txt
データセット構造(例)
dataset/
└── train/
└── 10_mychar/ # “10_” は repeat 数
├── img01.png
├── img01.txt # キャプション(必須)
└── ...
config.json サンプル
{
"pretrained_model_name_or_path": "runwayml/stable-diffusion-v1-5",
"train_data_dir": "./dataset/train",
"output_dir": "./output",
"resolution": 768,
"train_batch_size": 2,
"max_train_steps": 2000,
"learning_rate": 1e-4,
"mixed_precision": "fp16",
"gradient_checkpointing": true,
"enable_bucket": true,
"network_module": "networks.lora",
"network_dim": 64,
"network_alpha": 64
}
学習実行
accelerate launch train_network.py --config_file=config.json
Stable Diffusion Loraの複数使用
Loraは複数使用することができます。
Stable Diffusion Loraのフォルダ分け
Loraのフォルダ内に階層を掘ってフォルダ分けしても問題ありません。
Stable DiffusionのLoraで自作!自分の絵
実は素材の用意が1番大変です。手描きで絵を描いていきます。
自分の絵は最低10枚用意した方がよさそうです。いろいろな角度やバリエーションも用意します。
以前作った物を使うのも手です。個人的に正面、側面、背面の他に、lineスタンプで作ったポーズを使うことにしました。
新規キャラクターも手描きで用意する予定です。

ご参考になれば幸いです。
コメント