Anima Base v1.0 を M5 MacBook Air 32GB で動かす

管理者

編集者 · 技術部

◉ 2026.05.21 · 11min

こんにちは、パレイド技術部です。

CircleStone Labs と Comfy Org の共同開発による画像生成モデル Anima Base v1.0 が 2026-05-15 に正式リリースされました。

Preview / Preview2 / Preview3 を経た到達点で、NVIDIA Cosmos-Predict2-2B-Text2Image を起点とする 2B パラメータの派生モデル、HF 公式 README の表現を借りれば “focused mainly on anime” — 文字通りアニメ特化ですが、非写実アートも一定範囲で扱える設計のようです。

huggingface.co

circlestone-labs/Anima · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

ComfyUI 0.22.0 (Mac 版) 上に置いて、共通条件 1024×1024 / 30 step / cfg 4 でサンプラー違いを 4 走させました。本記事はそのベンチログです。

本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI（Claude 等）の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

出自と系譜 — Cosmos-Predict2 派生、Comfy Org がモデル側に踏み出した

Anima Base v1.0 は NVIDIA Cosmos-Predict2-2B-Text2Image をベースに、CircleStone Labs と Comfy Org が共同で finetune した派生モデルです。HF 公式 README にも “derivative of NVIDIA Cosmos-Predict2-2B-Text2Image” と明示されています。学習データはアニメ系数百万枚 + 非アニメアート約 80 万枚、knowledge cutoff は 2025-09。

注目点は Comfy Org がモデル開発側に踏み出したことです。Comfy Org はこれまで ComfyUI という runtime を提供する側で、モデルそのものは外部 (Stability AI / Black Forest Labs / NVIDIA 等) が作るものを受け取って描画する立場でした。Anima Base はその構図が変わり、runtime 提供者が自らモデル開発に共同名義で関わった事例になっています。

配布構造 — ComfyUI ネイティブの 3 ファイル分離

Anima Base v1.0 は HF の circlestone-labs/Anima で split_files/ 配下に置かれており、UNet / TextEncoder / VAE が独立した 3 ファイルとして配布されています。従来の SDXL 派生型 (.safetensors 1 ファイルにすべて梱包) とは違い、ComfyUI のディレクトリ規約にそのまま流し込める形です。

ファイル	配置先 (ComfyUI)	概要
`anima-base-v1.0.safetensors` (4.18 GB)	`models/diffusion_models/`	UNet 本体、2B パラメータ、Cosmos-Predict2 派生。SHA256 `bd43b7cffe1ed1153d9c41e7beb2f18cb1273eafbaa3af3edd6a173dc90a006e`
`qwen_3_06b_base.safetensors`	`models/text_encoders/`	text encoder。Qwen 3 0.6B ベース (CLIP / T5 系ではない、ここがこのモデルの個性)
`qwen_image_vae.safetensors`	`models/vae/`	Qwen-Image 系の VAE

この分離が効くのは ComfyUI のワークフロー側でロード経路を明示できる点ですが、裏返すと初回 cold load 時に 3 ファイルをすべてメモリに展開する必要があり、ロード時間がそれぞれに積み上がるという挙動も生みます。後段の cold load コスト (+7 分) はここに由来します。

text encoder が Qwen 3 0.6B base という選択も特徴的です。CLIP / T5 系のエンコーダではなく LLM 系列の小型モデルを通すことで、自然言語プロンプトの読み取りに寄せた設計になっています。

ライセンス — 生成画像は商用可

Anima Base v1.0 のライセンスは、HF 公式 LICENSE.md を原文で当たると「モデル本体・派生は非商用 only、Outputs (生成画像) は商用可」 の構造になっています。

商用 OK: Anima Base v1.0 で生成した画像をそのまま広告・商用イラスト・ブログのアイキャッチに使う
商用 NG: モデル本体の重みを商用配布する / LoRA・finetune を商用配布する / 商用 API として重みをホストして提供する
常時 NG: 生成画像を競合 CircleStone Model の訓練データに使う

ベンチマーク結果

初回 1 本目はモデルのロード込みで、2 本目以降はモデル展開済みの状態です。

順	workflow	サンプラー	生成秒	出力の構図	結果
1	`base_v10_anime_dpmpp_2m_sde_gpu`	dpmpp_2m_sde_gpu	660.3 s (11 分 00 秒)	アニメ調、セーラー服の少女が後ろ姿でモニタ 1 台の前に立つ。	○
2	`base_v10_anime_er_sde`	er_sde	825.3 s (13 分 45 秒)	アニメ調、ロングヘアの少女が秋の窓辺、モニタ 2 台前でコーディング。	○
3	`base_v10_anime_euler_a`	euler_a	915.4 s (15 分 15 秒)	er_sde とほぼ同構図、ただし線が細くソフト。	○
4	`base_v10_nonanime_er_sde`	er_sde	975.7 s (16 分 16 秒)	ロボハンドが銀河を内包した球体を抱える、モノクロ版画調 / art print quality	○

結論先出し — Macbook Airでも動く、ただし生成時間はばらつきがある？

まずは手元の MacBook Air M5 32GB の環境で試してみました。 ComfyUI に公式テンプレートを利用しましたが、本試行時点でまだ Preview3 版だったため、モデルやプロンプトは正式リリース版に変更しています。

項目	判定
M5 MacBook Air 32GB での起動	○ (cold load 込み初回 21 分、warm 11-16 分)
Unified Memory 32GB での収まり	○ (生成中ピーク 23GB / 32GB、余裕あり)
サンプラーによる挙動差	○ (er_sde / euler_a は同 seed で近似構図、dpmpp_2m_sde_gpu のみ “解釈枝” が分かれる)
非アニメアート (`no anime style`) への対応	○ (モノクロ版画調の `art print quality` 系まで素直に振れる)
生成時間のばらつき	△ (warm で 10-16 分の幅、環境要因と思われる)
生成画像の商用利用 (HF 公式 LICENSE.md §2(d))	○ (§2(d) で明示的に許可、競合 CircleStone Model 訓練への流用は禁止)

事前に簡単に試した時点では 10分〜20分程度の幅で実行時間がばらついたものの、遅いケースはおそらく環境要因によるもの。特に問題はなく生成ができました。

実走環境とセットアップ — M5 MacBook Air 32GB / ComfyUI 0.22.0

ベンチの土台は M5 MacBook Air 32GB です。

項目	値
マシン	MacBook Air M5、Unified Memory 32GB
OS	macOS Tahoe 26.4.1
ランタイム	ComfyUI 0.22.0 (Mac 版)
モデル	Anima Base v1.0 (UNet 4.18GB) + Qwen 3 0.6B base (TE) + Qwen-Image VAE
解像度	1024 × 1024
ステップ	30
CFG	4
Scheduler	simple
seed	875817230929465 (固定)

生成中のメモリ占有はピークで 23 GB / 32 GB 前後。余裕がある状態で、メモリ側がボトルネックになる気配はありません。

共通プロンプトはアニメ系・非アニメ系で 2 種類用意し、それぞれにネガティブを噛ませました。

アニメ系 positive: masterpiece, best quality, anime, a girl programming at a desk by a window, autumn afternoon light, monitors with code, soft warm color palette, detailed background, safe
アニメ系 negative: worst quality, low quality, score_1, score_2, score_3, blurry, jpeg artifacts, sepia
イラスト系 positive: intricate digital illustration, a robotic hand cradling a glass orb containing a miniature galaxy, neutral color palette, fine line work, no anime style, art print quality
イラスト系 negative: worst quality, low quality, blurry, jpeg artifacts, sepia, anime, manga

同条件でも生成時間に幅が出る。おそらく環境要因？

同マシン・同モデル・同解像度・同ステップで連続 4 走させた結果、生成時間は 660-975 s (11-16 分) の幅でばらつきました。同 sampler (er_sde) の 2 走目 825.3 s と 4 走目 975.7 s でも 150 秒の差が出ているため、サンプラー差では説明できません。プロンプトも 4 走目だけ非アニメ系ですが、拡散モデルの生成時間は通常プロンプト内容に直接影響しないため、これも主因ではないでしょう。熱・メモリ・OS バックグラウンドのいずれか、あるいはその合わせ技といった環境要因と思われます。

サンプラーによる変化

同 seed・同プロンプトで 3 本のアニメ系を回したところ、er_sde と euler_a はほぼ同構図 (線の細さ / ソフトさが違うだけ) になりました。一方 dpmpp_2m_sde_gpu だけは構図そのものや人物の髪型などが再選択され、被写体の向き・小物・モニタの台数が変わりました。

HF 公式 README が dpmpp 系について “more variety, can get wild” と表現しています。er_sde / euler_a が同じ解釈の上で微調整するのに対し、dpmpp は別の解釈に飛ぶ、という印象です。プロンプトを固定して構図のバリエーションを増やしたいなら dpmpp、安定した構図でスタイルだけ調整したいなら er_sde / euler_a、という使い分けになります。