AI自動編集に挑む(5)|mlx-lm 0.31.3 で gemma4 が乗った 5 週間後、Mac の MoE をエンジン横断で取り直す

AI自動編集に挑む(5)|mlx-lm 0.31.3 で gemma4 が乗った 5 週間後、Mac の MoE をエンジン横断で取り直す — AI, gemma4, mlx-lm AIテキスト

こんにちは、パレイド技術部です。

5 週間前、シリーズ (4) で「mlx-lm が gemma4 にまだ未対応、Ollama は qwen3.5:27b は安定しない。」と書いて記事を締めくくりました。今回はその後のバージョンアップを踏まえた答え合わせと、改めて同条件で 7パターン分のベンチを取り直した結果をお届けします。

結論を先に言うと、mlx-lm 側は予定通り gemma4 を取り込み、qwen3.5:35b の OOM もメモリが空いていれば回避できる状態になりました。一方 Ollama 側の qwen3.x 性能問題は依然として存在します。そして同条件で並べてみると、エンジンと相性のいいモデルは分かれていることが見えてきました。

本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

(4) の宿題は片付いたか

(4) の末尾で挙げた 2 つの宿題と、5 週間後の状況を並べます。

(4) で書いた予想5/11 時点の実際
mlx-lm の gemma4 対応 (PR #1093) は main にマージ済みだが未リリースv0.31.2 (2026-04-07) でリリース済。記事公開の翌日。続く v0.31.3 (2026-04-22) で tool parser や KV-shared layers の追加修正も入った
Ollama の MLX バックエンドが qwen3.5:27b (Dense) に非対応、#14579 で議論中依然 OPEN。最新コメント (3/27) でユーザーから --n-cpu-moe 相当のフラグ要求が出ているが本体未対応。Ollama 本体は v0.20.2 → v0.23.2 (5/7) まで 8 リリースぶん進んだものの、qwen3.x の最適化は据え置き

mlx-lm 側の v0.31.2 リリースノートには、ついでに Fix missing cache advance from qwen 3.5 (#1024) もぶら下がっており、qwen3.5 系の挙動が前バージョンと変わっている可能性があるため、こちらも検証対象に含めることにしました。

検証マトリクス

(4) 掲載時点では「mlx-lm が gemma4 未対応 / Ollama が qwen3.5:27b の MLX 加速未対応」だったため、モデルごとに使えるエンジンが分かれ apple-to-apple の比較ができません。今回はその制約が緩和したため、同じモデルを 2 つのエンジンで動かす横断比較ができるようになりました。

モデルタイプOllamamlx-lm 直接備考
gemma4:26bMoE (活性 4B)✓ NEWmlx-community/gemma-4-26B-A4B-it-OptiQ-4bit
gemma4:31bDense×mlx-community に 4bit 量子化版が無く BF16 のみ。検証環境の 32GB Mac では BF16 (約 62GB) は乗らないため Ollama のみ
qwen3.5:35bMoE (活性 3B)✓ 再挑戦(4) で mlx-lm 直接実行は Metal OOM。今回は memory hygiene を整えて再挑戦
qwen3.6:35b-a3bMoE (活性 3B)4/17 / 4/18 の検証では Ollama 側のみ

Dense の gemma4:31b はエンジン横断比較ができないですが、それも結論の一部なので参考値として残します。

検証環境

  • MacBook Air (M5, 32GB Unified Memory)
  • macOS Tahoe 26.4
  • Ollama v0.23.2 ((4) 時点は v0.20.2)
  • mlx-lm 0.31.3 ((4) 時点は v0.31.1 で gemma4 未対応)
  • Python 3.12
  • パイプライン: pareido.jp 編集システムの記事生成 3-Pass 構成 (A: 骨子 → B: セクション執筆 6 本 → C: アセンブル)
  • thinking OFF、RAG オフ、参考記事なしの固定シナリオ
  • 各セル 1 run

結果

7 パターンの生成時間と文字数を並べます。Pass B/C それぞれの時間は内訳を見るために残しています。

#モデルエンジンPass A (s)Pass B (s)Pass C (s)合計 (s)文字数
1gemma4:26bOllama361371293074486
2gemma4:26bmlx-lm541381213163961
3qwen3.5:35bOllama583103246987239
4qwen3.5:35bmlx-lm231551453267718
5qwen3.6:35b-a3bOllama603123096878330
6qwen3.6:35b-a3bmlx-lm221561473287531
7gemma4:31b (Dense)Ollama269109784122124315

品質評価は (4) と同じく Claude (sonnet 4.6) で 4 軸 × 5 段階。プロンプトも (4) と揃えて再現性を確保しています。

#モデルエンジン自然さ正確さ読みやすさ指示遵守合計 /20
1gemma4:26bOllama334313
2gemma4:26bmlx-lm424313
3qwen3.5:35bOllama324312
4qwen3.5:35bmlx-lm323311
5qwen3.6:35b-a3bOllama323311
6qwen3.6:35b-a3bmlx-lm424414
7gemma4:31b (Dense)Ollama435416

読み取れたこと

1. エンジン適性はモデルで割れる

MoE 3 モデルそれぞれで Ollama と mlx-lm を直接比較すると、得意な相手が違います。

モデルOllama 合計mlx-lm 合計速い方
gemma4:26b307s316s僅差で Ollama (約 3% 差)
qwen3.5:35b698s326smlx-lm 圧勝 (約 2.1 倍)
qwen3.6:35b-a3b687s328smlx-lm 圧勝 (約 2.1 倍)

gemma4:26b は Ollama 側の MLX バックエンド経由でほぼ同等の速度が出ます。一方、qwen3.x は Ollama 経由だと mlx-lm 直接の約 2 倍時間がかかる。issue #14579 で議論されている「qwen3.x は Ollama の Go ランナーに強制され、MoE 向けの最適化フラグが効かない」という制約が、Mac 上でもそのまま体感速度に現れた形です。

つまり 「Ollama でいいモデル」「mlx-lm で動かすべきモデル」を分けるのが現実解 ということになります。gemma4 系統は Ollama の利便性を取り、qwen3.x は mlx-lm に逃がす。

2. 品質はエンジンでほとんど動かない

同じモデルを違うエンジンで動かしても、4 軸合計の差は ±1 点に収まりました (gemma4:26b で 13 同点、qwen3.x では mlx-lm の方がやや高い)。品質はモデル選定の話で、エンジン選定の話ではないという整理がつきます。

ここで読みたい数字は次の組み合わせです。

スイートスポット
最高品質 (時間度外視)gemma4:31b (Dense, Ollama) 16/20、約 37 分
速度×品質のバランスmlx:qwen3.6:35b-a3b 14/20、約 5.5 分
とにかく速いgemma4:26b (Ollama) 13/20、約 5 分

(4) では「日常のデフォルトは gemma4:26b、最高品質は qwen3.5:27b + thinking」という整理でした。今回は mlx:qwen3.6:35b-a3b が「速度×品質のスイートスポット」として割り込んだ形です。

3. 全モデルが正確さで足踏み

ここは予想していなかった発見でした。正確さの軸はどのモデルも 2〜3/5 で、エンジン差以前にパイプライン側の問題が支配的です。Claude のジャッジコメントを抜き出すと:

Gemma 4 の実際のモデルラインナップは 1B/4B/12B/27B であり、記事で扱う 2B・9B バリアントは存在しないため、表のモデルサイズに事実誤認がある

「ロースト関数」は「ロス関数 (loss function)」の誤記と思われる重大ミス

MacBook Pro (M2) のメモリ帯域を 100 GB/s と記載しているが、M2 Pro/Max は 200〜400 GB/s

固定ベンチ用シナリオは RAG オフ・参考記事なしで実行しているので、ハルシネーションが減衰されません。速度を取り直す前にやるべきは、RAG 側の前提知識注入と Pass A 段階での fact pinning という、別軸の宿題が浮かび上がりました。これは (6) 以降のテーマになりそうです。

ハマりどころ: 連続実行はメモリ解放に注意

これは記事の本筋ではないですが、運用上の罠としてメモを残します。

最初、bench_pipeline.py に 7 モデルを一度に渡して --runs 1 で走らせたところ、3 セル目で Pass C が 900 秒タイムアウトしました。Activity Monitor 系で見ると:

指標当初実行 (連続)今回の cell 別実行
PhysMem 使用率31G / 32G (135MB しか空かない)11〜17G / 32G
Swap 使用41.5GB / 44GB19〜27GB
Load Avg145〜162 (常時)2〜10 (各 cell 終端で)

bench_pipeline.py は同一 Python プロセス内で全モデルを連続実行する設計のため、MLX のメモリは Python プロセス終了まで解放されにくく、累積でスワップを使い切ります。さらに Ollama 側でも前モデルの 17〜23GB がロードされたまま次モデルがロードされる瞬間があり、ピークで詰みます。

cell ごとに osascript -e 'tell application "Ollama" to quit' で Ollama daemon を一度落としてから次の cell を起動する形に作り直したら、全 7 cell が完走するようになりました。Mac 32GB で複数モデルを横並び比較するなら、cell 間で daemon を落とす運用が事実上必須です。

まとめ

  • (4) の宿題は半分解消。mlx-lm 0.31.3 で gemma4 が動き、qwen3.5:35b の OOM も memory hygiene で回避可能。Ollama の qwen3.x 性能問題は据え置き (#14579 OPEN)
  • エンジン適性はモデルで割れる。gemma4 は Ollama でほぼ同等、qwen3.x は mlx-lm でほぼ 2 倍速。1 つのエンジンに統一する必要はもう無い
  • 品質はエンジン非依存、モデル依存。同じモデルなら Ollama でも mlx-lm でも合計点は ±1 に収まる
  • 新しいデフォルト候補は mlx:qwen3.6:35b-a3b (品質 14/20、所要時間 5.5 分)。Dense 最強の gemma4:31b (16/20) は約 37 分かかるので、品質を取りに行く時の特注扱い

次の課題は精度ですが、これはモデルではなく RAG / fact pinning 側の話。gemma4/qwenのMoEモデル比較は一旦これくらいにしておきます。

タイトルとURLをコピーしました