こんにちは、パレイド技術部です。
Google がオープンソース LLM の新シリーズ Gemma 4 を Apache 2.0 ライセンスで公開しました。
本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
Gemma 4 の概要
Gemma 4 はエージェント用途を意識した設計で、4 つのバリエーションがあります。
| モデル | タイプ | 特徴 |
|---|---|---|
| E2B | 超軽量 | エッジデバイス・モバイル向け |
| E4B | 軽量 | コンパクトながら実用的 |
| 26B MoE | Mixture of Experts | パラメータ効率重視の中型モデル |
| 31B Dense | 密結合 | オープンモデル中 3 位の性能 |
Gemini 3 と同じ技術基盤で構築され、テキストと画像の理解に対応。関数呼び出し(Function Calling)をネイティブにサポートしており、エージェント構築を強く意識しています。
配布先は Hugging Face、Kaggle、Google AI Studio に加え、Ollama や LM Studio にも対応。つまりローカル Mac でもすぐに試せます。ただし Ollama は v0.20 以降が必要です。
Qwen3.5 と直接比較してみた
昨日の記事で Qwen3.5 の MoE vs Dense をベンチマークしました。
「こんにちは」への応答を試すだけのごくシンプルな内容ですが、目安にはなります。
ちょうど Gemma 4 も、Qwen3.5を意識してかはわかりませんが 26B MoE と 31B Dense の両方を出してきたので、同じ環境・同じスクリプトで直接比較してみました。
検証環境
- MacBook Air (M5, 32GB Unified Memory)
- macOS 15.4
- Ollama v0.20
- Thinking OFF / temperature 0.0 / 3回計測の中央値
Dense 対決: Qwen3.5-27B vs Gemma 4-31B
| モデル | タイプ | Reply TTFT (秒) | TPS (tok/s) | VRAM (GB) |
|---|---|---|---|---|
| qwen3.5:27b | Dense 27.8B | 0.98 | 5.9 | 22.6 |
| gemma4:31b | Dense 31.3B | 1.61 | 4.2 | 26.1 |
Dense 同士の対決は Qwen3.5-27B の勝ち。パラメータ数が少ない分、TTFT も TPS も上回っています。とはいえ、どちらも 32GB Mac では 4〜6 tok/s で、何とか使えるけれど快適とは言いづらい速度です。VRAM も 22〜26GB 消費するので、他のアプリとの共存は厳しい。
Dense モデルは 32GB Mac だと「動くが用途は限られる」カテゴリです。
MoE 対決: Qwen3.5-35B vs Gemma 4-26B
| モデル | タイプ | Reply TTFT (秒) | TPS (tok/s) | VRAM (GB) |
|---|---|---|---|---|
| qwen3.5:35b | MoE 36.0B (活性化3B) | 0.28 | 25.2 | 26.2 |
| gemma4:26b | MoE 25.8B (活性化3.8B) | 0.26 | 42.5 | 20.1 |
Gemma 4-26B が圧勝。42.5 tok/s は Qwen3.5-35B(25.2 tok/s)の 1.7 倍、Dense モデルの 10 倍です。しかも VRAM は 20.1GB と 4 モデル中最小。32GB Mac で他のアプリと余裕で共存できます。
TTFT も 0.26 秒で体感はほぼ即応。MoE の設計思想が同じでも、Gemma 4 の方が効率的に推論できているようです。
まとめ: 4モデル一覧
| モデル | タイプ | TPS (tok/s) | TTFT (秒) | VRAM (GB) |
|---|---|---|---|---|
| gemma4:26b | MoE | 42.5 | 0.26 | 20.1 |
| qwen3.5:35b | MoE | 25.2 | 0.28 | 26.2 |
| qwen3.5:27b | Dense | 5.9 | 0.98 | 22.6 |
| gemma4:31b | Dense | 4.2 | 1.61 | 26.1 |
32GB Mac なら Gemma 4-26B が有力候補
速度やメモリ使用量のごく簡単な計測ですが、結果は明確でした。
- 速度: Gemma 4-26B (42.5 tok/s) が全モデル中最速。Dense 最速の Qwen3.5-27B (5.9 tok/s) の 7 倍
- メモリ: Gemma 4-26B (20.1GB) が最小。32GB Mac でブラウザと共存できる唯一の大型モデル
- TTFT: MoE 2 モデルはどちらも 0.3 秒以下で体感差なし
- Dense は厳しい: 両モデルとも 4〜6 tok/s。メモリも 22GB 超で、32GB Mac では常用に向かない
Gemma 4 は Function Calling のネイティブサポートもあり、エージェント用途でも期待できます。ライセンスも Qwen3.5 と同じ Apache 2.0。
32GB Mac でローカル LLM を使うなら、まず Gemma 4-26B を試してみるのがようさそう。
とはいえまだ速報の段階なので、実際の性能については今後も追試を重ねたいと思います。



