DeepSeek-V4 Preview 公開|1.6T MoE・1M コンテキスト・MIT ライセンスの中身を整理する

DeepSeek-V4 Preview 公開|1.6T MoE・1M コンテキスト・MIT ライセンスの中身を整理する — DeepSeek-V4, MoE, 1Mコンテキスト AIテキスト

こんにちは、パレイド技術部です。

本日 2026-04-24、DeepSeek から DeepSeek-V4 Preview が公開されました。Pro と Flash の 2 種類構成、1M コンテキスト、MIT ライセンスでの重み公開と、要点だけでもそれなりのボリュームがあるリリースです。本記事では公式モデルカードと各種ベンチ公開値を、ローカル勢の視点で淡々と整理します。

数日前に Gemma 4・Qwen3.5・Qwen3.6 の MoE を 32GB MacBook Air M5 で比較したばかりですが、今回の V4 はそれらとはスケールが一段違います。現実に手元で動くサイズ感との対比として、前回の記事も併せて読むと温度感が掴みやすいはずです。

本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

何が発表されたか

発表されたのは DeepSeek-V4-ProDeepSeek-V4-Flash の 2 モデル構成です。いずれも MoE(Mixture of Experts、推論時に一部のエキスパートだけを活性化する疎なアーキテクチャ)で、1M トークンのコンテキスト長を備えます。

モデル 総パラメータ アクティブパラメータ コンテキスト 精度
DeepSeek-V4-Pro 1.6T 49B 1M FP4 + FP8 Mixed
DeepSeek-V4-Flash 284B 13B 1M FP4 + FP8 Mixed

精度は「MoE エキスパート部分は FP4、それ以外は FP8」の混合精度です。モデルカードでは MIT ライセンス と明記されており、重みも Hugging Face で公開されています。巨大 MoE を MIT で出してくるのは、Flash の 284B であっても派生や蒸留の自由度が高いという点で意味が大きいところです。

Think Max と呼ばれる推論モードも用意されており、こちらは最小 384K のコンテキスト窓が推奨値として提示されています。推奨サンプリングは temperature=1.0, top_p=1.0。温度 0 の決定論運用ではなく、モデル側の信頼度分布をそのまま拾う設計が前提のようです。

どこがすごいか

Preview 段階の公開ベンチマークのうち、V4-Pro Max の主要数値を拾うと次のようになります。

ベンチマーク V4-Pro Max 備考
LiveCodeBench Pass@1 93.5 競技系コード生成
Codeforces Rating 3206 GPT-5.4 は 3168。人間コンペ参加者 23 位相当と報道
SWE Verified (Resolved) 80.6 実リポジトリのバグ修正
SWE Pro (Resolved) 55.4 同、難易度高めのセット
Terminal Bench 2.0 (Acc) 67.9 ターミナル操作タスク
HMMT 2026 Feb 95.2 数学コンペ
IMOAnswerBench Pass@1 89.8 数学オリンピック系
MMLU-Pro EM 87.5 知識総合
SimpleQA-Verified Pass@1 57.9 事実系 QA
GPQA Diamond Pass@1 90.1 理工系難問
MRCR 1M (MMR) 83.5 1M コンテキストでの検索・参照
CorpusQA 1M 62.0 同上、QA タスク

ニュース記事でピックアップされているのは Codeforces Rating 3206 で、OpenAI GPT-5.4 の 3168 を上回る値です。報道では「人間コンペ参加者 23 位相当」と紹介されており、コーディング競技という限定的な土俵ではあるものの、クローズド最先端モデルを重み公開のモデルが抜いた形になります。LiveCodeBench 93.5、SWE Verified 80.6 と合わせ、コード系で頭一つ抜けた印象です。

1M コンテキストの MRCR 83.5 / CorpusQA 62.0 は、「長文をただ読める」から「長文を実用水準で参照できる」の線に乗った数字として読めます。ただしこのスコアを引き出すには Think Max モードと 384K 以上の窓が前提なので、API 経由・クラウド推論でも相応のコストになります。

アーキテクチャの新機軸

公式モデルカードで挙げられている構造上のポイントは大きく 3 つです。

1. Hybrid Attention (CSA + HCA)

Compressed Sparse Attention と Heavily Compressed Attention を組み合わせた設計で、1M コンテキスト時、V3.2 比で単一トークン推論 FLOPs が 27%、KV キャッシュが 10% と報告されています。長文を扱うときに一番効いてくるのは KV キャッシュの肥大化なので、ここを 1 桁圧縮できているなら、1M 運用の現実味がかなり変わります。

2. Manifold-Constrained Hyper-Connections (mHC)

残差接続を多様体制約で強化する仕組み、と説明されています。学習安定性と表現力の両立を狙った設計で、「1.6T を殴って通すための土台」と読むのが近そうです。

3. Muon Optimizer

学習アルゴリズム側の工夫です。収束高速化と学習安定性を目的として採用されており、このクラスの MoE を現実的な計算資源で学習させるためのレバーとして位置づけられています。

個別の技術要素はいずれも論文で先行して議論されてきたものですが、「1.6T MoE を 1M コンテキストで実用に持っていく」という目的に沿って一式組み合わせた事例としては、Preview 段階の情報でもかなり見応えがあります。

ローカル勢への含意

ここからが技術部として一番関心があるところです。MoE を個人機で動かす話は、アクティブパラメータ (推論時の計算 FLOPs = 速度軸) と総パラメータ (メモリに乗せる容量軸) をきれいに分けて考えるのが出発点です。Flash の 13B アクティブはあくまで「1 トークンあたりの計算量が 13B 相当」という意味であって、ロードに必要なメモリ容量とは別軸の話です。ここを取り違えると「13B アクティブなら 32GB MacBook でいけるのでは」という方向に引っ張られがちなので、まず軸を分けておきます。

公式が示しているハードウェア情報

公式モデルカード (Hugging Face) と inference README を当たった範囲では、VRAM・メモリの具体数値は一切出ていません。唯一の手がかりは出荷想定の並列構成で、Pro の inference README は EXPERTS=384 / MP=8 (Model Parallel 8 GPU 並列)、Flash の inference README は EXPERTS=256 / MP=4 (同 4 GPU 並列)、いずれも torchrun --nnodes ${NODES} でマルチノードにも対応する建て付けです。精度は FP4 (default) と FP8 を expert_dtype で切り替えられます。つまり「Pro は 8 GPU、Flash は 4 GPU の並列前提で出荷」という情報だけが示されていて、H100 / H200 クラスを複数並べる前提が透ける一方、具体値は伏せられている状態です。

以下で触れる「140〜160GB」「Q2 で 71GB」といった容量の数字は、いずれも一般的な量子化換算からの筆者推定であり公式値ではない点を先にお断りしておきます。

その上で V4-Pro (1.6T 総 / 49B アクティブ) と V4-Flash (284B 総 / 13B アクティブ) をそれぞれ見ていきます。

V4-Pro (1.6T / 49B active)

容量軸では、FP4 + FP8 Mixed でも概ね 800GB〜1TB 級の重み容量になる見込みです。Mac Studio M3 Ultra 512GB をもってしても直接ロードは厳しく、実質クラウド / 大型サーバ領域と考えるのが現実的です。速度軸ではアクティブ 49B なので計算量としては 49B Dense クラス相当ですが、容量ボトルネックのほうが先に当たるため、個人機での素直な運用は現段階では射程外です。公式が想定する MP=8 の並列構成とも整合する位置づけです。

V4-Flash (284B / 13B active)

こちらは状況が変わります。量子化レベルごとに必要メモリの目安を整理すると次のとおりです。前述のとおり公式値ではなく、一般的な量子化換算からの推定として幅を持たせて読んでください。

ビルド 必要メモリ (概算) 個人機の射程
FP4 + FP8 Mixed (ネイティブ相当) 概ね 140〜160GB Mac Studio M3 Ultra 256GB / 512GB なら収まる見込み
Q3 量子化ビルド (今後登場見込み) 概ね 107GB Mac Studio 128GB、M5 Max 128GB クラスまで射程内
Q2 量子化ビルド (超低ビット) 概ね 71GB 96GB / 128GB クラスでかろうじて射程内
1.58bit 三値化相当 概ね 57GB 64GB 機にはなお入らない
32〜64GB MacBook 全体ロードは不可 llama.cpp の MoE expert offload や ktransformers などで、CPU RAM 側にエキスパートを置き hot expert だけ GPU に載せる経路あり。速度はディスク / メモリ帯域次第

速度軸ではアクティブが 13B なので、メモリさえ確保できれば Qwen3-32B クラスの Dense モデルより速く回る可能性すらあります。これは MoE の設計思想がそのまま効いてくる部分です。参考として、DeepSeek-V3 671B を Mac Studio M3 Ultra 512GB で動かした事例は SNS 等で出回っており、V4-Flash (284B) はその半分以下の総パラメータなので、Mac Studio 大容量機勢にとっては完全に射程内と見ています。

「13B アクティブなら 32GB でいけるのでは」に正面から答えておく

アクティブ 13B という数字を見ると、32GB MacBook で素直に動きそうに思えます。ここは誤解が起きやすい箇所なので、技術部として 3 点だけ押さえておきます。

  1. 計算量とメモリは別軸。アクティブ 13B は「1 トークン生成あたりの FLOPs が 13B Dense 相当」という速度側の話で、メモリ常駐サイズには直結しません。
  2. MoE はエキスパート選択が毎トークン動的に変わる。次にどのエキスパートが選ばれるかは事前に分からないので、理屈上は全重みが即座にアクセスできる場所に置かれている必要があります。13B 分だけメモリに載せておけばいい、とはいきません。
  3. 量子化しても 32GB には入らない。上の表のとおり、FP4+FP8 Mixed で 140〜160GB、Q3 で約 107GB、Q2 でも約 71GB、1.58bit 三値化級まで削っても約 57GB です。Q2 まで削っても 32GB の倍以上で、単独ロードは素直には成立しません。

「動かす経路」自体は llama.cpp の MoE expert offload や ktransformers で存在します。エキスパートを SSD / CPU RAM に逃がし、選ばれたものだけを GPU / ユニファイドメモリに引き上げるやり方です。ただし実効速度は SSD 帯域・メモリ帯域で律速され、数 tok/s クラスまで落ちる可能性が高く、「13B アクティブだから 13B Dense 並みに速い」という直感どおりの体験にはなりません。ここは量子化ビルドとオフロード実装が揃ったタイミングで、実際の MacBook Air M5 で測って数字を置きに行きます。

近隣 MoE との比較

同じ「総 / アクティブ」の視点で近隣のオープン MoE と並べると、32GB 機から見た V4-Flash のスケール感が掴みやすくなります。

モデル 総パラメータ アクティブ Q4 目安 32GB 機で素直に動くか
Qwen3-Next 80B A3B 80B 3B 〜45GB △ (量子化すれば辛うじて)
Qwen3-235B A22B 235B 22B 〜130GB × (128GB クラス必要)
DeepSeek V4-Flash 284B 13B 140〜160GB (FP4+FP8) × (Q2 でも 71GB)
DeepSeek V4-Pro 1.6T 49B 800GB〜1TB × (大型サーバ領域)

V4-Flash は Qwen3-235B よりさらに総パラメータが大きい帯にいます。アクティブ 13B という数字は Qwen3-Next 80B A3B と Qwen3-235B A22B の中間にありますが、メモリに乗せなければいけない量という意味では Qwen3-235B より重い側です。32GB で素直に扱えるスケールではない、というのが正直なところです。

32〜64GB クラスの MacBook でも、llama.cpp の MoE expert offloading や ktransformers のようなオフロード実装が揃ってくれば「遅いが動く」経路は開けます。ただし実効速度はディスク I/O とメモリ帯域に強く依存するので、ここは量子化ビルドが揃ったタイミングで改めて手元で測ります。

MIT ライセンスの効き方

容量の話とは別に、MIT ライセンスで重みが公開された 事実は 1 年スパンで効いてきます。pareido.jp 技術部では、次の 4 つの派生経路に期待しています。

  • Distill / 小型化: 1.6T Pro や 284B Flash を教師に、手元で動くサイズまで蒸留したモデルが出てくる経路
  • 量子化ビルドの充実: Q3 / Q2 など、Mac Studio 128GB クラスで動かすためのコミュニティビルドが出揃う経路
  • 公式 API・クラウド推論: 重み公開されたモデルを各推論事業者がホストし、長文処理・コード生成の選択肢として API 採用される経路
  • 派生の MoE 設計: Hybrid Attention や mHC、Muon Optimizer が他のオープンモデルに波及し、中規模 MoE の底上げに効いてくる経路

現状、実用レベルでは依然としてクラウドの大型 LLM が優位ですが、重みが MIT で出回ったこと自体が「1 年後のローカル AI」のピースを 1 つ増やしています。V4-Pro の数字そのものよりも、V4-Flash の量子化ビルドが Mac Studio クラスに下りてくること、次に来る蒸留モデル・派生モデルの水準が底上げされることのほうが、手元のマシンにとっての意味は大きいでしょう。

まとめ

  • DeepSeek-V4 Preview は V4-Pro (1.6T / 49B active)V4-Flash (284B / 13B active) の 2 モデル構成、1M コンテキスト、FP4 + FP8 Mixed、MIT ライセンス
  • V4-Pro Max は Codeforces 3206 で GPT-5.4 を上回り、LiveCodeBench 93.5 / SWE Verified 80.6 とコード系で頭一つ抜けた数字を提示
  • Hybrid Attention により 1M 推論の FLOPs が V3.2 比 27%、KV キャッシュが 10% まで圧縮
  • V4-Pro (1.6T) は個人機の範疇外だが、V4-Flash (284B / 13B active) は Mac Studio 大容量機勢の射程内。量子化ビルドが揃えば 128GB クラスも狙える。MIT ライセンスで distill・派生・クラウド推論・量子化ビルドの選択肢が広がる

次回以降、Flash の量子化ビルドが市販ハードで動く形で出回ってきたら、MacBook Air M5 クラスで実際にどこまで動くかを検証します。

参考

タイトルとURLをコピーしました