Qwen 3.6-Plus が登場|エージェント特化の次世代 LLM は記事生成パイプラインに使えるか?

Qwen 3.6-Plus が登場|エージェント特化の次世代 LLM は記事生成パイプラインに使えるか? — Qwen 3.6-Plus, エージェント, 記事生成 AIテキスト

こんにちは、パレイド技術部です。

昨日の記事で、Gemma 4 と Qwen3.5 の記事生成パイプライン比較を行いました。

その結果が出たタイミングで、Alibaba の Qwen チームが次世代フラッグシップモデル Qwen 3.6-Plus を発表しました。

エージェント用途を前面に出した設計が特徴で、「チャットではなく実行する LLM」を標榜しています。本記事では、Qwen 3.6-Plus のリリース内容を整理し、pareido.jp の記事生成パイプラインとの関係を考察します。

本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

Qwen 3.6-Plus の概要

項目内容
リリース日2026-04-02(プレビュー: 3/30)
コンテキスト100万トークン(Qwen3.5 の 262K から約 4 倍)
最大出力65,536 トークン
推論モード常時 CoT(Chain-of-Thought)— ON/OFF の切替なし
Function Callingネイティブ対応
マルチモーダルなし(テキストのみ。Qwen3.5 Omni とは別ライン)
利用方法OpenRouter(無料プレビュー)/ Bailian(有料 API)
オープンソース未公開(「数日以内に公開予定」と発表)

Qwen3.5 からの主な変更点

1. コンテキスト長の大幅拡大

262K → 100万トークン。大規模コードベースやドキュメント全体を一度に処理できるようになりました。実用上も長文処理でコンテキスト長が制約になるケースがありましたが、100万トークンなら余裕です。

2. 常時 CoT 推論

Qwen3.5 では thinking モードの ON/OFF を制御できましたが、3.6-Plus では常時 ONに変更されました。ただし「過剰な思考を抑制する」改良が入っており、単純なタスクでは少ないトークンで回答に到達するとのこと。

当サイトのベンチマークでは qwen3.5 は thinking OFF で実行しましたが、これは過剰なthinkingから返ってこない、暴走のような挙動を防ぐための措置です。3.6 では選択の余地がありませんので、パイプラインの各 Pass で thinking が暴走しないか、実際の挙動を見る必要があります。

3. エージェント機能の強化

Qwen 3.6-Plus が最も力を入れているのがエージェント用途です。

ベンチマークQwen 3.6-PlusClaude Opus 4.5備考
Terminal-Bench 2.061.659.3ターミナル操作の自律実行
SWE-bench Verified78.880.9コーディング(僅差)
MCPMark48.2%ツール呼び出しの信頼性
OmniDocBench v1.591.287.7ドキュメント認識
RealWorldQA85.477.0画像推論

Terminal-Bench 2.0 や MCPMark など、「自律的にタスクを実行する」系のベンチマークで高スコアを記録しています。記事生成パイプラインは LLM を複数回呼び出す多段階処理なので、エージェント的な安定性が効く可能性があります。

4. 速度

公称スループットは 158 tok/s(中央値)。GPT-5.4 (76 tok/s) や Claude Opus 4.6 (93.5 tok/s) を上回るとされています。ただしこれはクラウド API での値であり、ローカル実行時の速度ではありません。

ローカル実行はいつできるか

現時点(2026-04-07)で、Qwen 3.6 のオープンソース版は未公開です。Alibaba は「数日以内に小型モデルを公開予定」と発表していますが、具体的なパラメータ数やアーキテクチャ(Dense / MoE)は明らかにされていません。

昨日の記事で比較した Qwen3.5 のラインナップを振り返ると:

モデルタイプパラメータローカル実行
qwen3.5:9bDense9BMLX / Ollama
qwen3.5:27bDense27.8BMLX
qwen3.5:35bMoE (活性化3B)36.0B (総)Ollama

Qwen 3.6 でも同様のサイズバリエーションが出ると期待されますが、「常時 CoT」がローカルの小型モデルでどう動くかは未知数です。Qwen3.5 の thinking モードは 27b で暴走することがあり、OFF にすることで安定動作を確保していました。3.6 で OFF にできないとすると、特に小型モデルでは注意が必要です。

mlx-lm の対応状況

Qwen3.5 は mlx-lm v0.31.1 で対応済みですが、3.6 のアーキテクチャが変更されていれば新たな対応が必要です。Gemma 4 と同様、リリース直後は mlx-lm 未対応→Ollama で先行、という流れになる可能性があります。

記事生成パイプラインへの期待と懸念

期待

  • 100万トークンのコンテキスト: Pass C(アセンブル)での制約が完全に解消される
  • エージェント安定性: 多段階処理での「指示遵守」スコアが上がる可能性
  • 速度: MoE バリエーションが出れば、gemma4:26b (390s) を超える速度も期待できる

懸念

  • 常時 CoT: thinking を OFF にできないため、パイプラインの各 Pass で思考トークンが大量に消費され、速度低下する可能性
  • ローカル非対応: オープンソース版が出るまでパイプラインに組み込めない
  • テキストのみ: マルチモーダル機能がないため、画像を含む記事には使えない

まとめ

  • Qwen 3.6-Plus はエージェント特化のフラッグシップ LLM。100万トークンのコンテキストと常時 CoT 推論が特徴
  • ローカル実行は未対応。オープンソース版は「数日以内」とされるが未公開
  • 記事生成パイプラインとの相性は、常時 CoT の挙動次第。ON/OFF 制御できた Qwen3.5 と異なり、thinking が暴走するリスクがある
  • 比較記事は次のステップ。オープンソース版が公開されたら、4/6 のベンチマーク(gemma4 / qwen3.5)と同一条件で qwen3.6 を試し、3 世代横断比較を実施する予定
タイトルとURLをコピーしました