こんにちは、パレイド技術部です。
昨日の記事で、Gemma 4 と Qwen3.5 の記事生成パイプライン比較を行いました。
その結果が出たタイミングで、Alibaba の Qwen チームが次世代フラッグシップモデル Qwen 3.6-Plus を発表しました。
エージェント用途を前面に出した設計が特徴で、「チャットではなく実行する LLM」を標榜しています。本記事では、Qwen 3.6-Plus のリリース内容を整理し、pareido.jp の記事生成パイプラインとの関係を考察します。
本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
Qwen 3.6-Plus の概要
| 項目 | 内容 |
|---|---|
| リリース日 | 2026-04-02(プレビュー: 3/30) |
| コンテキスト | 100万トークン(Qwen3.5 の 262K から約 4 倍) |
| 最大出力 | 65,536 トークン |
| 推論モード | 常時 CoT(Chain-of-Thought)— ON/OFF の切替なし |
| Function Calling | ネイティブ対応 |
| マルチモーダル | なし(テキストのみ。Qwen3.5 Omni とは別ライン) |
| 利用方法 | OpenRouter(無料プレビュー)/ Bailian(有料 API) |
| オープンソース | 未公開(「数日以内に公開予定」と発表) |
Qwen3.5 からの主な変更点
1. コンテキスト長の大幅拡大
262K → 100万トークン。大規模コードベースやドキュメント全体を一度に処理できるようになりました。実用上も長文処理でコンテキスト長が制約になるケースがありましたが、100万トークンなら余裕です。
2. 常時 CoT 推論
Qwen3.5 では thinking モードの ON/OFF を制御できましたが、3.6-Plus では常時 ONに変更されました。ただし「過剰な思考を抑制する」改良が入っており、単純なタスクでは少ないトークンで回答に到達するとのこと。
当サイトのベンチマークでは qwen3.5 は thinking OFF で実行しましたが、これは過剰なthinkingから返ってこない、暴走のような挙動を防ぐための措置です。3.6 では選択の余地がありませんので、パイプラインの各 Pass で thinking が暴走しないか、実際の挙動を見る必要があります。
3. エージェント機能の強化
Qwen 3.6-Plus が最も力を入れているのがエージェント用途です。
| ベンチマーク | Qwen 3.6-Plus | Claude Opus 4.5 | 備考 |
|---|---|---|---|
| Terminal-Bench 2.0 | 61.6 | 59.3 | ターミナル操作の自律実行 |
| SWE-bench Verified | 78.8 | 80.9 | コーディング(僅差) |
| MCPMark | 48.2% | – | ツール呼び出しの信頼性 |
| OmniDocBench v1.5 | 91.2 | 87.7 | ドキュメント認識 |
| RealWorldQA | 85.4 | 77.0 | 画像推論 |
Terminal-Bench 2.0 や MCPMark など、「自律的にタスクを実行する」系のベンチマークで高スコアを記録しています。記事生成パイプラインは LLM を複数回呼び出す多段階処理なので、エージェント的な安定性が効く可能性があります。
4. 速度
公称スループットは 158 tok/s(中央値)。GPT-5.4 (76 tok/s) や Claude Opus 4.6 (93.5 tok/s) を上回るとされています。ただしこれはクラウド API での値であり、ローカル実行時の速度ではありません。
ローカル実行はいつできるか
現時点(2026-04-07)で、Qwen 3.6 のオープンソース版は未公開です。Alibaba は「数日以内に小型モデルを公開予定」と発表していますが、具体的なパラメータ数やアーキテクチャ(Dense / MoE)は明らかにされていません。
昨日の記事で比較した Qwen3.5 のラインナップを振り返ると:
| モデル | タイプ | パラメータ | ローカル実行 |
|---|---|---|---|
| qwen3.5:9b | Dense | 9B | MLX / Ollama |
| qwen3.5:27b | Dense | 27.8B | MLX |
| qwen3.5:35b | MoE (活性化3B) | 36.0B (総) | Ollama |
Qwen 3.6 でも同様のサイズバリエーションが出ると期待されますが、「常時 CoT」がローカルの小型モデルでどう動くかは未知数です。Qwen3.5 の thinking モードは 27b で暴走することがあり、OFF にすることで安定動作を確保していました。3.6 で OFF にできないとすると、特に小型モデルでは注意が必要です。
mlx-lm の対応状況
Qwen3.5 は mlx-lm v0.31.1 で対応済みですが、3.6 のアーキテクチャが変更されていれば新たな対応が必要です。Gemma 4 と同様、リリース直後は mlx-lm 未対応→Ollama で先行、という流れになる可能性があります。
記事生成パイプラインへの期待と懸念
期待
- 100万トークンのコンテキスト: Pass C(アセンブル)での制約が完全に解消される
- エージェント安定性: 多段階処理での「指示遵守」スコアが上がる可能性
- 速度: MoE バリエーションが出れば、gemma4:26b (390s) を超える速度も期待できる
懸念
- 常時 CoT: thinking を OFF にできないため、パイプラインの各 Pass で思考トークンが大量に消費され、速度低下する可能性
- ローカル非対応: オープンソース版が出るまでパイプラインに組み込めない
- テキストのみ: マルチモーダル機能がないため、画像を含む記事には使えない
まとめ
- Qwen 3.6-Plus はエージェント特化のフラッグシップ LLM。100万トークンのコンテキストと常時 CoT 推論が特徴
- ローカル実行は未対応。オープンソース版は「数日以内」とされるが未公開
- 記事生成パイプラインとの相性は、常時 CoT の挙動次第。ON/OFF 制御できた Qwen3.5 と異なり、thinking が暴走するリスクがある
- 比較記事は次のステップ。オープンソース版が公開されたら、4/6 のベンチマーク(gemma4 / qwen3.5)と同一条件で qwen3.6 を試し、3 世代横断比較を実施する予定


