OpenAI GPT-5.5 公開｜標準 / Pro / Thinking / Codex Fast の 4 形態

こんにちは、パレイド技術部です。

米国時間 2026-04-23、OpenAI から GPT-5.5 が公開されました。GPT-5.4 のリリースから約 6 週間という短い間隔での更新で、標準・Pro・Thinking・Codex 内 Fast mode という 4 つの形態で展開されます。

同じ週に重み公開側で DeepSeek-V4 Preview も出ており、クローズドとオープンの両側で最先端更新が同時に走った週という位置づけになりました。本記事では OpenAI 公式アナウンスに明記されている数字と文言を主ソースにして、ローカル勢・個人開発者の視点で淡々と整理します。

DeepSeek-V4 Preview については別記事に整理済みです。1.6T MoE / 1M コンテキスト / MIT ライセンスという座組みで、今回の GPT-5.5 とは対照的なリリースになっています。

本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI（Claude 等）の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

何が発表されたか
API提供予定と価格
ベンチマーク
長文性能の劇的な底上げ
GPT-5.4 比で何が変わったか
安全性: Preparedness Framework で High 分類
定性的な評価や意見
まとめ
参考

何が発表されたか

GPT-5.5 は単一のモデルではなく、用途別に 4 つの形態で提供されます。以下は OpenAI 公式アナウンスに明記されているラインナップです。

形態	位置づけ	提供チャネル
gpt-5.5	標準モデル	ChatGPT Plus / Pro / Business / Enterprise、および Codex
gpt-5.5-pro	長時間・高難度タスク向け	ChatGPT Pro / Business / Enterprise
GPT-5.5 Thinking	ChatGPT 内の推論モード	ChatGPT Plus / Pro / Business / Enterprise
Codex 内 Fast mode	高速生成モード	Codex

標準の gpt-5.5 は ChatGPT と Codex の Plus / Pro / Business / Enterprise に展開されます。API (Responses / Chat Completions) からの提供は “very soon” (近日) とされており、本稿時点ではアナウンスのみです。gpt-5.5-pro は Pro プラン以上限定で、長い思考時間を許容する難易度の高いタスク向けに振った位置づけです。

ChatGPT 側には別途 GPT-5.5 Thinking という推論モードがあり、Codex 側には Fast mode が用意されています。公式文言によれば Fast mode は通常出力に対して 1.5 倍の速度で動き、代わりにコストは 2.5 倍 という設定です。レイテンシ優先のコーディング用途向けで、時間のほうがお金より貴重な局面に限定したオプション、という棲み分けです。

コンテキスト長について公式が明示しているのは Codex 内で 400K という数字です。API 版の窓サイズは後掲の価格表に 1M context と併記されています。「API は 1M、Codex (クライアント側) は 400K」という設計になっている点は注意しておく価値があります。

API提供予定と価格

API は「very soon」で、本稿時点では未提供。価格は発表済みで、一番関心が高いのもここでしょう。公式ページに明記されている価格は以下のとおりです。

モデル	入力 (per 1M tokens)	出力 (per 1M tokens)	コンテキスト
gpt-5.5	$5	$30	1M
gpt-5.5-pro	$30	$180	1M

さらに運用モード別の係数も公式に示されています。

Batch / Flex: 標準価格の 50%
Priority processing: 標準価格の 2.5 倍

gpt-5.5 の 入力 $5 / 出力 $30 という価格は、Claude Opus 系や Gemini 3 Pro 系のフラッグシップ帯と比べれば実質的にかなり攻めた水準です。Priority 2.5 倍を選んでも入力 $12.5 / 出力 $75 で、一世代前のトップ層の定価に収まります。逆に Batch / Flex 50% を活用できれば、入力 $2.5 / 出力 $15 と、バルク処理・バックオフィス系にも置きやすいレンジまで落ちてきます。

ただし、1M コンテキストを本当に使い切ると金額は跳ねます。入力 1M トークンだけで $5、Pro に切り替えると $30 で、これは 1 リクエストの入力費用です。長文 RAG を素朴に全部詰め込む運用は、数字上の可能性と実運用コストが 1 桁ずれることがあるので、コンテキスト圧縮・チャンク戦略の重要性は引き続き変わりません。

ベンチマーク

公式ページに横並びで載っている数字を、他モデルとの並列で整理します。以下はすべて OpenAI が公開しているベンチマーク表からの抜粋で、GPT-5.5 が全部勝っているわけではない ことが公式表の時点で明示されている点に留意してください。

コード系

ベンチマーク	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro	判定
SWE-Bench Pro (Public)	58.6%	57.7%	64.3%	54.2%	△ Claude Opus 4.7 が公式表で最上位
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%	○ GPT-5.5 がリード
Expert-SWE (OpenAI 内部)	73.1%	68.5%	—	—	○ GPT-5.4 から 4.6 pt 改善

SWE-Bench Pro は実リポジトリのバグ修正タスクで、公式表での最上位は Claude Opus 4.7 の 64.3%、GPT-5.5 は 58.6% で 2 番手です。GPT-5.4 (57.7%) からの純増は 1 pt 弱と小幅で、「コード編集の実タスク系ではまだ Claude が一枚上」という構図が公式発表の時点で示されています。

一方でターミナル操作タスク (Terminal-Bench 2.0) は GPT-5.5 82.7% に対して Opus 4.7 69.4% / Gemini 3.1 Pro 68.5% と差が大きく、エージェント系の動作ループでは明確にリードしています。「コードを書く」と「ターミナルで回す」は公式表でも別物として扱われており、用途に応じて採用モデルを変える前提が数字に出ています。

プロフェッショナル / エージェント

ベンチマーク	GPT-5.5	GPT-5.5 Pro	GPT-5.4	備考
GDPval (wins or ties)	84.9%	82.3%	—	プロフェッショナルワーク評価
Tau2-bench Telecom (original)	98.0%	—	92.8%	カスタマサポート系、5 pt 改善
OSWorld-Verified	78.7%	—	—	OS 操作エージェント

ツール使用

ベンチマーク	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	Gemini 3.1 Pro	判定
BrowseComp	84.4%	90.1%	—	—	○ Pro で大きく伸びる
MCP Atlas	75.3%	—	79.1%	78.2%	△ ここは Claude / Gemini 優位
Toolathlon	55.6%	—	—	—	—

学術 / 推論

ベンチマーク	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	Gemini 3.1 Pro	判定
FrontierMath Tier 1–3	51.7%	52.4%	—	—	○ Pro が最上位
FrontierMath Tier 4	35.4%	39.6%	—	—	○ Pro が最上位
GPQA Diamond	93.6%	—	94.2%	94.3%	△ 僅差、Gemini 最上位
Humanity’s Last Exam (no tools)	41.4%	—	46.9%	—	△ Claude Opus 4.7 が最上位
ARC-AGI-2	85.0%	—	75.8%	77.1%	○ GPT-5.5 が明確にリード

HLE (Humanity’s Last Exam) no tools は Claude Opus 4.7 46.9% に対し GPT-5.5 41.4% で、人間の専門知識を問う系では Claude 優位のまま据え置きです。一方 ARC-AGI-2 は GPT-5.5 85.0% が他 2 モデルに対して 10 pt 弱の差をつけており、抽象パターン推論は GPT-5.5 が一段抜けている という見え方になります。

サイバー

ベンチマーク	GPT-5.5	GPT-5.4	Claude Opus 4.7
CyberGym	81.8%	79.0%	73.1%
Capture-the-Flags (Internal, hardest)	88.1%	83.7%	—

CyberGym は 81.8% で Opus 4.7 の 73.1% に対して 8 pt 超のリードです。サイバーセキュリティ系は後述の Preparedness Framework の分類にも直結する領域なので、数字の上昇と同時に運用側の制約も増えている点に注意が必要です。

全体の温度感

公式表を通して見ると、GPT-5.5 は「ターミナル / エージェント / 抽象推論 / サイバー」で明確にリードし、「実リポジトリのコード編集と、HLE 的な専門知識」では Claude Opus 4.7 に及ばない、という構図です。総合指標 1 位 = すべての用途で最強、にはならないのがこの手の発表のいつもの前提で、タスクとの相性は引き続き自前の実タスクで測る必要がある、というのが実運用上の結論になります。

長文性能の劇的な底上げ

今回の発表で技術部として一番目を引いたのは、長文コンテキストのベンチ性能が GPT-5.4 から一段ないし二段跳ねている 点です。1M コンテキスト自体は前世代からありましたが、「窓が 1M ある」ことと「1M 近辺で実用に耐える回答を返す」ことは別問題で、後者の数字がここで明確に変わっています。

ベンチマーク	GPT-5.5	GPT-5.4	倍率
OpenAI MRCR v2 (8-needle, 512K–1M)	74.0%	36.6%	約 2 倍
Graphwalks BFS (1M, f1)	45.4%	9.4%	約 5 倍

MRCR v2 は「長いコンテキストに埋められた複数個の手がかりを拾わせる」タスクで、512K–1M 帯で 36.6% → 74.0% の 2 倍超。Graphwalks BFS は長文中のグラフ構造に対する幅優先探索で、1M 帯で 9.4% → 45.4% の約 5 倍。どちらも GPT-5.4 のスコアが「1M まで窓はあるが実用ラインに届いていない」水準だったのに対し、GPT-5.5 で実用側に寄ってきた、という数字の動き方です。128K–256K / 256K–512K の中間帯でも GPT-5.4 から大幅に改善している、と公式では併せて記載されています。

「窓サイズ = ベンチ性能」ではない、というのは長文 LLM を扱う際の定番の前提ですが、今回その前提を踏まえても、1M コンテキストがベンチ上でも実用的な数字を出し始めた週 として記録する価値があります。長文 RAG を「埋めたら埋めた分だけ効く」前提で組めるようになりつつある、という温度感です。

GPT-5.4 比で何が変わったか

ベンチマーク以外で、公式が GPT-5.4 比の改善として明記している点をまとめます。

Per-token latency は同等: 1 トークンあたりの生成速度は GPT-5.4 と同等水準を維持
同一タスクに必要なトークン消費が削減: Codex 上で同じタスクを GPT-5.4 より少ないトークン数で完遂
長文コンテキスト性能の大幅改善: 上記 MRCR v2 / Graphwalks の数字
NVIDIA GB200 / GB300 NVL72 で co-design / 学習 / 配信: インフラ側も更新されている

per-token の速度は変えず、同じタスクを短いトークン列で片付けられるようにする というチューニングの方向性は、API 従量課金で使う側にとっては地味に効きます。ベンチマーク上の正答率と別に、運用コストの内部実効値が下がる、というタイプの改善だからです。OpenAI 社内では 85% のスタッフが週次で Codex を使い、Finance 部門では K-1 税務フォーム 24,771 件 / 71,637 ページを Codex でレビューする事例が紹介されています。社内利用の実働ボリュームを公開している点も、効率化の方向性と整合する発表姿勢です。

安全性: Preparedness Framework で High 分類

運用上無視できないのは、Preparedness Framework 下の分類です。OpenAI は GPT-5.5 について biological/chemical と cybersecurity を「High」に分類 したと明記しています (「Critical」には到達せず、という条件つき)。

実運用で効いてくるのはサイバー系で、より厳しい classifier が展開されている、かつ 初期は誤検知で正当な要求が拒否される可能性がある と OpenAI 自身が明言しています。セキュリティ調査や脆弱性解析の文脈で API 経由のタスクを流したとき、本来通るべきリクエストが止まる期間がありうる、ということです。対策として Trusted Access for Cyber というプログラムが Codex から開始され、認証済みの防御者向けには制限を緩和する仕組みが用意されています。

詳細は System Card (https://deploymentsafety.openai.com/gpt-5-5) と Preparedness Framework v2 (https://cdn.openai.com/pdf/18a02b5d-6b67-4cec-ab64-68cdfbddebcd/preparedness-framework-v2.pdf) に記載されています。前掲の CyberGym 81.8% / CTF 内部最難 88.1% といった数字の上昇と、この運用側の制約はセットで読む必要があります。

定性的な評価や意見

雰囲気としての外部コメントも引いておきます。Cursor の CEO Michael Truell は「stays on task for significantly longer without stopping early」(早期に手を止めずに長くタスクを続けられる) と述べ、NVIDIA のエンジニアは「Losing access to GPT-5.5 feels like I’ve had a limb amputated」(GPT-5.5 へのアクセスを失うと四肢を切り落とされたような感覚) と表現しています。また、内部実験版が Ramsey 数について新しい証明を発見し、Lean で検証された、というエピソードも紹介されています。定量の裏付けがある話ではないので、ここでは「そういう温度感で使われ始めている」というレベルに留めておきます。

ローカル勢・個人開発者視点の含意

ここまでの数字と仕様を、「手元で動くローカル AI」を本命視点に置いたときにどう読むかを整理しておきます。

1. クローズド最先端は 7 週間で動く

GPT-5.4 から 7 週間で GPT-5.5。同じ週に重み公開側で DeepSeek-V4 Preview。この 2 つを並べて見ると、クローズドは反復速度、オープンはライセンスと派生可能性で、それぞれが違うレーンで走っていることがはっきり見えます。技術部としては、ローカル AI 準備の評価基準を「半年前のクラウド水準」ではなく、「今月のクラウド水準」に合わせ続けるしかありません。

2. 1M コンテキストがベンチ上では実用側に寄ってきた

GPT-5.5 の MRCR v2 512K–1M が 74.0% (GPT-5.4 の 36.6% から 2 倍超)、Graphwalks BFS 1M が 45.4% (9.4% から約 5 倍) と、長文ベンチが一段跳ねています。同日公開の DeepSeek-V4-Pro Max は別種のベンチ (MRCR 1M で 83.5 付近) を公開しており、ベンチが別物なので直接比較はできません。ただし両者とも 1M コンテキストをベンチ上の実用水準に寄せ始めた、という構図はそろいました。「窓はあるけど使い物にならない 1M」から、「ベンチ上は使える 1M」へ、クローズドとオープンが同時に移行した週、という見方になります。

3. API 価格 $5 / $30 は実質コスト優位

同等クラスのクローズド最先端と比較したとき、gpt-5.5 の入力 $5 / 出力 $30 は定価ベースで優位な水準です。Batch / Flex 50% まで落とせば、バルク処理での置き場所は広がります。逆に gpt-5.5-pro の入力 $30 / 出力 $180 は、Pro プラン限定かつ長時間推論向けという位置づけそのもので、「ここぞ」のタスクに限定するコスト感です。

4. 1M コンテキストは数字上の可能性と運用コストが別物

API 1M / Codex 400K というコンテキスト窓は強力で、長文ベンチも改善しましたが、1M を本当に埋めると入力だけで標準で $5、Pro で $30 が 1 リクエストあたり発生します。「とりあえず全部入れる」運用が成り立つ価格ではないので、ローカル側で下処理・圧縮・RAG を挟み、API には「効いている文脈だけを渡す」設計は引き続き必須です。ここは手元のローカル AI が下処理側を担う経路としても、むしろ追い風になります。

5. Codex Fast mode / GPT-5.5 Pro の棲み分け

Codex の Fast mode は公式文言で 1.5 倍速度 / 2.5 倍コスト、GPT-5.5 Pro は「長時間かけて難問を解く」と、速度と思考深度で明確に役割が分かれています。ローカル側で小〜中型モデルを常駐させる構成と組み合わせたとき、手元のローカルで高頻度な編集補助 → 通常の Codex で日常のコード生成 → Fast mode で時間が惜しい局面 → GPT-5.5 Pro で難所攻略、という四段構成が現実的な落としどころになりそうです。

6. サイバー系ワークは classifier の強化を織り込む

前述のとおり、Preparedness Framework で cybersecurity が High 分類に変わり、classifier が厳しめに設定されています。脆弱性解析・攻撃検知の文脈で GPT-5.5 を API で回そうとすると、過検知で正当なリクエストが止まる可能性があります。業務で本格的に使うなら Trusted Access for Cyber プログラムへの申請を視野に入れる、API でダメならローカル側に逃す、という回避経路を設計に入れておく必要があります。

まとめ

GPT-5.5 は gpt-5.5 / gpt-5.5-pro / GPT-5.5 Thinking / Codex 内 Fast mode (1.5x 速度 / 2.5x コスト) の構成。Codex は 400K コンテキスト、API 版 (1M コンテキスト) は “very soon” 提供
API 価格は gpt-5.5 で入力 $5 / 出力 $30、gpt-5.5-pro で入力 $30 / 出力 $180 (per 1M tokens)、Batch/Flex 50% / Priority 2.5 倍
ベンチマークは Terminal-Bench 2.0 82.7% / ARC-AGI-2 85.0% / Tau2 Telecom 98.0% で GPT-5.5 リード、一方 SWE-Bench Pro は Claude Opus 4.7 64.3% が最上位 (GPT-5.5 58.6%)、HLE no tools も Opus 4.7 46.9% (GPT-5.5 41.4%) で Claude 優位。GPQA Diamond は Gemini 3.1 Pro 94.3% が僅差で最上位
長文性能が大幅改善: MRCR v2 512K–1M で 36.6% → 74.0% (2 倍超)、Graphwalks BFS 1M で 9.4% → 45.4% (約 5 倍)
GPT-5.4 比で per-token レイテンシは同等、同一タスクのトークン消費を Codex で削減、NVIDIA GB200 / GB300 NVL72 で co-design / 学習 / 配信
Preparedness Framework 下で biological/chemical と cybersecurity が「High」分類。cyber classifier が厳格化され初期は誤検知での拒否がありうる旨、OpenAI も明記。Trusted Access for Cyber プログラムを Codex から開始
同じ週に DeepSeek-V4 Preview (MIT / 1.6T MoE / 1M コンテキスト) が公開され、クローズドとオープンが同時に 1M コンテキストをベンチ上の実用水準に寄せ始めた週 という構図