こんにちは、パレイド技術部です。
OpenAI が新しい音声モデルファミリーを 2026 年 5 月 7 日(米時間)に発表しました。gpt-realtime-2 / gpt-realtime-translate / gpt-realtime-whisper の 3 兄弟で、特に最後の gpt-realtime-whisper は名前のとおり「Whisper のリアルタイム版」です。whisper-large-v3 の “次” を待っていた私たちにとっては、悩ましい部分と期待が入り混じるリリースでした。
結論から言うと、今回の gpt-realtime-whisper は「Whisperの進化版」というより、「ストリーミングという別軸に切り出された専用 Whisper」です。汎用 Whisper の置き換えにはならない、と OpenAI 自身が線引きしています。本記事では、3 兄弟の役割分担、gpt-realtime-whisper の中身、既存の Whisper 系(whisper-large-v3、whisper.cpp、Faster-Whisper、MLX-Whisper)との立ち位置の違い、そして「ローカル版は出るのか」までを技術部の視点で整理します。
本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
何がリリースされたか
3 モデルがまとめて API 公開されました。リリース日は 2026 年 5 月 7 日(米時間)。
| モデル ID | 用途 | 入出力 | 料金(1 分あたり、3 兄弟相対) |
|---|---|---|---|
gpt-realtime-2 |
音声推論(音声入出力+ツール呼び出し) | Audio+Text → Audio+Text | 最高位 |
gpt-realtime-translate |
同時通訳 | Audio → Text+Audio | 中位 |
gpt-realtime-whisper |
ストリーミング音声認識 | Audio+Text → Text | $0.017 = 3 兄弟で最安 |
gpt-realtime-whisper は 3 兄弟で最安です。OpenAI がストリーミング転写を「いちばんカジュアルに使ってほしい」価格帯に置いたことが読み取れます。
3 つのうち本記事の焦点は最後の gpt-realtime-whisper ですが、3 兄弟をまとめて理解しないと立ち位置がぼやけるので、まず「なぜ 3 つに割ったのか」から見ていきます。
なぜ 3 つに割ったのか
従来の音声 AI は ASR → LLM → TTS の直列パイプでした。
[音声] → ASR (Whisper) → [テキスト] → LLM (GPT-4o 等) → [テキスト] → TTS → [音声]
この構造はリアルタイム用途では「段ごとのレイテンシが積み重なる」という致命的な弱点を抱えていました。実測例では ASR ストリーミングに 350ms、LLM 生成に 375ms、TTS に 100ms、そこに各サービス間ホップが乗り、OpenAI 自身が gpt-realtime ローンチ時に「伝統的な STT→LLM→TTS パイプはベストで 1.5 秒、実条件で 2〜3 秒」と明言しています。一方、同じアナウンスで OpenAI はネイティブ Realtime(音声 → 音声を 1 モデルで処理する設計)は < 400ms だと示しており、一般的なAIチャットでは十分高性能に聞こえますが、人間同士の自然な会話のテンポとは明らかに別物のレイテンシで動いていたことが分かります。
OpenAI が今回出した答えは「直列パイプを廃して、用途別にモデルを最適化する」でした。3 兄弟の役割分担を整理するとこうなります。
| 兄弟 | 結合する区間 | 最適化の主軸 |
|---|---|---|
gpt-realtime-2 |
ASR + 推論 + TTS を end-to-end | 賢さ(推論の質、ツール呼び出し) |
gpt-realtime-translate |
ASR + 翻訳 + TTS を結合 | 言語ペアの双方向精度(70 入力 → 13 出力) |
gpt-realtime-whisper |
ASR 区間だけを streaming 最適化 | レイテンシ × WER のトレードオフ |
つまり「Whisper の正常進化版」を 1 つ出したのではなく、用途で最適化点が違うので 1 モデルでは賄えないという認識のもとに、ASR 区間だけを切り出した streaming 専用機種が gpt-realtime-whisper です。「なぜ Whisper 単体に 3 兄弟が必要なのか」ではなく、「なぜ 3 兄弟のうち 1 つが Whisper を冠しているのか」と読むのが正確です。
gpt-realtime-whisper の中身
ここからが主役です。API 仕様、料金、レイテンシ調整、そして「OpenAI 自身が引いた線」を順に見ます。
API 仕様
| 項目 | 値 |
|---|---|
| モデル ID | gpt-realtime-whisper |
| 入出力 | Audio + Text → Text |
| エンドポイント | /v1/realtime/transcription_sessions |
| 接続方式 | WebSocket / WebRTC / SIP |
| オーディオ形式 | 24kHz mono PCM、base64 で input_audio_buffer.append |
| イベント | …transcription.delta(部分結果) / …transcription.completed(確定結果) |
| コンテキスト窓 | 16,000 |
| 最大出力トークン | 2,000 |
セッションを type: "transcription" で開いて、PCM チャンクを input_audio_buffer.append で流し込み、commit で区切る——というのが基本フローです。VAD(Voice Activity Detection)を有効にすればモデル側でターン区切りを判定してくれるので、自前で音量しきい値を持たなくても良い設計になっています。
料金感
$0.017 / 分。1 時間の会議をフル尺で流すと約 $1.5 ちょっとの計算です。Tier 別の上限は 1 分あたりの分数で表現されます。
| Tier | RPM(分/分) |
|---|---|
| 1 | 100 |
| 2 | 350 |
| 3 | 650 |
| 4 | 1,000 |
| 5 | 1,300 |
「1 分あたりに 100 分の音声を処理できる」=同時セッション 100 本相当が Tier 1 の上限。個人開発で枯渇する数字ではありません。
レイテンシ × 精度のトレードオフ
gpt-realtime-whisper の本質的な売りはここです。0.4 秒から 3.0 秒の範囲でレイテンシを調整できる。ドキュメントが推奨する評価点は次の通りです。
| 設定 | 用途想定 | 精度(WER)の相対傾向 |
|---|---|---|
| 0.4 秒 | レイテンシ最優先(音声 UI、ライブ字幕の頭出し) | 悪化 |
| 1.0–1.5 秒 | バランス(議事録のリアルタイム表示) | 中位 |
| 3.0 秒 | 精度優先(コンテキストを多めに集めて確定) | 改善 |
ここがポイントなのですが、OpenAI のドキュメントは「ベンチマーク数値は出さないので各自で測れ」と明言しています。
gpt-realtime-whisper is an alternative for live transcription, not a blanket replacement for every transcription model, and should be tested against your audio, languages, vocabulary, and latency requirements before switching production traffic.
これは過去の whisper-1 / whisper-large-v3 のリリース時とは明確に温度感が違うアナウンスです。マイクの種類、電話帯域、訛り、背景雑音、コードスイッチング、専門語彙、長セッション——本番条件で計測しろ、と書いてある。「速さの数字」を売り文句にしないモデルです。
OpenAI 自身が引いた線
公式ドキュメントが繰り返し言っているのは「gpt-realtime-whisper は live transcription の代替であって、すべての転写モデルの包括的な置き換えではない」という点。具体的には:
- whisper-1 は引き続き API で提供される(Whisper Model 公式ページは残っている)
- バッチ転写には
whisper-1のほうが安定。ストリーミング前提の用途だけgpt-realtime-whisperを検討しろ - 言語サポートは「自前で検証しろ」(個別言語の精度数値は非公開)
つまり「Whisper を 1 つ強くした」のではなく「Whisper の用途を 2 系統に分けた」のが今回のリリースの本質です。
既存の Whisper 系との違い
ここまで API 側の話が続いたので、既存のローカル Whisper 系との関係を整理します。比較表を一枚にまとめます。
| whisper-large-v3 | whisper.cpp | Faster-Whisper | MLX-Whisper | gpt-realtime-whisper | |
|---|---|---|---|---|---|
| ライセンス | MIT (OSS) | MIT (OSS) | MIT (OSS) | MIT (OSS) | プロプライエタリ API |
| 動作環境 | GPU/CPU (Python) | C++ ネイティブ、Mac/Linux/Win | CTranslate2 (Python, CPU/GPU) | Apple Silicon (Python) | クラウドのみ |
| オフライン動作 | ○ | ○ | ○ | ○ | ✗ |
| ストリーミング | △ (素は無し、外部ラッパー要) | △ (naive stream tool) | △ (WhisperLive 経由) | △ (whisper_streaming PR 段階) | ○ (ネイティブ) |
| 単語タイムスタンプ | ○ | ○ | ○ | ○ | △ (logprobs 経由、要検証) |
| コスト | 0(電気代) | 0 | 0 | 0 | $0.017/min |
| レイテンシ目安 | 数秒〜(HW 依存) | 0.5 秒単位の擬似ストリーム | 1〜3 秒 | 1〜2 秒 | 0.4〜3.0 秒(調整可) |
| 精度(WER)の保証 | コミュニティベンチ多数 | 同上 | 同上 | 同上 | 公式ベンチなし、自前計測 |
ここから読み取れることを 3 点に絞ります。
1. 「既存の Whisper の置き換え用途」ではない。 WER が劇的に下がった証拠は今のところない。OpenAI 自身が公式ベンチを出さず「自前で測れ」と言っている時点で、精度競争では既存 Whisper 系と勝負していないと読むのが妥当です。勝負しているのは別軸です。
2. 本質はストリーミング。
既存 Whisper 系が基本的に「ファイル → テキスト」の世界に留まっていたのに対し、gpt-realtime-whisper は「マイク入力 → 部分テキストの逐次配信」の世界に踏み込みます。0.4 秒のレイテンシで …transcription.delta イベントが流れてくる体験は、ローカル Whisper では(後述の OSS 拡張を組まない限り)出せません。
3. ストリーミング自体は OSS 側にも既にある。
whisper.cpp には naive な stream ツールが入っているし、Collabora の WhisperLive は faster-whisper をバックエンドに WebSocket でストリーミングを提供している。ufal/whisper_streaming は self-adaptive latency という凝ったポリシーで 3.3 秒の長文ストリーミングを実現しています。「ストリーミング Whisper」自体は新概念ではないことは、技術部としては忘れずに置いておきたい論点です。gpt-realtime-whisper の差別化は「商用 SLA」「0.4 秒級まで詰められる調整幅」「OpenAI のインフラに乗ったマネージドな安定性」のあたりで、新しいアルゴリズムではなく新しいパッケージングだと見ています。
gpt-realtime-translate と gpt-realtime-2
主役の Whisper から少し脇に逸れますが、姉妹モデルにも触れておきます。
gpt-realtime-translate は同時通訳に特化したモデルで、入力 70 言語から出力 13 言語へ、話者がポーズを取らなくても継続的に翻訳を返します。従来の「ASR → 翻訳 LLM → TTS」3 段パイプを 1 モデルに結合した形です。日本語は入力 70 言語側に確実に含まれます(Whisper 系譜の延長)が、出力 13 言語に日本語が含まれるかは執筆時点では未確認です。
gpt-realtime-2 は OpenAI Realtime API の進化版で、音声をそのまま入力して音声で返す end-to-end モデル。GPT-5 級の推論能力を持つとされています。ツール呼び出しもこのモデルが担当します。3 兄弟の中では最も「派手」なモデルですが、本記事の主題からは外れるので深掘りは別の機会に回します。
3 兄弟をまとめると、「賢さ・通訳・転写」の 3 軸を別々のモデルに割り振ったのが今回のリリースの設計判断です。Whisper という名前を冠しているのは転写区間専用機種だけ、というのは記事冒頭で書いた通りです。
ローカル版は出るのか
ここが本記事で一番気になる読者が多いだろう論点です。gpt-realtime-whisper のローカル版(オープンウェイト版)は出るのか。
OpenAI 側の予告
執筆時点で、gpt-realtime-* 3 兄弟の weights 公開予告は出ていません。元の Whisper(2022 年)は MIT で公開され、whisper-large-v3 まで weights は公開されてきた——という前例はありますが、gpt-realtime-* は性質が違います。
| 区分 | 公開の歴史 |
|---|---|
| Whisper(オリジナル、2022) | MIT、weights 公開 |
| whisper-large-v2 / v3 | 公開 |
| gpt-realtime-* 3 兄弟 | API 専用、公開予告なし |
3 兄弟はパイプライン全体の結合(推論・通訳・streaming)をビジネスとして API で売る方針が明確です。OpenAI Realtime API の課金モデルを成立させたい以上、「同じものをローカルで動かせる weights を出す」インセンティブは小さい。API 専用と見て計画を立てるのが安全です。
OSS 側の動き
ただし「ストリーミング Whisper」というカテゴリ自体は、OSS 側でも既に育っています。
| プロジェクト | バックエンド | 特徴 |
|---|---|---|
| WhisperLive (Collabora) | faster-whisper | WebSocket ストリーミング、VAD 内蔵、OpenAI 互換 REST API |
| whisper_streaming (ufal) | faster-whisper / MLX 等 | self-adaptive latency policy、3.3 秒目安 |
| whisper.cpp の stream ツール | whisper.cpp 本体 | 0.5 秒単位の naive streaming、SDL2 必要 |
| lightning-whisper-mlx | MLX | Apple Silicon 専用、whisper.cpp の 10 倍速を主張 |
特に注目したいのは MLX バックエンドが ufal/whisper_streaming に PR #147 で追加されたことです。Apple Silicon 上で「ストリーミング × Whisper」が現実的に動く土台が整いつつあります。lightning-whisper-mlx の主張する「whisper.cpp の 10 倍、MLX-Whisper 標準実装の 4 倍」が事実なら、M シリーズ Mac でローカル・ストリーミング転写が秒以下のレイテンシで回る日は近いと見ています。
棲み分けの予想
gpt-realtime-whisper のローカル版がそのまま出ない、という前提で棲み分けを描くと次のようになります。
| 用途 | 推奨 |
|---|---|
| リアルタイム × 高品質 × 商用 SLA × クラウド OK | gpt-realtime-whisper |
| リアルタイム × オフライン × コスト 0 | WhisperLive / whisper_streaming + Faster-Whisper / MLX |
| バッチ × 高品質 × クラウド OK | whisper-1 API(API で残る) |
| バッチ × オフライン × コスト 0 | whisper.cpp / MLX-Whisper / Faster-Whisper |
| Apple Silicon でストリーミング × オフライン | lightning-whisper-mlx + whisper_streaming(実験段階) |
「ストリーミングが要る = gpt-realtime-whisper 一択」ではないということです。レイテンシ要件が 0.5〜2 秒程度で済む用途、オフライン要件があるアプリ、あるいはコストを 0 にしたい場合は、引き続き OSS 側で組める余地が十分にあります。
逆に、「0.4 秒台のレイテンシ」「商用 SLA」「マネージドな安定性」を要件に持ち込むと、OSS 側で同等のものを自前で組むコストは無視できません。ここは API 課金が素直に効く領域です。
まとめ
- OpenAI が
gpt-realtime-2/gpt-realtime-translate/gpt-realtime-whisperの 3 兄弟を 2026-05-07 にリリース。直列 ASR→LLM→TTS パイプを用途別に再設計したのが本質 gpt-realtime-whisperは 強くなった Whisper ではなく、ストリーミング専用に切り出された Whisper。$0.017/min の最安、24kHz mono PCM、WebSocket でデルタ、レイテンシ 0.4〜3.0s 調整可- OpenAI 自身が「whisper-1 の置き換えではない」と線引きし、精度ベンチは公式に出さず「自前で測れ」という温度感
- 既存の whisper-large-v3 / whisper.cpp / Faster-Whisper / MLX-Whisper はどれも オフライン・バッチ・コスト 0 の領域で残り続ける
- ストリーミング自体は OSS 側にも既にある(WhisperLive / whisper_streaming / lightning-whisper-mlx)。
gpt-realtime-whisperの差別化はアルゴリズムではなくマネージド SLA とレイテンシ調整幅 - gpt-realtime-whisper のオープンウェイト版が出る見込みは薄い。3 兄弟は API 課金前提のパッケージング。ローカル要件があれば OSS のストリーミング Whisper を継続発展させる路線が現実的





