GPT-5.5徹底調査: OpenAIが狙う「実務を最後まで進めるAI」とは何か

更新履歴

日付	変更内容
2026-04-25	初版公開。OpenAI公式発表、System Card、Help Center、API Pricing、Codex rate cardをもとに整理。
2026-05-05	速報記事としての更新履歴欄を追加。導入前に公式ドキュメントでAPI提供範囲、料金、利用制限を再確認する注意を明確化。

速報記事の日付管理は更新管理ポリシーにまとめています。

結論: GPT-5.5は”会話モデル”というより、エージェント型の実務モデル

GPT-5.5は、OpenAIが2026年4月23日に発表した新しいフロンティアモデルです。位置づけは単なるチャット性能の向上ではなく、コーディング、調査、データ分析、文書・表計算・スライド作成、ツール操作をまたぐ複雑な仕事を、より少ない指示で進めるためのモデルです。OpenAIは、GPT-5.5が従来モデルより早く意図を理解し、ツールをより効果的に使い、自分の作業を確認しながら完了まで進める能力を高めたと説明しています。(OpenAI Deployment Safety Hub)

最も重要な変化は、「難問に強い」だけではなく、「作業を継続する」点です。GPT-5.5はエージェント型コーディング、コンピュータ操作、知識労働、初期段階の科学研究で特に強化されており、OpenAIはGPT-5.4と同等の実運用上のトークン生成遅延を維持しつつ、より高い知能水準を実現したとしています。(OpenAI)

ChatGPTでの位置づけ: GPT-5.3 Instant、GPT-5.5 Thinking、GPT-5.5 Pro

ChatGPTでは、GPT-5.3がログインユーザー向けの標準モデルとして扱われ、日常的な質問や学習、翻訳、技術文章などを担当します。一方、GPT-5.5 Thinkingは複雑な目標理解、ツール利用、作業確認、多段階タスクの完遂に向けた「最も高性能な推論モデル」として位置づけられています。GPT-5.5 Proは、さらに難しいタスクや長時間のワークフロー向けの最上位オプションです。(OpenAI Help Center)

モデルピッカー上は、Instant、Thinking、Proという選択肢で整理されています。Instantを選んだ場合でも、複雑な依頼ではChatGPTがGPT-5.5 Thinkingへ自動的に切り替えることがあります。GPT-5.5 ThinkingまたはGPT-5.5 Proが推論を始める際には、作業方針を短く示す場合があり、ユーザーはモデルが考えている途中で追加指示を入れて方向修正できる設計になっています。(OpenAI Help Center)

利用可能範囲は階層によって異なります。Plus、Pro、Business、EnterpriseではChatGPTおよびCodexにGPT-5.5が段階的に展開され、GPT-5.5 ProはPro、Business、Enterprise、Edu向けです。GPT-5.5 ThinkingはPlus、Pro、Business、Enterpriseで利用でき、GPT-5.5 Proは高精度作業向けとして提供されます。なお、ChatGPT for HealthcareワークスペースではGPT-5.5は提供されず、GPT-5.4が継続利用されます。(OpenAI) (OpenAI Help Center)

コンテキスト長とツール対応

ChatGPTで手動選択したGPT-5.5 Thinkingのコンテキストウィンドウは、Proでは400k、内訳は272k入力と最大128k出力です。その他の有料ティアでは256k、内訳は128k入力と最大128k出力です。CodexではGPT-5.5がPlus、Pro、Business、Enterprise、Edu、Goで利用可能とされ、400kコンテキストウィンドウを持ちます。(OpenAI Help Center) (OpenAI)

GPT-5.5 ThinkingはChatGPTの主要ツール、つまりWeb検索、データ分析、画像分析、ファイル分析、Canvas、画像生成、Memory、Custom Instructionsに対応します。ただしGPT-5.5 Proには例外があり、Apps、Memory、Canvas、画像生成は利用できないとされています。(OpenAI Help Center)

何が強くなったのか: コーディング、知識労働、研究

GPT-5.5の目玉はエージェント型コーディングです。OpenAIによると、Terminal-Bench 2.0では82.7%、SWE-Bench Proでは58.6%を記録し、GPT-5.4より少ないトークンで高い評価を出しています。Codex上では、実装、リファクタリング、デバッグ、テスト、検証などの一連のエンジニアリング作業に向き、大規模コードベースの文脈保持、曖昧な失敗原因の推論、ツールによる仮説確認、周辺コードへの影響把握が改善されたと説明されています。(OpenAI)

知識労働では、情報収集、要点抽出、ツール操作、成果物作成までの流れが強化されています。OpenAIは、Codex内のGPT-5.5が文書、スプレッドシート、スライド生成でGPT-5.4を上回り、業務リサーチ、表計算モデリング、雑多なビジネス入力から計画を作る作業で有効だったとしています。社内事例として、6か月分の登壇依頼データ分析や、24,771件・71,637ページのK-1税務書類レビューを挙げています。(OpenAI)

科学研究でも、GPT-5.5は「質問に答える」だけでなく、仮説を探索し、証拠を集め、前提を検証し、結果を解釈するループに強くなったとOpenAIは説明しています。GeneBenchではGPT-5.4から明確に改善し、BixBenchでは公開スコアを持つモデル群の中で上位の性能を達成したとされています。また、内部版GPT-5.5とカスタムハーネスがラムゼー数に関する新しい証明の発見を支援し、後にLeanで検証されたとも報告されています。(OpenAI)

主要ベンチマークから見るGPT-5.5

OpenAIの公開評価表では、GPT-5.5はコーディング、プロフェッショナル業務、コンピュータ利用、ツール利用、学術、サイバー、長文脈の複数カテゴリでGPT-5.4を上回る結果を示しています。ただし、評価にはOpenAI内部ベンチマークも含まれ、SWE-Bench Proについては「一部ラボが記憶の証拠を指摘している」とする注記もあります。(OpenAI)

分野	評価	GPT-5.5	GPT-5.4	読み取り方
コーディング	SWE-Bench Pro	58.6%	57.7%	実GitHub課題解決で小幅改善
コーディング	Terminal-Bench 2.0	82.7%	75.1%	CLIを使う長めの作業で大きく改善
プロ業務	GDPval	84.9%	83.0%	44職種の知識労働タスクで改善
コンピュータ利用	OSWorld-Verified	78.7%	75.0%	実環境操作タスクで改善
ツール利用	BrowseComp	84.4%	82.7%	Web調査・検索系の能力で改善
ツール利用	Tau2-bench Telecom	98.0%	92.8%	顧客対応ワークフローで大幅改善
学術	GeneBench	25.0%	19.0%	遺伝学・定量生物学の多段階分析で改善
学術	BixBench	80.5%	74.0%	バイオインフォマティクス系で改善
長文脈	Graphwalks BFS 1M f1	45.4%	9.4%	100万トークン級文脈で大幅改善

GPT-5.5で改善幅が大きい代表評価

Graphwalks BFS 1M f1 36pt

45.4% vs 9.4%

Terminal-Bench 2.0 7.6pt

82.7% vs 75.1%

BixBench 6.5pt

80.5% vs 74.0%

Tau2-bench Telecom 5.2pt

98.0% vs 92.8%

GPT-5.5の差は、長文脈・CLI作業・業務ワークフローで特に大きい。

この表から見る限り、GPT-5.5の進歩は単一分野の突出ではなく、「長い作業を続ける」「ツールを使う」「文脈を保持する」「専門的成果物を作る」方向に広く分布しています。特にTerminal-Bench、Tau2-bench Telecom、Graphwalks 1Mの改善は、単発回答よりもエージェント的な持続作業での性能向上を示唆します。(OpenAI)

価格とAPI: 高くなったが、OpenAIは効率改善を主張

APIでは、GPT-5.5はResponses APIとChat Completions APIに「近日提供」とされています。標準価格は、gpt-5.5が入力100万トークンあたり5ドル、出力100万トークンあたり30ドルです。gpt-5.5-proは、より高精度向けとして入力100万トークンあたり30ドル、出力100万トークンあたり180ドルと発表されています。GPT-5.5のAPIコンテキストウィンドウは100万トークンとされています。(OpenAI)

OpenAIの価格ページでもGPT-5.5は「coming soon」とされ、入力5ドル、キャッシュ入力0.50ドル、出力30ドルが掲載されています。比較するとGPT-5.4は入力2.50ドル、キャッシュ入力0.25ドル、出力15ドルなので、標準トークン単価はGPT-5.5がGPT-5.4の2倍です。ただしOpenAIは、GPT-5.5はGPT-5.4より高価だが、より知的でトークン効率も高いと説明しています。(OpenAI) (OpenAI)

Codexのクレジット制でも、GPT-5.5は100万入力トークンあたり125クレジット、キャッシュ入力12.5クレジット、出力750クレジットです。GPT-5.4は62.5、6.25、375クレジットなので、こちらも基本的に2倍です。OpenAIは2026年4月にCodexの価格体系をメッセージ単位からトークンベースへ移行し、入力・キャッシュ入力・出力の内訳が消費量に直接反映される形にしたと説明しています。(OpenAI Help Center)

速度とインフラ: 大規模化しても遅くしない設計

OpenAIは、GPT-5.5のサービングをGPT-5.4と同等のレイテンシに保つため、推論を統合システムとして再設計したと説明しています。GPT-5.5はNVIDIA GB200およびGB300 NVL72システム向けに共同設計・訓練・提供されており、CodexとGPT-5.5自体が性能目標達成のための実験や実装支援にも使われたとされています。(OpenAI)

この点は、モデル競争の軸が「ベンチマークの高さ」から「実際に長い仕事をどれだけ待たずに任せられるか」へ移っていることを示します。GPT-5.5は高性能化と同時に、実務導入で問題になりがちな待ち時間、トークン消費、長時間作業の継続性をまとめて改善しようとしているモデルだと見られます。(OpenAI)

安全性: 生物・化学とサイバーは「High」、ただしCritical未満

System Cardによると、OpenAIはGPT-5.5を生物・化学領域でHigh capability、サイバーセキュリティ領域でもHigh capabilityだがCritical未満として扱っています。サイバーについてはGPT-5.4より能力が上がった一方、強化された現実世界の重要システムに対して、人間の介入なしにあらゆる深刻度のゼロデイを機能的に開発するCritical水準には達していないとしています。AI自己改善については、High閾値に達する現実的可能性はないとの評価です。(OpenAI Deployment Safety Hub)

生物分野では、SecureBioや米国CAISIによる外部評価も実施されています。SecureBioは、事前リリース版が専門的な生物・バイオセキュリティ関連知識で高い性能を示す一方、実用的で高リスクな支援には拒否や安全な方向づけを行う傾向を報告しました。ただし、強い動機を持つユーザーによるジェイルブレイクへの堅牢性については不確実性が残るため、専門的計画を助ける可能性は重要なバイオセキュリティ上の論点だとされています。(OpenAI Deployment Safety Hub)

OpenAIはGPT-5.5向けにBio Bug Bountyも開始しました。対象はCodex Desktop内のGPT-5.5で、研究者が5問のバイオ安全性チャレンジを突破する「汎用ジェイルブレイク」を探す企画です。最初に全問突破した真の汎用ジェイルブレイクには25,000ドルの報酬が設定され、応募は2026年4月23日開始、締切は6月22日、テスト期間は4月28日から7月27日です。(OpenAI)

ハルシネーションとアラインメントの注意点

System Cardでは、過去モデルでユーザーが事実誤りとしてフラグした会話を対象に、GPT-5.5の個別主張はGPT-5.4より23%事実として正しい可能性が高く、回答単位で事実誤りを含む頻度は3%低いと報告されています。ただしGPT-5.5は1回答あたりの事実主張数が増える傾向があり、改善幅の解釈には注意が必要です。(OpenAI Deployment Safety Hub)

アラインメント面では、内部のコーディングエージェント軌跡を再サンプリングした評価で、GPT-5.5はGPT-5.4 Thinkingより一部カテゴリでわずかにミスアラインしていると推定されています。ただし、そのほとんどは低深刻度であり、新しい重度のミスアラインメントは確認されず、深刻度3は両モデルとも0.01%、最上位の深刻度4は発火しなかったと報告されています。(OpenAI Deployment Safety Hub)

導入判断: 誰に向いているか

GPT-5.5は、単発の文章生成や軽い質問だけに使うには過剰なモデルです。真価を発揮するのは、複数ファイルを読み、Webで調べ、表やコードを作り、検証し、修正し、最終成果物にまとめるような仕事です。具体的には、ソフトウェア開発、データ分析、業務資料作成、法務・教育・データサイエンス系の調査、長文書レビュー、研究補助のような用途に向いています。OpenAIもGPT-5.5 Proについて、ビジネス、法務、教育、データサイエンスで特に強い評価を得たと述べています。(OpenAI)

一方、コスト重視の大量処理、短文の定型応答、日常的なQ&Aでは、GPT-5.3 InstantやGPT-5.4系のほうが合理的な場合があります。GPT-5.5はGPT-5.4の2倍のAPI標準単価で、Codexクレジット消費もおおむね2倍ですが、難しい作業を少ないリトライで終わらせられるなら総コストは下がる可能性があります。逆に、タスクが単純なら高性能分の費用を回収しにくいでしょう。(OpenAI) (OpenAI Help Center)

総評

GPT-5.5は、OpenAIが「AIに実務を任せる」方向へ大きく踏み込んだモデルです。強化点は、推論能力そのものだけでなく、ツール利用、長文脈、作業の持続性、成果物作成、自己確認、コーディングエージェントとしての粘り強さにあります。特にCodex、ChatGPT Thinking、ChatGPT Proをまたいで、AIを”相談相手”から”作業パートナー”へ近づける設計思想が見えます。(OpenAI)

ただし、評価の一部はOpenAI内部ベンチマークや早期利用者の報告に依存しており、独立した大規模検証はまだ十分とは言えません。また、生物・化学、サイバーの両領域でHigh capabilityと扱われている点は、性能向上が安全上の管理コストも引き上げていることを意味します。GPT-5.5は「より賢いチャットボット」ではなく、「高性能化した実務エージェント基盤」として評価するのが適切です。(OpenAI Deployment Safety Hub)

関連記事として Claude Opus 4.7で変わる、長時間コーディングタスクの任せ方では対抗モデル側の設計思想を、2026年4月下旬のAIエージェント動向では同時期の業界全体の流れを整理しています。