Claude Opus 4.7徹底調査: 何が進化し、どこに注意すべきか

Anthropicの「Claude Opus 4.7」は、2026年4月16日に発表されたClaude Opus系の最新一般提供モデルです。位置づけは明確で、Claudeシリーズの中でも「複雑な推論」「エージェント型コーディング」「長時間タスク」「専門的な知識作業」に振った最上位クラスの実務モデルです。公式ドキュメントでは、Opus 4.7はClaude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryで利用でき、ClaudeのPro、Max、Team、Enterpriseユーザー向けにも提供されると説明されています。(Anthropic)

結論: Opus 4.7は「難しい仕事を任せるモデル」。ただし、無条件の乗り換えは危険

Opus 4.7の本質は、単純なチャット性能の向上ではなく、長い文脈を保持しながら、曖昧な依頼を分解し、コード・文書・画像・ツール操作をまたぐ作業を最後まで進める能力の強化です。公式モデル概要では、Opus 4.7は一般提供されているClaudeの中で最も高性能なモデルとされ、1Mトークンのコンテキスト、128kの最大出力、Adaptive thinking、画像入力、ツール利用などをサポートします。(Claude Platform)

ただし、移行時の注意点は大きいです。Opus 4.7では旧来の固定thinking budgetが廃止され、temperature、top_p、top_kの非デフォルト指定もエラー要因になります。さらに新しいトークナイザーにより、同じテキストでも最大約35%多くトークンを消費する可能性があります。つまり、API単価が据え置きでも、実効コストやレイテンシはワークロード次第で上がります。(Claude Platform)

基本スペック

項目	Claude Opus 4.7
APIモデルID	`claude-opus-4-7`
AWS Bedrock ID	`anthropic.claude-opus-4-7`
入力	テキスト、画像
出力	テキスト
コンテキスト	1Mトークン
最大出力	128kトークン
Adaptive thinking	対応
Extended thinking	非対応
価格	入力 $5 / 100万トークン、出力 $25 / 100万トークン
主用途	複雑推論、エージェント型コーディング、長文書分析、専門知識作業、ビジョン重視作業

Opus 4.7の価格表上の単価はOpus 4.6と同じで、入力が$5/MTok、出力が$25/MTokです。プロンプトキャッシュではキャッシュヒットが$0.50/MTok、5分キャッシュ書き込みが$6.25/MTok、1時間キャッシュ書き込みが$10/MTokとされ、バッチ処理ではOpus 4.7の入力・出力単価が通常の半額になります。長文脈についても、1Mトークンのコンテキストは標準単価で利用可能と明記されています。(Claude API Docs)

最大の新機能: 高解像度画像対応

Opus 4.7は、Claudeで初めて高解像度画像サポートを備えたモデルです。最大画像解像度は長辺2576px、約3.75MPに引き上げられ、従来の1568px、約1.15MPから大きく拡張されました。これにより、スクリーンショット、UI、図表、PDF由来の画像、密度の高いドキュメントの理解が改善すると説明されています。(Claude Platform)

実務上の意味は大きいです。従来のモデルでは、UI画面の小さな文字、複雑なチャート、密度の高いスライド、ドキュメント中の表などで誤読が起きやすい場面がありました。Opus 4.7では座標が実ピクセルと1:1で扱いやすくなり、画像処理やコンピュータ操作系のエージェントでの扱いやすさも上がっています。ただし、高解像度画像はトークン消費が増えるため、精細度が不要な画像は送信前にダウンサンプリングすべきです。(Claude Platform)

コーディング性能: ベンチマーク上は大幅強化

Opus 4.7の目玉はエージェント型コーディングです。AWSの発表では、Anthropicによる値として、SWE-bench Proで64.3%、SWE-bench Verifiedで87.6%、Terminal-Bench 2.0で69.4%というスコアが示されています。さらにFinance Agent v1.1では64.4%に到達したとされ、コーディングだけでなく専門的な知識作業にも強いモデルとして位置づけられています。(Amazon Web Services)

Anthropicの発表では、早期利用企業の内部評価も多数紹介されています。たとえば、ある93タスクのコーディングベンチマークではOpus 4.6比で解決率が13%向上したと報告され、DatabricksのOfficeQA Proではソース情報を扱う文書推論でOpus 4.6比21%少ないエラーが示されています。XBOWの視覚精度ベンチマークでは、Opus 4.7が98.5%、Opus 4.6が54.5%という差も報告されています。これらは第三者の公開統一ベンチというより、企業ごとの実務寄り評価として読むのが適切です。(Anthropic)

公表値で見るOpus 4.7の得意領域

SWE-bench Verified 87.6%

実GitHubイシュー解決

Terminal-Bench 2.0 69.4%

ターミナル操作と自律ワークフロー

Finance Agent v1.1 64.4%

金融モデリング・専門財務推論

SWE-bench Pro 64.3%

複数ファイル・多言語のコード修正

本文中の公表ベンチマーク値を視覚化。評価条件が異なるため、単純な総合順位ではなく得意領域の把握に使う。

挙動の変化: 4.6のプロンプトをそのまま使うとズレる

Opus 4.7は、Opus 4.6よりも「文字通り」に指示を解釈します。曖昧な指示を勝手に一般化したり、ユーザーが明示していない範囲まで補完したりしにくくなったため、構造化抽出、仕様準拠、検証可能な出力には向きます。一方で、従来のClaudeが“空気を読んで”補っていた部分を期待しているプロンプトでは、出力が足りないように見える可能性があります。(Claude Platform)

また、応答の長さはタスクの複雑さに応じて変化します。単純な問い合わせでは短く、オープンエンドな分析では長くなりやすい設計です。ツール呼び出しはOpus 4.6より少なめで、まず内部推論を多く使う傾向があります。ツール使用を増やしたい場合は、highやxhighのeffortを使うか、プロンプト内で「いつ、なぜ、どのツールを使うべきか」を明示する必要があります。(Claude Platform)

xhigh effortとAdaptive thinking

Opus 4.7では、Claude Codeにおけるデフォルトeffortがxhighになりました。xhighはhighとmaxの間にある新しい努力レベルで、Anthropicは多くのコーディング・エージェント用途ではxhighを推奨しています。maxは難問では追加性能を引き出せるものの、収穫逓減や過剰思考が起きやすいため、評価用途や極めて難しいタスクに限定するのが現実的です。(Claude)

Adaptive thinkingは、モデルが必要に応じて考える量を動的に調整する仕組みです。Opus 4.7では固定のbudget_tokens付きExtended thinkingは使えず、思考を有効化する場合はthinking={"type": "adaptive"}を使います。ただし、Adaptive thinkingはデフォルトではオフです。必要なタスクでだけ明示的に有効にし、output_configのeffortで深さを調整するのが基本です。(Claude Platform)

from anthropic import Anthropic

client = Anthropic()

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=64000,
    thinking={"type": "adaptive"},
    output_config={"effort": "xhigh"},
    messages=[
        {
            "role": "user",
            "content": "このリポジトリ全体をレビューし、重大な設計上の問題と修正計画を提案してください。"
        }
    ],
)

print(response.content[0].text)

Anthropicのプロンプティングガイドでは、xhighやmaxでOpus 4.7を使う場合、思考・ツール呼び出し・サブエージェント実行の余地を確保するため、最大出力トークンは64k程度から始めて調整することが推奨されています。(Claude Platform)

移行時の破壊的変更

Opus 4.6以前から移行する場合、最も重要なのはAPIパラメータの見直しです。thinking: {"type": "enabled", "budget_tokens": N}は使えず、Opus 4.7では400エラーになります。temperature、top_p、top_kも非デフォルト値を指定するとエラーになるため、リクエストから外し、出力制御はプロンプトや構造化出力で行う設計に変える必要があります。(Claude Platform)

加えて、思考コンテンツはデフォルトでレスポンスから省略されます。ユーザー向けUIで思考の要約を表示していたプロダクトでは、thinking.displayに"summarized"を明示しないと、出力前に長く停止しているように見える可能性があります。トークン計算も変わるため、count_tokensの結果、max_tokens、圧縮トリガー、コスト見積もりを再評価すべきです。(Claude Platform)

タスク予算: コスト制御の新しい選択肢

Opus 4.7には、ベータ機能として「task budget」が導入されています。これは、思考、ツール呼び出し、ツール結果、最終出力を含むエージェント型ループ全体について、モデルに目安となるトークン予算を伝える仕組みです。max_tokensがハードキャップであるのに対し、task_budgetはモデルが作業配分を自己調整するためのアドバイザリな予算です。(Claude Platform)

この機能は、無制限に探索してほしくない調査、コードレビュー、長い文書処理、一定時間内に終わらせたいエージェント作業で有用です。ただし、予算が厳しすぎるとタスクが不完全になったり、モデルが作業を断ったりする可能性があります。品質が最優先のオープンエンド作業では、最初から予算を絞りすぎないほうがよいでしょう。(Claude Platform)

どんな業務で使うべきか

Opus 4.7が最も活きるのは、単発の回答ではなく「複数ステップの実務」です。たとえば、数万行規模のコードベースの改修計画、既存仕様を読んだうえでのAPI設計、複数ファイルにまたがるバグ修正、サービス全体のコードレビュー、長い契約書や財務資料の横断分析、UIスクリーンショットからの仕様把握などです。Anthropic自身も、Claude CodeではOpus 4.7を「細かく横で誘導するペアプログラマー」ではなく、「最初に文脈と制約を渡して委任する有能なエンジニア」のように扱うことを推奨しています。(Claude)

逆に、短い要約、大量分類、単純なFAQ、軽いコード補完、低レイテンシが最優先の処理では、Opus 4.7は過剰です。価格・速度・スループットを考えると、SonnetやHaiku系モデルを併用し、難度が高い工程だけOpus 4.7に切り替える構成が実務的です。公式モデル比較でも、Sonnet 4.6は速度と知能のバランス、Haiku 4.5は高速性を重視したモデルとして位置づけられています。(Claude Platform)

コスト面の落とし穴

Opus 4.7は「料金表上はOpus 4.6と同じ」ですが、実際の支払い額が同じになるとは限りません。理由は三つあります。第一に、新トークナイザーで同じテキストが最大約35%多くトークン化される可能性があります。第二に、xhighやmaxでは思考やツール利用が増えやすく、出力トークンや内部処理が膨らみます。第三に、高解像度画像は従来より多くの画像トークンを使います。(Claude API Docs)

コスト対策としては、まずeffortをタスク別に切り替えることです。単純タスクはlowまたはmedium、知能重視タスクはhigh、本格的なコーディング・エージェント作業はxhighを起点にするのが合理的です。さらに、長い固定プロンプトはプロンプトキャッシュ、非同期大量処理はバッチ、画像は必要解像度まで縮小、長時間エージェントにはtask budgetを検討するのが現実的です。(Claude Platform)

批判と混乱: Opus 4.7は「劣化」したのか

リリース直後、Opus 4.7にはSNSやReddit上で「トークンを使いすぎる」「以前よりミスが増えた」「応答が妙に頑固になった」といった批判が出ました。Business Insiderは、ユーザーがOpus 4.7のミス、トークン消費、Adaptive reasoningへの不満を投稿していた一方で、難しいコーディング作業では高く評価する声もあったと報じています。(Business Insider)

この混乱について、Anthropicは4月23日にClaude Code品質問題のポストモーテムを公開しました。そこでは、APIや推論基盤ではなく、Claude Code、Claude Agent SDK、Claude Coworkに影響した三つのプロダクト側変更が原因だったと説明されています。具体的には、3月4日のデフォルトreasoning effort変更、3月26日のキャッシュ最適化バグ、4月16日の冗長性削減システムプロンプトが挙げられ、すべて4月20日までに解消されたとされています。(Anthropic)

重要なのは、これは「Opus 4.7の基盤モデルそのものが一律に劣化した」という話ではなく、Claude Codeなどのプロダクト層の設定・キャッシュ・プロンプト変更が、ユーザー体験として劣化に見えたケースがあったという点です。とはいえ、ユーザーから見れば体験品質が下がったことに変わりはなく、モデルの性能評価では「モデル本体」「API設定」「プロダクトハーネス」「UI」「レート制限」を分けて検証する必要があります。(Anthropic)

安全性とMythos Previewとの関係

Opus 4.7はAnthropicの「一般提供モデル」としては最上位ですが、Anthropic全体で最も強いモデルという位置づけではありません。公式モデル概要では、Claude Mythos PreviewはProject Glasswingの一部として防御的サイバーセキュリティワークフロー向けに提供される招待制モデルで、セルフサーブ登録はないとされています。(Claude Platform)

The Vergeも、Opus 4.7はAnthropicの一般提供モデルとしては最強だが、サイバーセキュリティ特化のMythos Previewよりは限定的であり、AnthropicはOpus 4.7に追加のサイバーセキュリティ safeguardsを入れていると報じています。正当な脆弱性研究やペネトレーションテストなどでは、Cyber Verification Programへの申請が案内されています。(The Verge)

導入判断: 今すぐ使うべきチーム、待つべきチーム

Opus 4.7を今すぐ試す価値が高いのは、Claude Codeや自社エージェントで複数ファイル・複数ツール・長文脈を扱っているチームです。特に、コードレビュー、レガシー移行、仕様駆動開発、長い調査レポート、法務・財務・データ分析のように、1回の失敗が大きな手戻りになる作業では、Opus 4.7の粘り強さと検証能力が効く可能性があります。(Claude)

一方、既存のOpus 4.6プロンプトやAPIラッパーを大量に持つ組織は、いきなり全面移行しないほうが安全です。移行ガイドに沿って、モデルID、thinking設定、samplingパラメータ、prefill、トークン見積もり、effort、画像解像度、ツール利用ポリシーを見直し、少なくとも代表的ワークロードで品質・コスト・レイテンシをA/Bテストすべきです。(Claude Platform)

最終評価

Claude Opus 4.7は、単なる「少し賢い新モデル」ではなく、エージェント時代に合わせて挙動が変わったモデルです。強みは、長い文脈、複雑なコーディング、画像理解、専門的な文書作業、自己検証、厳密な指示追従にあります。弱点は、コスト予測の難しさ、既存プロンプトとの互換性、effort設定の重要性、そしてリリース直後に露呈したプロダクト層の品質管理リスクです。

したがって、Opus 4.7の正しい使い方は「全タスクに使う」ではありません。軽い仕事は安いモデルに任せ、難しい仕事だけOpus 4.7に委任する。最初の指示で目的、制約、受け入れ条件、対象ファイル、禁止事項を明確にする。xhighを起点にしつつ、コストと品質を計測してeffortを調整する。この運用ができるチームにとって、Opus 4.7は現時点で非常に強力な実務モデルです。

関連記事として Claude Opus 4.7で変わる、長時間コーディングタスクの任せ方では、強いモデルに仕事を任せるときの境界設計とレビュー観点を、LLMアプリのAPIコスト高騰を防ぐ、コンテキスト管理と節約設計ではeffortやキャッシュを含むコスト制御の考え方をまとめています。