本文へスキップ
Edition · Tokyo

Agents SDKのサンドボックス実行で見る、エージェントアプリの新しい最小構成

OpenAI Agents SDKの更新をもとに、ファイル・コマンド・編集を扱うエージェントを安全に設計するための実務ポイントをまとめます。

codeagent.jp編集部 情報確認 約2分
Tags
情報確認
更新性
定期更新
読了目安
約2分
更新管理

仕様・料金・提供範囲が変わりやすいテーマは、公開日・更新日・情報確認日を分けて管理します。 導入前には必ず記事末尾の一次情報と公式ドキュメントで最新状況を確認してください。

Agents SDKのサンドボックス実行で見る、エージェントアプリの新しい最小構成 の16:9共有用サマリー画像。 Agents SDK時代の最小構成は、作業場・許可ツール・証拠・停止条件で決める 1. 前提: モデル名より先にファイル権限と外部送信範囲を決める、SDKのhandoff/tool/traceを1つの実験単位にする、サンドボックスは読み取り専用から段階的に広げる 2. 構成: 入力はIssue本文、出力はdiff/ログ/スクショに分ける、危険操作は承認ゲート、通常操作は自動実行にする、trace IDで各ステップの判断根拠を後追い可能にする 3. 停止条件: 同じエラー3回、5分無進捗なら人間へ戻す、APIキーや本番DBはSDK側のツール定義から外す、成功はテスト名と成果物パスで機械判定する
Agents SDKのサンドボックス実行で見る、エージェントアプリの新しい最小構成 資料 26-18I3 2026.04.22 設計・ワークフロー
共有用画像を開く シェア 約2分 / agents-sdk / ai-agent

OpenAI の Agents SDK は、会話型アプリを作るためのSDKから、長い作業を進めるエージェントの実行基盤へ寄っています。2026年4月15日の発表で特に重要なのは、ファイル参照、コマンド実行、コード編集、サンドボックス実行が同じ設計の中に入ってきたことです。

最小構成は「モデル + 作業場 + 証拠」

エージェントアプリを作るとき、モデル名やプロンプトだけを先に決めると失敗しやすくなります。先に決めるべきなのは、エージェントが触れる作業場と証拠です。

エージェントジョブの最小スキーマ
type AgentJob = {
workspace: 'read-only' | 'scratch' | 'repo-branch';
allowedTools: string[];
evidence: string[];
stopWhen: string[];
};
  1. 1
    作業場を決める
    read-only / scratch / repo-branch の境界を先に決める。
  2. 2
    許可ツールを絞る
    ファイル、コマンド、編集、外部送信の権限を分ける。
  3. 3
    証拠を残す
    変更差分、実行ログ、根拠ファイルを成果物に含める。
  4. 4
    停止条件を置く
    失敗、情報不足、許可外操作で人間の判断に戻す。
エージェントアプリは、モデルより先に作業場・証拠・停止条件を設計する。

この程度の型を最初に置くだけでも、設計の粒度が変わります。エージェントに渡すタスクは、回答ではなく、検証可能な成果物として扱うべきです。

サンドボックスに入れるもの

サンドボックスは「危険なことを閉じ込める箱」だけではありません。エージェントに集中させるためのコンテキスト境界でもあります。

  • 入れる: 対象ファイル、テストデータ、仕様、許可コマンド
  • 入れない: 本番認証情報、不要な巨大ログ、関係ないリポジトリ全体
  • 出す: 変更差分、実行ログ、失敗ログ、根拠ファイル名

OpenAIの発表例でも、データルームのような限定ディレクトリを渡し、その中のファイルだけを根拠に回答させる構成が示されています。この考え方は、コード修正だけでなく、契約書レビュー、ログ調査、データ抽出にも使えます。

失敗時の設計が品質を決める

エージェントは、途中で失敗しても何かしらの文章を返せます。だから、アプリ側で「失敗したら止める条件」を持つ必要があります。

  • テストが失敗したら、修正を続ける前に失敗ログを要約させる。
  • 参照ファイルが不足したら、推測で埋めずに不足リストを返させる。
  • 許可外コマンドが必要になったら、人間の承認待ちにする。
  • 変更ファイル数がしきい値を超えたら、作業を分割させる。

プロンプトだけで安全性を作るのではなく、SDK、サンドボックス、ログ、レビューを組み合わせる。ここがエージェントアプリの実装力になります。

出典

About the author
codeagent.jp編集部

Claude Code / Codex / MCP を個人開発サイト運用と公開MCPサーバー開発で試し、一次情報・検証ログ・失敗例をもとに整理します。

関連して読む