クラウドはAPIで測っていますか？

いいえ。従量APIではなく、サブスクで動く一次配布CLI（Claude Code / Codex / Gemini CLI）をヘッドレス起動して回します。よって比較は「厳密同一ハーネス」ではなく各モデルの現実的ベスト構成であり、損益分岐もtoken課金ではなく定額サブスクを前提にしています。

「代替率」とは何ですか？

各タスクのクラウド最良点を100としたとき、ローカル環境がその何%を達成できたか、です。単一モデルや平均を基準にするより「ベストのクラウドにどこまで迫れたか」が分かり、基準批判に強い指標です。

なぜローカルLLMを評価する意味があるのですか？

定額サブが1本で足りる軽量ユーザーはローカルの元が取れません。ローカルが効くのは①機密で社外に出せない②サブスクの利用上限を超える重量ユーザー③複数人で1GPUを共有、の3パターンです。本ベンチはその境界を日本語実務タスクで可視化します。

judge（採点）は何ですか？

3層です。①決定的な客観採点（完全一致・数値許容・JSONフィールドの部分一致）②コード保守はテスト通過で判定（exit 0 か、期待値どおりか）③ルーブリックは Claude を独立 judge にした採点（168ペアを再採点）。LLM-as-judge 単独にはしません。量子化（Q4_K_M相当）・温度0・シード7・GPU/ドライバを結果に記録し、生トランスクリプトを全件公開します。

総合でローカルが1位なのは、品質でクラウドに勝ったということ？

いいえ。総合100点は5軸の重み付き合計で、品質（実務正確性）は35%にすぎません。残り65%に速度UX15・経済性15・ローカル価値10・信頼性20・導入容易性5が入り、クラウドCLIが遅く・有料・データを社外に出すぶん点を落とします。品質軸だけ見ればクラウドが明確に上位（Codex 98 vs qwen2.5:14b 85）です。「ローカルが品質で勝った」のではなく、コスト・速度・ローカル価値を含めた総合でローカル14Bが上に来る、というのが正確な読み方です。

Benchmark · Snapshot 2026-06-06

J-WorkBench：ローカルLLMは仕事で使えるか

「自分の手元PC（とくに消費者GPU）で、日本語の実務がどこまでクラウドの代わりになるか」を、品質・速度・費用・ローカル価値・運用難度の5軸とクラウド代替率で測ります。クラウドは従量APIではなくサブスク限定（Claude Code / Codex / Gemini CLI）で実行します。

2026-06-06 の実測（RTX 3090・温度0・シード7）では、RTX 3090 で動くローカル14B〜20Bのクラウド代替率は66〜87%。コスト・速度・ローカル価値を含めた総合ではローカルが上位に来ますが、 品質（実務正確性35%）はクラウドが明確に上です（品質軸 Codex 98 対 qwen2.5:14b 85）。長文・議事録・メールは互角でも、社内規程と契約の条文推論、汚い表/CSV ではローカルが大きく負けます。どこまで任せられるかは、タスクの種類で判断してください。

J-WorkBench リーダーボード

日本語の実務（社内規程RAG・契約照合・議事録・メール敬語・表/CSV・コード保守・長文耐性）で、手元PCのローカルLLMがサブスク版クラウドの何割を肩代わりできるかを5軸で測ったスナップショット。データ確定日: 2026-06-06

クラウド代替率ランキング

クラウド最良 = 100 が基準線

1 Codex (ChatGPT) クラウドクラウド基準 100%
2 Claude (Claude Code / Max) クラウドクラウド基準 100%
3 Gemini (Gemini CLI) クラウドクラウド基準 100%
4 gpt-oss:20b ローカルゲーミングPC級 87%
5 qwen2.5:14b ローカルゲーミングPC級 86%
6 qwen2.5-coder:14b ローカルゲーミングPC級 68%
7 qwen2.5:7b ローカルゲーミングPC級 66%

5軸スコア（重み付き合計100点満点）

各軸0–100 / 重みは軸名に併記

Codex (ChatGPT) 総合 79

実務正確性×35 98
信頼性×20 99
速度UX×15 76
経済性×15 60
ローカル価値×10 0
導入容易性×5 95

Claude (Claude Code / Max) 総合 73

実務正確性×35 94
信頼性×20 98
速度UX×15 43
経済性×15 60
ローカル価値×10 0
導入容易性×5 92

Gemini (Gemini CLI) 総合 72

実務正確性×35 89
信頼性×20 97
速度UX×15 50
経済性×15 60
ローカル価値×10 0
導入容易性×5 95

gpt-oss:20b 総合 89

実務正確性×35 86
信頼性×20 96
速度UX×15 83
経済性×15 95
ローカル価値×10 95
導入容易性×5 70

qwen2.5:14b 総合 91

実務正確性×35 85
信頼性×20 95
速度UX×15 98
経済性×15 95
ローカル価値×10 95
導入容易性×5 70

qwen2.5-coder:14b 総合 83

実務正確性×35 66
信頼性×20 89
速度UX×15 100
経済性×15 95
ローカル価値×10 95
導入容易性×5 70

qwen2.5:7b 総合 82

実務正確性×35 65
信頼性×20 88
速度UX×15 99
経済性×15 95
ローカル価値×10 95
導入容易性×5 68

カテゴリ別ヒートマップ

行=モデル / 列=タスク / 濃いほど高スコア（0–100）

モデル＼タスク	社内規程RAG	契約・見積照合	議事録ToDo	メール敬語	表/CSV	コード保守	長文耐性
Codex (ChatGPT)	99	99	91	100	98	100	100
Claude (Claude Code / Max)	82	100	91	93	99	100	100
Gemini (Gemini CLI)	95	97	91	93	98	48	100
gpt-oss:20b	71	79	86	100	98	83	100
qwen2.5:14b	77	81	92	100	56	100	100
qwen2.5-coder:14b	75	47	86	90	51	28	100
qwen2.5:7b	39	57	88	85	31	83	100

称号

各モデルの個性を1行で

Codex (ChatGPT)

クラウド代替率 100% 月額破壊力 0 秘密文書適性 0% 社畜耐性 97% 普通のPC適性 0% 待てる速度か指数 76

Claude (Claude Code / Max)

クラウド代替率 100% 月額破壊力 0 秘密文書適性 0% 社畜耐性 97% 普通のPC適性 0% 待てる速度か指数 43

Gemini (Gemini CLI)

クラウド代替率 100% 月額破壊力 0 秘密文書適性 0% 社畜耐性 96% 普通のPC適性 0% 待てる速度か指数 50

gpt-oss:20b

クラウド代替率 87% 月額破壊力 3 秘密文書適性 75% 社畜耐性 94% 普通のPC適性 70% 待てる速度か指数 83

qwen2.5:14b

クラウド代替率 86% 月額破壊力 3 秘密文書適性 78% 社畜耐性 88% 普通のPC適性 70% 待てる速度か指数 98

qwen2.5-coder:14b

クラウド代替率 68% 月額破壊力 3 秘密文書適性 62% 社畜耐性 82% 普通のPC適性 70% 待てる速度か指数 100

qwen2.5:7b

クラウド代替率 66% 月額破壊力 3 秘密文書適性 47% 社畜耐性 79% 普通のPC適性 70% 待てる速度か指数 99

このベンチの設計思想

Arena系（人間投票）、Artificial Analysis（品質×価格×速度）、MLPerf（推論スループット）、日本語の JGLUE / Nejumi—— 既存ベンチは強力ですが、いずれも「総合知能」や「推論性能」を測るもので、 「自分のPCで日本語の実務がどこまで回るか」には答えていません。J-WorkBench はその空白を埋めます。

日本語実務タスクで「事故るところ」だけを集める（条件分岐・例外・日付/部署で変わる判断、根拠なし断言の検出）。JGLUE/Nejumi の再発明はしません。
ローカルである意味（オフライン・機密・データ持ち出し不可）と、消費者ハードで動くかを一次情報として測ります。
クラウド代替率＝各タスクのクラウド最良点を100としたとき、ローカルが何%代替できるか、を主指標にします。

2026-06-06 実測でわかったこと

総合トップ4はすべてローカル（qwen2.5:14b 91・gpt-oss:20b 89・qwen2.5-coder:14b 83・qwen2.5:7b 82）で、クラウドCLI（Codex 79・Claude 73・Gemini 72）を上回りました。ただしこれは品質で勝ったのではありません。総合点は速度UX・経済性・ローカル価値を含む重み付き合計で、遅く・有料・データを社外に出すクラウドCLIがそのぶん点を落とすからです。品質（実務正確性35%）だけ見ればクラウドが明確に上位です。

互角：長文・議事録・メール。議事録ToDo抽出は全モデル91前後、メール敬語も上位ローカルは100に届き、長文耐性は全モデル満点（fixtureが本文に答えを書きすぎた既知の限界）。
ローカルが大きく負ける：規程・契約の条文推論。社内規程RAGはクラウド82〜99に対しローカル39〜77、契約照合もクラウド97〜100に対しローカル47〜81。日付や勤続年数で変わる条件分岐で、ローカルは根拠なし断言に流れがちです。
汚い表/CSVもローカルが苦手。互角なのはgpt-oss:20b（98）だけで、他のローカルは31〜56。小計・合計の二重計上トラップで明細だけの合算を外します。
コードは逆転現象。クラウドのGeminiが48、ローカルのqwen2.5-coder:14bが28と落ち、端数処理（1円ずれ）は共通の落とし穴でした。

代替率は66〜87%（クラウド最良点を100としたローカルの到達度）。独立した Claude judge による168ペア再採点でも順位は変わりませんでした。「どこまで任せるか」はモデルの優劣ではなくタスクの種類で決める、というのがこの実測の要点です。

5つの軸

実務正確性（35）：正答・引用根拠・条件分岐・計算・抽出。
信頼性（20）：ハルシネーション・回答の一貫性・フォーマット遵守。
速度UX（15）：TTFT・完了時間・tokens/sec・P95。
経済性（15）：定額サブ vs ローカル償却。ローカルが効くのは機密・上限超過・複数人共有の3パターン。
ローカル価値（10）：オフライン・機密・再現性・データ保持。
導入容易性（5）：セットアップ・VRAM・量子化・クラッシュ率。

測っている日本語実務タスク

社内規程RAG（条文を根拠にケース審査・条件分岐・情報不足の検出）
契約・見積照合（納期/保守範囲/違約金の矛盾検出・過検出抑制）
議事録ToDo抽出（誰が・何を・いつまでに／未決・リスクの分離）
メール返信・敬語（上司/顧客/下請けでトーンを変える・過剰約束しない）
表/CSV処理（汚い表の集計・整形・二重計上トラップ）
コード保守（請求の1円ずれ修正・frontmatter整備など、テスト通過で判定）
長文コンテキスト耐性（遠距離参照・似た数値から条件一致の1値）

透明性

ハーネス・課題・生トランスクリプト・量子化（Q4_K_M相当）/温度0/シード7/GPU/ドライバをすべて結果に記録し公開します。ルーブリック採点は Claude を独立 judge にして168ペアを再採点済みで、生トランスクリプトは bench/results/2026-06-06/transcripts/ に全件あります。脚色や捏造はしません。方法論の詳細は bench/SPEC.md、判断の背景は ADR 0025 に記録しています。

自分のPCで回す

このベンチは再現可能です。Ollama でモデルを取得し、リポジトリ直下で実行します。

npm run bench -- --dry … 実行計画の確認（モデル0でも動く）
npm run bench … 検出したローカルモデル × 全課題（サブスクCLIがあれば一緒に）
npm run bench:report -- --in results/<日付> … 結果からこのリーダーボードのデータを生成

更新方針

2026-06-06 時点の実測スナップショットで運用します。新モデルが出るたびに同じハーネスへ通し、リーダーボードを追記します。