# J-WorkBench 2026-06-06 実測 — 確定知見（記事の source of truth）

採点: objective=決定的(部分一致), rubric=**Claude独立採点**(workflow再採点168ペア), agent(code-hozen)=script(テスト通過). 環境: RTX 3090 24GB / Ollama 0.19 / 温度0・seed7. クラウドはサブスクCLI(claude/codex/gemini)をヘッドレス起動.

## リーダーボード（総合100点 / 代替率=各タスクのクラウド最良を100）

| 順位 | モデル | 種別 | 総合 | 代替率 |
| ---: | --- | --- | ---: | ---: |
| 1 | qwen2.5:14b | local | 91 | 86 |
| 2 | gpt-oss:20b | local | 89 | 87 |
| 3 | qwen2.5-coder:14b | local | 83 | 68 |
| 4 | qwen2.5:7b | local | 82 | 66 |
| 5 | Codex (ChatGPT) | cloud | 79 | 100 |
| 6 | Claude (Claude Code/Max) | cloud | 73 | 100 |
| 7 | Gemini (Gemini CLI) | cloud | 72 | 100 |

**重要**: 総合でローカルが上位なのは5軸に経済性15・ローカル価値10・速度UX15（計40%）が入り、クラウドCLIが遅く・有料・データ外出しだから。**品質(35%)はクラウドが明確に上位**（下表）。「ローカルが品質で勝った」とは書かない。

## カテゴリ別 品質（score01×100, Claude採点）

| モデル | 規程RAG | 契約照合 | 議事録 | メール | 表/CSV | コード | 長文 |
| --- | ---: | ---: | ---: | ---: | ---: | ---: | ---: |
| Claude | 82 | 100 | 91 | 92 | 98 | 100 | 100 |
| Codex | 99 | 99 | 91 | 100 | 98 | 100 | 100 |
| Gemini | 95 | 97 | 91 | 92 | 98 | **48** | 100 |
| gpt-oss:20b | 71 | 79 | 86 | 100 | 98 | 82 | 100 |
| qwen2.5:14b | 77 | 81 | 92 | 100 | **56** | 100 | 100 |
| qwen2.5:7b | 39 | 57 | 88 | 85 | 31 | 82 | 100 |
| qwen2.5-coder:14b | 75 | 47 | 86 | 90 | 51 | **28** | 100 |

読み: **長文・議事録・メールはローカルが互角**。**規程・契約の条文推論はクラウド圧勝**（ローカルは39-81）。**表/CSVはgpt-oss:20bだけ互角(98)、他ローカルは31-56**。**コードはqwen2.5-coder:14b(28)とGemini(48)が落ちる**逆転現象。

## ヘッドライン候補（バズる&正直）

1. 3090×ローカル14Bが議事録ToDo抽出でClaude/Codex/Geminiを上回った——フロンティア3社が「安全側に倒して」揃って取りこぼした境界タスクで、月額¥0の14Bが正答（再現データ公開）
2. ローカルLLMの代替率66〜87%は本物か——独立Claude再採点で検証、順位は不変。ただし品質はまだクラウドが上という正直な内訳
3. 総合で勝つローカル、品質で勝つクラウド：ローカル14Bが1位の理由は「コスト・速度・ローカル価値」であって正確性ではない（品質軸 codex98 vs qwen14b85）

## 方法論の注意点（method に必ず明記）

- 総合ランクはコスト/速度/ローカル価値（45%）が決め、品質ではない。「品質はクラウド優位」を併記。
- 代替率は judge感度が最も高い指標。rubric judge を Claude に置換済みだが、自動採点である以上「内容エラーへの甘さ」が残りうる。
- objective(json-field)は条項を部分一致化したが、慎重に「安全側に倒した」妥当回答を過小評価しうる（クラウド過小方向の歪み）。
- judge(Claude)で168ペア再採点したが、code-hozen/longctx等の自動採点タスクは二重採点していない。
- **longctxは全モデル正答＝fixtureが本文に答えを書きすぎ**。次版は参照解決を強制する設計に（既知の限界）。
- サンプルではなく実測。量子化Q4_K_M相当・温度0・seed7・GPU/ドライバを結果に記録。生トランスクリプトは `bench/results/2026-06-06/transcripts/` に全件公開。

## 実例ギャラリー（生トランスクリプト・脚色なし）

### 1. JSON崩壊 — gpt-oss:20b / 社内規程-02（静かな暴走）
同一モデルの規程6問中5問は正しいJSONを返したのに、この1問だけ**プロンプトを完全無視し「外国人が米国で就職する方法」という無関係な英語求人エッセイ**（H-1Bビザ解説・履歴書の書き方）を**53,485トークン・約8分**生成。`errored/crashed` フラグは false のまま（静かな崩壊）。
- プロンプト要点: 「タクシー精算を審査。前後に説明文を付けずJSON(violations/conditional/ok)だけ出力せよ」
- 出力抜粋: `**Answer to the original question – "What is the best way to get a job in the U.S. as a foreigner?"** … H‑1B (Specialty Occupation) … 65k + 20k for advanced degrees; lottery‑based …`
- 学び: 構造化出力の信頼性は確率的に崩れる。しかもエラーフラグが立たない。

### 2. 根拠なし断言 / 入社期間トラップ — qwen2.5:14b / 社内規程-05
Gさん（2025/9/1入社、基準日2026/6/1で勤続約9か月＝1年未満）を「**勤続1年以上であるため**」と根拠なく断言し、看護休暇の有給3日を誤付与（正解は有給0日）。他3問は正答・整形済みのぶん際立つ。
- 出力抜粋: `{ "q": 4, "value": "{取得可能: 有り, 有給日数: 3}", "clause": "第3条", "reason": "…勤続1年以上であるため、そのうち3日分を有給とする。" }`
- 学び: 入社日から自明に計算できる勤続年数を取り違える。規程RAGをローカルに丸投げする危険。

### 3. 敬語・立場の崩壊 — qwen2.5-coder:14b / メール-03
発注側担当が、**下請けの遅延を自分が謝罪**（立場逆転）＋プロンプト内の制約文「権限を超える約束はしない」を**本文にそのまま流出**（「私の権限を超える約束は控えさせていただきますのでご了承ください」）＋差出人社名を「合同会社→株式会社」と捏造。
- 出力抜粋: `株式会社ノースクラフト 大森様 …納品が遅れてしまったことについて、誠に申し訳ございませんでした。…ただし、私の権限を超える約束は控えさせていただきますのでご了承ください。`
- 学び: 敬語の体裁は整っていても宛先の立場を読めない。同問でclaude/codex/gemini/qwen14bは適切処理。

### 4. 表の二重計上 — qwen2.5:7b / 表CSV-02
「小計/合計を足すな、明細だけ合算」と明示警告された課題で**3項目すべて誤答**（明細合算16800を13200、一致判定も反転、二重計上例示値50400を18000）。claude/codex/gemini/gpt-oss:20bは3項目とも正答。
- 出力: `{ "detailTotal": 13200, "printedGrandMatches": false, "naiveWrongSum": 18000 }`（正解 16800 / true / 50400）
- 学び: 軽量7Bは表の行種別を区別した集計で破綻。

### 5. コーディング: ローカル失敗 vs クラウド成功 — code-hozen-01
請求の1円ずれ（`Math.round`→`Math.floor` の1行修正）。ローカル qwen2.5-coder:14b は**最終出力が生のツール呼び出しJSON `{"name":"read_file",...}` で停止**し未修正（テストは `expected tax:159 but got tax:160` で落第、score0.3）。クラウド codex/claude は原因→floor修正→`exit0` まで完走。**同じくクラウドのGeminiも同じ署名(tax:160)で失敗**＝端数は共通の落とし穴。
- 学び: 消費者GPUローカルはツール操作で行き詰まり修正自体を適用できないことがある。

### 6. ローカルの勝ち — qwen2.5:14b / 議事録-03（フロンティア3社に逆転）
「江口『棚卸し、やっておきます』（担当確定・期日は本人裁量で未明示）」を**tasksにowner=江口/due=nullで残す**のが正解。qwen2.5:14b は正しく残して0.95(合格)、**claude/codex/geminiは全員『安全側に倒して』undecidedに落とし不合格(0.55-0.60)**。
- qwen2.5:14b出力: `"tasks":[{ "owner":"江口", "what":"…よくある質問を棚卸し", "due":null }]`
- claude出力: `"tasks": []`（→ objective層で0点）
- 学び: 「担当確定だが期日未明示」を確定タスクとして残せるか、はフロンティアでも外す境界判断。¥0・6.8秒のローカル14Bが3社に勝った稀な実例。

### 7. 長文取り違え — 該当なし（負の結果）
longctx-01/02 は全7モデルが完全正答。これはモデルの堅牢性というより、**fixture本文が正解を地の文で明示し誤答候補も名指しで打ち消していた**ため。次版は正解を直書きせず参照解決を強制する設計が必要（既知の限界として明記）。
