本文へスキップ
Edition · Tokyo

Benchmark · Snapshot 2026-06-06

J-WorkBench:ローカルLLMは仕事で使えるか

「自分の手元PC(とくに消費者GPU)で、日本語の実務がどこまでクラウドの代わりになるか」を、 品質・速度・費用・ローカル価値・運用難度の5軸とクラウド代替率で測ります。 クラウドは従量APIではなくサブスク限定(Claude Code / Codex / Gemini CLI)で実行します。

2026-06-06 の実測(RTX 3090・温度0・シード7)では、RTX 3090 で動くローカル14B〜20Bのクラウド代替率は66〜87%。 コスト・速度・ローカル価値を含めた総合ではローカルが上位に来ますが、 品質(実務正確性35%)はクラウドが明確に上です(品質軸 Codex 98 対 qwen2.5:14b 85)。 長文・議事録・メールは互角でも、社内規程と契約の条文推論、汚い表/CSV ではローカルが大きく負けます。 どこまで任せられるかは、タスクの種類で判断してください。

J-WorkBench リーダーボード

日本語の実務(社内規程RAG・契約照合・議事録・メール敬語・表/CSV・コード保守・長文耐性)で、 手元PCのローカルLLMがサブスク版クラウドの何割を肩代わりできるかを5軸で測ったスナップショット。 データ確定日: 2026-06-06

クラウド代替率ランキング

クラウド最良 = 100 が基準線
  1. 1 Codex (ChatGPT) クラウド クラウド基準 100%
  2. 2 Claude (Claude Code / Max) クラウド クラウド基準 100%
  3. 3 Gemini (Gemini CLI) クラウド クラウド基準 100%
  4. 4 gpt-oss:20b ローカル ゲーミングPC級 87%
  5. 5 qwen2.5:14b ローカル ゲーミングPC級 86%
  6. 6 qwen2.5-coder:14b ローカル ゲーミングPC級 68%
  7. 7 qwen2.5:7b ローカル ゲーミングPC級 66%

5軸スコア(重み付き合計100点満点)

各軸0–100 / 重みは軸名に併記
Codex (ChatGPT) 総合 79
  • 実務正確性×35 98
  • 信頼性×20 99
  • 速度UX×15 76
  • 経済性×15 60
  • ローカル価値×10 0
  • 導入容易性×5 95
Claude (Claude Code / Max) 総合 73
  • 実務正確性×35 94
  • 信頼性×20 98
  • 速度UX×15 43
  • 経済性×15 60
  • ローカル価値×10 0
  • 導入容易性×5 92
Gemini (Gemini CLI) 総合 72
  • 実務正確性×35 89
  • 信頼性×20 97
  • 速度UX×15 50
  • 経済性×15 60
  • ローカル価値×10 0
  • 導入容易性×5 95
gpt-oss:20b 総合 89
  • 実務正確性×35 86
  • 信頼性×20 96
  • 速度UX×15 83
  • 経済性×15 95
  • ローカル価値×10 95
  • 導入容易性×5 70
qwen2.5:14b 総合 91
  • 実務正確性×35 85
  • 信頼性×20 95
  • 速度UX×15 98
  • 経済性×15 95
  • ローカル価値×10 95
  • 導入容易性×5 70
qwen2.5-coder:14b 総合 83
  • 実務正確性×35 66
  • 信頼性×20 89
  • 速度UX×15 100
  • 経済性×15 95
  • ローカル価値×10 95
  • 導入容易性×5 70
qwen2.5:7b 総合 82
  • 実務正確性×35 65
  • 信頼性×20 88
  • 速度UX×15 99
  • 経済性×15 95
  • ローカル価値×10 95
  • 導入容易性×5 68

カテゴリ別ヒートマップ

行=モデル / 列=タスク / 濃いほど高スコア(0–100)
モデル \ タスク 社内規程RAG契約・見積照合議事録ToDoメール敬語表/CSVコード保守長文耐性
Codex (ChatGPT) 99 99 91 100 98 100 100
Claude (Claude Code / Max) 82 100 91 93 99 100 100
Gemini (Gemini CLI) 95 97 91 93 98 48 100
gpt-oss:20b 71 79 86 100 98 83 100
qwen2.5:14b 77 81 92 100 56 100 100
qwen2.5-coder:14b 75 47 86 90 51 28 100
qwen2.5:7b 39 57 88 85 31 83 100

称号

各モデルの個性を1行で
Codex (ChatGPT)
クラウド代替率 100% 月額破壊力 0 秘密文書適性 0% 社畜耐性 97% 普通のPC適性 0% 待てる速度か指数 76
Claude (Claude Code / Max)
クラウド代替率 100% 月額破壊力 0 秘密文書適性 0% 社畜耐性 97% 普通のPC適性 0% 待てる速度か指数 43
Gemini (Gemini CLI)
クラウド代替率 100% 月額破壊力 0 秘密文書適性 0% 社畜耐性 96% 普通のPC適性 0% 待てる速度か指数 50
gpt-oss:20b
クラウド代替率 87% 月額破壊力 3 秘密文書適性 75% 社畜耐性 94% 普通のPC適性 70% 待てる速度か指数 83
qwen2.5:14b
クラウド代替率 86% 月額破壊力 3 秘密文書適性 78% 社畜耐性 88% 普通のPC適性 70% 待てる速度か指数 98
qwen2.5-coder:14b
クラウド代替率 68% 月額破壊力 3 秘密文書適性 62% 社畜耐性 82% 普通のPC適性 70% 待てる速度か指数 100
qwen2.5:7b
クラウド代替率 66% 月額破壊力 3 秘密文書適性 47% 社畜耐性 79% 普通のPC適性 70% 待てる速度か指数 99
方法論: bench/SPEC.md / 背景: docs/adr/0025-*.md。 クラウドは従量APIではなくサブスク版CLI(claude / codex / gemini)の現実構成を基準にしている。 採点は3層: 客観(決定的・条項は部分一致)/ルーブリック(Claude独立採点)/コード課題はテスト通過。 総合点はコスト・速度・ローカル価値(45%)を含むためローカルが上位に出るが、品質(35%軸)はクラウドが明確に上位。 生トランスクリプトは bench/results/2026-06-06/ に全件公開。

このベンチの設計思想

Arena系(人間投票)、Artificial Analysis(品質×価格×速度)、MLPerf(推論スループット)、日本語の JGLUE / Nejumi—— 既存ベンチは強力ですが、いずれも「総合知能」や「推論性能」を測るもので、 「自分のPCで日本語の実務がどこまで回るか」には答えていません。J-WorkBench はその空白を埋めます。

  1. 日本語実務タスクで「事故るところ」だけを集める(条件分岐・例外・日付/部署で変わる判断、根拠なし断言の検出)。JGLUE/Nejumi の再発明はしません。
  2. ローカルである意味(オフライン・機密・データ持ち出し不可)と、消費者ハードで動くかを一次情報として測ります。
  3. クラウド代替率=各タスクのクラウド最良点を100としたとき、ローカルが何%代替できるか、を主指標にします。

2026-06-06 実測でわかったこと

総合トップ4はすべてローカル(qwen2.5:14b 91・gpt-oss:20b 89・qwen2.5-coder:14b 83・qwen2.5:7b 82)で、 クラウドCLI(Codex 79・Claude 73・Gemini 72)を上回りました。ただしこれは品質で勝ったのではありません。 総合点は速度UX・経済性・ローカル価値を含む重み付き合計で、遅く・有料・データを社外に出すクラウドCLIが そのぶん点を落とすからです。品質(実務正確性35%)だけ見ればクラウドが明確に上位です。

  • 互角:長文・議事録・メール。議事録ToDo抽出は全モデル91前後、メール敬語も上位ローカルは100に届き、長文耐性は全モデル満点(fixtureが本文に答えを書きすぎた既知の限界)。
  • ローカルが大きく負ける:規程・契約の条文推論。社内規程RAGはクラウド82〜99に対しローカル39〜77、契約照合もクラウド97〜100に対しローカル47〜81。日付や勤続年数で変わる条件分岐で、ローカルは根拠なし断言に流れがちです。
  • 汚い表/CSVもローカルが苦手。互角なのはgpt-oss:20b(98)だけで、他のローカルは31〜56。小計・合計の二重計上トラップで明細だけの合算を外します。
  • コードは逆転現象。クラウドのGeminiが48、ローカルのqwen2.5-coder:14bが28と落ち、端数処理(1円ずれ)は共通の落とし穴でした。

代替率は66〜87%(クラウド最良点を100としたローカルの到達度)。 独立した Claude judge による168ペア再採点でも順位は変わりませんでした。 「どこまで任せるか」はモデルの優劣ではなくタスクの種類で決める、というのがこの実測の要点です。

5つの軸

  • 実務正確性(35):正答・引用根拠・条件分岐・計算・抽出。
  • 信頼性(20):ハルシネーション・回答の一貫性・フォーマット遵守。
  • 速度UX(15):TTFT・完了時間・tokens/sec・P95。
  • 経済性(15):定額サブ vs ローカル償却。ローカルが効くのは機密・上限超過・複数人共有の3パターン。
  • ローカル価値(10):オフライン・機密・再現性・データ保持。
  • 導入容易性(5):セットアップ・VRAM・量子化・クラッシュ率。

測っている日本語実務タスク

  • 社内規程RAG(条文を根拠にケース審査・条件分岐・情報不足の検出)
  • 契約・見積照合(納期/保守範囲/違約金の矛盾検出・過検出抑制)
  • 議事録ToDo抽出(誰が・何を・いつまでに/未決・リスクの分離)
  • メール返信・敬語(上司/顧客/下請けでトーンを変える・過剰約束しない)
  • 表/CSV処理(汚い表の集計・整形・二重計上トラップ)
  • コード保守(請求の1円ずれ修正・frontmatter整備など、テスト通過で判定)
  • 長文コンテキスト耐性(遠距離参照・似た数値から条件一致の1値)

透明性

ハーネス・課題・生トランスクリプト・量子化(Q4_K_M相当)/温度0/シード7/GPU/ドライバをすべて結果に記録し公開します。 ルーブリック採点は Claude を独立 judge にして168ペアを再採点済みで、生トランスクリプトは bench/results/2026-06-06/transcripts/ に全件あります。脚色や捏造はしません。 方法論の詳細は bench/SPEC.md、判断の背景は ADR 0025 に記録しています。

自分のPCで回す

このベンチは再現可能です。Ollama でモデルを取得し、リポジトリ直下で実行します。

  • npm run bench -- --dry … 実行計画の確認(モデル0でも動く)
  • npm run bench … 検出したローカルモデル × 全課題(サブスクCLIがあれば一緒に)
  • npm run bench:report -- --in results/<日付> … 結果からこのリーダーボードのデータを生成

更新方針

2026-06-06 時点の実測スナップショットで運用します。新モデルが出るたびに同じハーネスへ通し、 リーダーボードを追記します。