Benchmark · Snapshot 2026-06-06
J-WorkBench:ローカルLLMは仕事で使えるか
「自分の手元PC(とくに消費者GPU)で、日本語の実務がどこまでクラウドの代わりになるか」を、 品質・速度・費用・ローカル価値・運用難度の5軸とクラウド代替率で測ります。 クラウドは従量APIではなくサブスク限定(Claude Code / Codex / Gemini CLI)で実行します。
2026-06-06 の実測(RTX 3090・温度0・シード7)では、RTX 3090 で動くローカル14B〜20Bのクラウド代替率は66〜87%。 コスト・速度・ローカル価値を含めた総合ではローカルが上位に来ますが、 品質(実務正確性35%)はクラウドが明確に上です(品質軸 Codex 98 対 qwen2.5:14b 85)。 長文・議事録・メールは互角でも、社内規程と契約の条文推論、汚い表/CSV ではローカルが大きく負けます。 どこまで任せられるかは、タスクの種類で判断してください。
J-WorkBench リーダーボード
日本語の実務(社内規程RAG・契約照合・議事録・メール敬語・表/CSV・コード保守・長文耐性)で、 手元PCのローカルLLMがサブスク版クラウドの何割を肩代わりできるかを5軸で測ったスナップショット。 データ確定日: 2026-06-06
クラウド代替率ランキング
クラウド最良 = 100 が基準線5軸スコア(重み付き合計100点満点)
各軸0–100 / 重みは軸名に併記- 実務正確性×35 98
- 信頼性×20 99
- 速度UX×15 76
- 経済性×15 60
- ローカル価値×10 0
- 導入容易性×5 95
- 実務正確性×35 94
- 信頼性×20 98
- 速度UX×15 43
- 経済性×15 60
- ローカル価値×10 0
- 導入容易性×5 92
- 実務正確性×35 89
- 信頼性×20 97
- 速度UX×15 50
- 経済性×15 60
- ローカル価値×10 0
- 導入容易性×5 95
- 実務正確性×35 86
- 信頼性×20 96
- 速度UX×15 83
- 経済性×15 95
- ローカル価値×10 95
- 導入容易性×5 70
- 実務正確性×35 85
- 信頼性×20 95
- 速度UX×15 98
- 経済性×15 95
- ローカル価値×10 95
- 導入容易性×5 70
- 実務正確性×35 66
- 信頼性×20 89
- 速度UX×15 100
- 経済性×15 95
- ローカル価値×10 95
- 導入容易性×5 70
- 実務正確性×35 65
- 信頼性×20 88
- 速度UX×15 99
- 経済性×15 95
- ローカル価値×10 95
- 導入容易性×5 68
カテゴリ別ヒートマップ
行=モデル / 列=タスク / 濃いほど高スコア(0–100)| モデル \ タスク | 社内規程RAG | 契約・見積照合 | 議事録ToDo | メール敬語 | 表/CSV | コード保守 | 長文耐性 |
|---|---|---|---|---|---|---|---|
| Codex (ChatGPT) | 99 | 99 | 91 | 100 | 98 | 100 | 100 |
| Claude (Claude Code / Max) | 82 | 100 | 91 | 93 | 99 | 100 | 100 |
| Gemini (Gemini CLI) | 95 | 97 | 91 | 93 | 98 | 48 | 100 |
| gpt-oss:20b | 71 | 79 | 86 | 100 | 98 | 83 | 100 |
| qwen2.5:14b | 77 | 81 | 92 | 100 | 56 | 100 | 100 |
| qwen2.5-coder:14b | 75 | 47 | 86 | 90 | 51 | 28 | 100 |
| qwen2.5:7b | 39 | 57 | 88 | 85 | 31 | 83 | 100 |
称号
各モデルの個性を1行でこのベンチの設計思想
Arena系(人間投票)、Artificial Analysis(品質×価格×速度)、MLPerf(推論スループット)、日本語の JGLUE / Nejumi—— 既存ベンチは強力ですが、いずれも「総合知能」や「推論性能」を測るもので、 「自分のPCで日本語の実務がどこまで回るか」には答えていません。J-WorkBench はその空白を埋めます。
- 日本語実務タスクで「事故るところ」だけを集める(条件分岐・例外・日付/部署で変わる判断、根拠なし断言の検出)。JGLUE/Nejumi の再発明はしません。
- ローカルである意味(オフライン・機密・データ持ち出し不可)と、消費者ハードで動くかを一次情報として測ります。
- クラウド代替率=各タスクのクラウド最良点を100としたとき、ローカルが何%代替できるか、を主指標にします。
2026-06-06 実測でわかったこと
総合トップ4はすべてローカル(qwen2.5:14b 91・gpt-oss:20b 89・qwen2.5-coder:14b 83・qwen2.5:7b 82)で、 クラウドCLI(Codex 79・Claude 73・Gemini 72)を上回りました。ただしこれは品質で勝ったのではありません。 総合点は速度UX・経済性・ローカル価値を含む重み付き合計で、遅く・有料・データを社外に出すクラウドCLIが そのぶん点を落とすからです。品質(実務正確性35%)だけ見ればクラウドが明確に上位です。
- 互角:長文・議事録・メール。議事録ToDo抽出は全モデル91前後、メール敬語も上位ローカルは100に届き、長文耐性は全モデル満点(fixtureが本文に答えを書きすぎた既知の限界)。
- ローカルが大きく負ける:規程・契約の条文推論。社内規程RAGはクラウド82〜99に対しローカル39〜77、契約照合もクラウド97〜100に対しローカル47〜81。日付や勤続年数で変わる条件分岐で、ローカルは根拠なし断言に流れがちです。
- 汚い表/CSVもローカルが苦手。互角なのはgpt-oss:20b(98)だけで、他のローカルは31〜56。小計・合計の二重計上トラップで明細だけの合算を外します。
- コードは逆転現象。クラウドのGeminiが48、ローカルのqwen2.5-coder:14bが28と落ち、端数処理(1円ずれ)は共通の落とし穴でした。
代替率は66〜87%(クラウド最良点を100としたローカルの到達度)。 独立した Claude judge による168ペア再採点でも順位は変わりませんでした。 「どこまで任せるか」はモデルの優劣ではなくタスクの種類で決める、というのがこの実測の要点です。
5つの軸
- 実務正確性(35):正答・引用根拠・条件分岐・計算・抽出。
- 信頼性(20):ハルシネーション・回答の一貫性・フォーマット遵守。
- 速度UX(15):TTFT・完了時間・tokens/sec・P95。
- 経済性(15):定額サブ vs ローカル償却。ローカルが効くのは機密・上限超過・複数人共有の3パターン。
- ローカル価値(10):オフライン・機密・再現性・データ保持。
- 導入容易性(5):セットアップ・VRAM・量子化・クラッシュ率。
測っている日本語実務タスク
- 社内規程RAG(条文を根拠にケース審査・条件分岐・情報不足の検出)
- 契約・見積照合(納期/保守範囲/違約金の矛盾検出・過検出抑制)
- 議事録ToDo抽出(誰が・何を・いつまでに/未決・リスクの分離)
- メール返信・敬語(上司/顧客/下請けでトーンを変える・過剰約束しない)
- 表/CSV処理(汚い表の集計・整形・二重計上トラップ)
- コード保守(請求の1円ずれ修正・frontmatter整備など、テスト通過で判定)
- 長文コンテキスト耐性(遠距離参照・似た数値から条件一致の1値)
透明性
ハーネス・課題・生トランスクリプト・量子化(Q4_K_M相当)/温度0/シード7/GPU/ドライバをすべて結果に記録し公開します。
ルーブリック採点は Claude を独立 judge にして168ペアを再採点済みで、生トランスクリプトは
bench/results/2026-06-06/transcripts/ に全件あります。脚色や捏造はしません。
方法論の詳細は bench/SPEC.md、判断の背景は ADR 0025 に記録しています。
自分のPCで回す
このベンチは再現可能です。Ollama でモデルを取得し、リポジトリ直下で実行します。
npm run bench -- --dry… 実行計画の確認(モデル0でも動く)npm run bench… 検出したローカルモデル × 全課題(サブスクCLIがあれば一緒に)npm run bench:report -- --in results/<日付>… 結果からこのリーダーボードのデータを生成
更新方針
2026-06-06 時点の実測スナップショットで運用します。新モデルが出るたびに同じハーネスへ通し、 リーダーボードを追記します。