ローカルLLMはクラウドの何割を肩代わりできるか — J-WorkBench クラウド代替率

「ローカルLLMで業務、どこまでいけるのか」は答えにくい。ベンチの多くは英語・学術タスクで、日本語の実務（社内規程の照合、議事録のToDo化、メールの敬語、表/CSVの集計）とはズレる。J-WorkBench は、その日本語実務 7 カテゴリで「手元PC（RTX 3090 24GB）のローカルLLMがサブスク版クラウドの何割を肩代わりできるか」=クラウド代替率を測るベンチだ。

本稿は 2026-06-06 の実測（温度0・seed7・量子化Q4_K_M相当）にもとづく。生トランスクリプト・実行結果・採点記録は /jworkbench/2026-06-06/ で全件公開している。

結論（先に要点）

代替率は「タスクごとのクラウド最良=100」に対する相対点。RTX 3090 上のローカルで、qwen2.5:14b が 86%、gpt-oss:20b が 87%、軽量勢（qwen2.5-coder:14b / qwen2.5:7b）が 68% / 66%。100に近いほど、その作業はローカルで足りる。
ただし品質（実務正確性 35%軸）はクラウド優位。codex 98 / claude 94 / gemini 89 に対し、ローカル最良の gpt-oss:20b で 86。総合でローカルが上位なのはコスト・速度・ローカル価値が効くからで、正確性ではない。
ローカルが効くのは「外に出せない機密文書」「サブスクの利用上限（cap）を超える重量利用」「1台のGPUを複数人で共有」の3パターン。それ以外は素直にクラウドが速くて正確。
1台のローカルLLMで全タスクを置き換える発想は外れ。**カテゴリ別に「どこを任せるか」**を決めるのが現実解。長文・議事録・メールはローカルでも互角、規程・契約の条文推論はクラウドに残すのが安全。

この記事で答えること

クラウド代替率とは何を測った数字なのか
代替率66〜87%の正直な内訳 — どのタスクが互角で、どこでローカルが大きく負けるか
総合でローカルが上位なのに「品質はクラウド優位」になる理由（5軸の重み）
結局どのタスクをローカルに寄せ、どこをクラウドに残すか
どう測ったか（採点・クラウド構成・既知の限界）

なお本サイトの主軸は AEO（Answer Engine Optimization） だが、本稿はそれとは独立した実務ベンチの解説で、検索文脈の語（SEO/GEO/LLMO）は使わない。

クラウド代替率とは何か

代替率は、各タスクでそのとき最も良かったクラウド出力を 100 点とし、ローカルLLMの出力がそれに対して何点取れたかを束ねた相対指標だ。

絶対品質ではなく**「クラウドに対してどれだけ肉薄したか」**を見る。
クラウド側は単一モデルではなく、claude / codex / gemini のサブスクCLIを回した中のベストを基準にする。
採点は客観グレーダ（数値の部分一致・JSON妥当性）と、ルーブリック採点を併用。ルーブリックは公平を期すため Claude を独立採点者として 168 ペアを再採点した（自己採点ではない）。方法論は bench/SPEC.md。

リーダーボード

リーダーボードには代替率ランキング、5軸スコア、カテゴリ別ヒートマップが入っている。総合点は5軸の重み付き合計（合計100）で、**代替率は「クラウド比」、総合点は「絶対評価」**だと捉えると混乱しない。今回の実測対象はゲーミングPC級（RTX 3090 24GB）のローカル4モデルと、クラウド基準3モデル（claude / codex / gemini）。

J-WorkBench リーダーボード

日本語の実務（社内規程RAG・契約照合・議事録・メール敬語・表/CSV・コード保守・長文耐性）で、手元PCのローカルLLMがサブスク版クラウドの何割を肩代わりできるかを5軸で測ったスナップショット。データ確定日: 2026-06-06

クラウド代替率ランキング

クラウド最良 = 100 が基準線

1 Codex (ChatGPT) クラウドクラウド基準 100%
2 Claude (Claude Code / Max) クラウドクラウド基準 100%
3 Gemini (Gemini CLI) クラウドクラウド基準 100%
4 gpt-oss:20b ローカルゲーミングPC級 87%
5 qwen2.5:14b ローカルゲーミングPC級 86%
6 qwen2.5-coder:14b ローカルゲーミングPC級 68%
7 qwen2.5:7b ローカルゲーミングPC級 66%

5軸スコア（重み付き合計100点満点）

各軸0–100 / 重みは軸名に併記

Codex (ChatGPT) 総合 79

実務正確性×35 98
信頼性×20 99
速度UX×15 76
経済性×15 60
ローカル価値×10 0
導入容易性×5 95

Claude (Claude Code / Max) 総合 73

実務正確性×35 94
信頼性×20 98
速度UX×15 43
経済性×15 60
ローカル価値×10 0
導入容易性×5 92

Gemini (Gemini CLI) 総合 72

実務正確性×35 89
信頼性×20 97
速度UX×15 50
経済性×15 60
ローカル価値×10 0
導入容易性×5 95

gpt-oss:20b 総合 89

実務正確性×35 86
信頼性×20 96
速度UX×15 83
経済性×15 95
ローカル価値×10 95
導入容易性×5 70

qwen2.5:14b 総合 91

実務正確性×35 85
信頼性×20 95
速度UX×15 98
経済性×15 95
ローカル価値×10 95
導入容易性×5 70

qwen2.5-coder:14b 総合 83

実務正確性×35 66
信頼性×20 89
速度UX×15 100
経済性×15 95
ローカル価値×10 95
導入容易性×5 70

qwen2.5:7b 総合 82

実務正確性×35 65
信頼性×20 88
速度UX×15 99
経済性×15 95
ローカル価値×10 95
導入容易性×5 68

カテゴリ別ヒートマップ

行=モデル / 列=タスク / 濃いほど高スコア（0–100）

モデル＼タスク	社内規程RAG	契約・見積照合	議事録ToDo	メール敬語	表/CSV	コード保守	長文耐性
Codex (ChatGPT)	99	99	91	100	98	100	100
Claude (Claude Code / Max)	82	100	91	93	99	100	100
Gemini (Gemini CLI)	95	97	91	93	98	48	100
gpt-oss:20b	71	79	86	100	98	83	100
qwen2.5:14b	77	81	92	100	56	100	100
qwen2.5-coder:14b	75	47	86	90	51	28	100
qwen2.5:7b	39	57	88	85	31	83	100

称号

各モデルの個性を1行で

Codex (ChatGPT)

クラウド代替率 100% 月額破壊力 0 秘密文書適性 0% 社畜耐性 97% 普通のPC適性 0% 待てる速度か指数 76

Claude (Claude Code / Max)

クラウド代替率 100% 月額破壊力 0 秘密文書適性 0% 社畜耐性 97% 普通のPC適性 0% 待てる速度か指数 43

Gemini (Gemini CLI)

クラウド代替率 100% 月額破壊力 0 秘密文書適性 0% 社畜耐性 96% 普通のPC適性 0% 待てる速度か指数 50

gpt-oss:20b

クラウド代替率 87% 月額破壊力 3 秘密文書適性 75% 社畜耐性 94% 普通のPC適性 70% 待てる速度か指数 83

qwen2.5:14b

クラウド代替率 86% 月額破壊力 3 秘密文書適性 78% 社畜耐性 88% 普通のPC適性 70% 待てる速度か指数 98

qwen2.5-coder:14b

クラウド代替率 68% 月額破壊力 3 秘密文書適性 62% 社畜耐性 82% 普通のPC適性 70% 待てる速度か指数 100

qwen2.5:7b

クラウド代替率 66% 月額破壊力 3 秘密文書適性 47% 社畜耐性 79% 普通のPC適性 70% 待てる速度か指数 99

正直な内訳 — どこが互角で、どこで負けるか

代替率の総合値だけ見ると「ローカルでだいたい足りる」と読めてしまう。だがカテゴリ別に割ると、互角の領域と大きく負ける領域がはっきり分かれる。これが実務の振り分けに直結する。

長文・議事録・メールはローカルが互角。 長文耐性は全7モデルが満点（100）、議事録ToDoはローカルも 86〜92 とクラウド（91）に並ぶ。メール敬語も qwen2.5:14b / gpt-oss:20b が 100 を出し、クラウドの 92〜100 と互角だ。これらは「下書き・一次処理」として素直にローカルに寄せられる。

規程・契約の条文推論はクラウドが明確に上。 社内規程RAGはクラウドが 82〜99 なのに対しローカルは 39〜77、契約照合もクラウド 97〜100 に対しローカルは 47〜81。条文を取り違えると致命的な領域で、ローカルは「勤続年数を根拠なく断言して有給日数を誤付与」のような事故を起こす（→失敗集）。ここはクラウドに残すのが安全。

表/CSVはローカル内で割れる。 gpt-oss:20b だけが 98 とクラウド（98〜99）に並ぶ一方、他のローカルは 31〜56。「小計と合計を足すな、明細だけ合算」のような行種別の集計でローカル軽量勢は破綻しやすい。

コードは逆転が起きた。 code-hozen では qwen2.5-coder:14b が 28 と最下位に沈み、クラウドの Gemini も 48 と落ちた一方、claude / codex / qwen2.5:14b は 100。端数処理（Math.round→Math.floor）の1行修正で、ローカルのcoderは最終出力が生のツール呼び出しJSONで停止して未修正、Gemini も同じ署名（tax:160）で失敗。「コード=ローカルが得意」という直感が外れる典型例だ。

ローカル（gaming / RTX 3090）

クラウド（サブスクCLI最良）

長文耐性

100（互角）

100

議事録ToDo

86〜92（互角）

メール敬語

85〜100（互角〜やや劣）

92〜100

表/CSV

31〜98（gpt-oss:20bのみ互角）

98〜99

社内規程RAG

39〜77（劣）

82〜99

契約・見積照合

47〜81（劣）

97〜100

コード保守

28〜100（モデル差大）

48〜100（Geminiが48）

カテゴリ別スコア（score01×100、Claude独立採点）。互角はローカルに寄せ、規程・契約はクラウドに残すのが実務的な振り分け。

総合で勝つローカル、品質で勝つクラウド

リーダーボードの総合トップ4はローカルだが、これを「品質で勝った」と読むのは誤りだ。総合点は次の5軸（6項目）の重み付き合計で、正確性は35%に過ぎない。

実務正確性（×35） — 規程・契約・数値を取り違えないか。最重要。ここはクラウドが上（codex 98 / claude 94 / gemini 89、ローカル最良 gpt-oss:20b で 86）。
信頼性（×20） — ハルシネーション・JSON崩壊・根拠なし断言をしないか。
速度UX（×15） — 待てる速度か。サブスクCLIはヘッドレスでも遅く、claude は速度軸 43、gemini 50。ローカル14Bは 98〜100。
経済性（×15） — ローカルは電気代のみ（95）、クラウドはサブスク有料（60）。
ローカル価値（×10） — 外に出さない・止まらない。クラウドは構造上 0。
導入容易性（×5） — pull して動かすまでの手間。

つまり**速度UX・経済性・ローカル価値の計40%**が、遅くて有料でデータを外に出すクラウドCLIに不利に働く。ローカル14Bが総合1〜2位なのはこの40%を取り切ったからで、正確性で上回ったからではない。「機密で外に出せない」「サブスク上限に当たる」「速い応答が欲しい」が効くなら総合点が意味を持ち、「とにかく正確に」が最優先なら35%軸＝クラウドを見るべきだ。

向くケース / 向かないケース

向く

社外に出せない機密文書を、要約・分類・下書きに通したい（実測でも長文・議事録・メールは互角）
サブスクの利用上限に頻繁に当たる重量ユーザーで、軽い前処理をローカルに逃がしたい
議事録ToDo化など、間違えても人間がすぐ気づける定型作業。表/CSVを任せるなら gpt-oss:20b 一択（他ローカルは 31〜56 で破綻しやすい）

向かない

契約・見積の数値照合や社内規程の条文推論（ローカルは 39〜81、クラウドは 97〜100。取り違えが致命的）
コード保守をローカルに丸投げ（qwen2.5-coder:14b が 28。なお同タスクは Gemini も 48 と落ちるので、モデル単位で当たりを見極める）
「とにかく速くて正確」を最優先したい（その場合はクラウドが素直）

方法論と注意点

数字をそのまま信じすぎないために、測り方と既知の限界を明記しておく。

環境: RTX 3090 24GB / Ollama 0.19 / 温度0・seed7・量子化Q4_K_M相当。GPU・ドライバまで結果に記録した。
採点: 客観グレーダ（数値の部分一致・JSON妥当性）は決定的。ルーブリックは公平のため Claude を独立採点者として 168 ペアを再採点した（自己採点ではない）。クラウドは従量APIではなく サブスク版CLI（claude / codex / gemini）をヘッドレス起動した現実構成を基準にしている。
代替率は judge 感度が最も高い指標。Claude 採点に置き換えても順位は不変だったが、自動採点である以上「内容エラーへの甘さ」は残りうる。
客観グレーダの部分一致化は、慎重に安全側へ倒した妥当回答を過小評価しうる（クラウド過小方向の歪み）。コード保守などの自動採点タスクは Claude による二重採点をしていない。
長文耐性が全モデル満点なのは限界。fixture が本文に答えを書きすぎており、モデルの堅牢性ではなく問題設計の甘さを映している。次版は正解を直書きせず参照解決を強制する設計にする。

これらは弱点を隠すためではなく、どこを割り引いて読むべきかを示すために置いている。生トランスクリプトは全件公開しているので、採点が甘い/辛いと感じたら一次出力にあたってほしい。

FAQ

Q. 結局、ローカルは品質でクラウドに勝ったのか。 A. 勝っていない。総合点ではローカル14Bが上位だが、それは経済性・速度・ローカル価値（計40%）が効いた結果で、実務正確性（35%軸）は codex 98 / claude 94 に対しローカル最良が 86 とクラウドが明確に上だ。

Q. 代替率100%のローカルモデルは出るのか。 A. 基準がクラウド最良=100なので、構造上ローカルが100を超えることは想定しない。実用上は「特定カテゴリで90台」が出れば、その作業は十分ローカルに寄せられる。長文・議事録・メールがそれにあたる。

Q. クラウドはなぜ従量APIではなくサブスクなのか。 A. 個人/小規模の現実的な使い方が定額サブだからだ。損益分岐も token 課金ではなく月額で考える（損益分岐の記事参照）。

出典・方法論

生データ（全件・脚色なし・公開）: /jworkbench/2026-06-06/ — FINDINGS.md（確定知見）/ run-<model>.json（生結果）/ report.md / transcripts/（全トランスクリプト）/ claude-rubric-scores.json（採点記録）
方法論の正典: /jworkbench/SPEC.md
設計の背景は ADR 0025、リーダーボード用データ src/data/jworkbench.ts は bench/report.mjs が実測から再生成（いずれもリポジトリ管理）