ローカルLLMはクラウドの何割を肩代わりできるか — J-WorkBench クラウド代替率
日本語の実務7カテゴリで、手元PC(RTX 3090)のローカルLLMがサブスク版クラウドの何割を代替できるかを5軸で測ったベンチ J-WorkBench の実測結果。代替率66〜87%の正直な内訳、互角と苦戦の境界、向く/向かないケースを整理します。
- local-llm
- ollama
- claude-code
- codex-cli
- benchmark
- rag
- 情報確認
- 更新性
- 定期更新
- 読了目安
- 約7分
仕様・料金・提供範囲が変わりやすいテーマは、公開日・更新日・情報確認日を分けて管理します。 導入前には必ず記事末尾の一次情報と公式ドキュメントで最新状況を確認してください。
「ローカルLLMで業務、どこまでいけるのか」は答えにくい。ベンチの多くは英語・学術タスクで、日本語の実務(社内規程の照合、議事録のToDo化、メールの敬語、表/CSVの集計)とはズレる。J-WorkBench は、その日本語実務 7 カテゴリで「手元PC(RTX 3090 24GB)のローカルLLMがサブスク版クラウドの何割を肩代わりできるか」=クラウド代替率を測るベンチだ。
本稿は 2026-06-06 の実測(温度0・seed7・量子化Q4_K_M相当)にもとづく。生トランスクリプト・実行結果・採点記録は /jworkbench/2026-06-06/ で全件公開している。
結論(先に要点)
- 代替率は「タスクごとのクラウド最良=100」に対する相対点。RTX 3090 上のローカルで、qwen2.5:14b が 86%、gpt-oss:20b が 87%、軽量勢(qwen2.5-coder:14b / qwen2.5:7b)が 68% / 66%。100に近いほど、その作業はローカルで足りる。
- ただし品質(実務正確性 35%軸)はクラウド優位。codex 98 / claude 94 / gemini 89 に対し、ローカル最良の gpt-oss:20b で 86。総合でローカルが上位なのはコスト・速度・ローカル価値が効くからで、正確性ではない。
- ローカルが効くのは「外に出せない機密文書」「サブスクの利用上限(cap)を超える重量利用」「1台のGPUを複数人で共有」の3パターン。それ以外は素直にクラウドが速くて正確。
- 1台のローカルLLMで全タスクを置き換える発想は外れ。**カテゴリ別に「どこを任せるか」**を決めるのが現実解。長文・議事録・メールはローカルでも互角、規程・契約の条文推論はクラウドに残すのが安全。
この記事で答えること
- クラウド代替率とは何を測った数字なのか
- 代替率66〜87%の正直な内訳 — どのタスクが互角で、どこでローカルが大きく負けるか
- 総合でローカルが上位なのに「品質はクラウド優位」になる理由(5軸の重み)
- 結局どのタスクをローカルに寄せ、どこをクラウドに残すか
- どう測ったか(採点・クラウド構成・既知の限界)
なお本サイトの主軸は AEO(Answer Engine Optimization) だが、本稿はそれとは独立した実務ベンチの解説で、検索文脈の語(SEO/GEO/LLMO)は使わない。
クラウド代替率とは何か
代替率は、各タスクでそのとき最も良かったクラウド出力を 100 点とし、ローカルLLMの出力がそれに対して何点取れたかを束ねた相対指標だ。
- 絶対品質ではなく**「クラウドに対してどれだけ肉薄したか」**を見る。
- クラウド側は単一モデルではなく、
claude/codex/geminiのサブスクCLIを回した中のベストを基準にする。 - 採点は客観グレーダ(数値の部分一致・JSON妥当性)と、ルーブリック採点を併用。ルーブリックは公平を期すため Claude を独立採点者として 168 ペアを再採点した(自己採点ではない)。方法論は
bench/SPEC.md。
リーダーボード
リーダーボードには代替率ランキング、5軸スコア、カテゴリ別ヒートマップが入っている。総合点は5軸の重み付き合計(合計100)で、**代替率は「クラウド比」、総合点は「絶対評価」**だと捉えると混乱しない。今回の実測対象はゲーミングPC級(RTX 3090 24GB)のローカル4モデルと、クラウド基準3モデル(claude / codex / gemini)。
J-WorkBench リーダーボード
日本語の実務(社内規程RAG・契約照合・議事録・メール敬語・表/CSV・コード保守・長文耐性)で、 手元PCのローカルLLMがサブスク版クラウドの何割を肩代わりできるかを5軸で測ったスナップショット。 データ確定日: 2026-06-06
クラウド代替率ランキング
クラウド最良 = 100 が基準線5軸スコア(重み付き合計100点満点)
各軸0–100 / 重みは軸名に併記- 実務正確性×35 98
- 信頼性×20 99
- 速度UX×15 76
- 経済性×15 60
- ローカル価値×10 0
- 導入容易性×5 95
- 実務正確性×35 94
- 信頼性×20 98
- 速度UX×15 43
- 経済性×15 60
- ローカル価値×10 0
- 導入容易性×5 92
- 実務正確性×35 89
- 信頼性×20 97
- 速度UX×15 50
- 経済性×15 60
- ローカル価値×10 0
- 導入容易性×5 95
- 実務正確性×35 86
- 信頼性×20 96
- 速度UX×15 83
- 経済性×15 95
- ローカル価値×10 95
- 導入容易性×5 70
- 実務正確性×35 85
- 信頼性×20 95
- 速度UX×15 98
- 経済性×15 95
- ローカル価値×10 95
- 導入容易性×5 70
- 実務正確性×35 66
- 信頼性×20 89
- 速度UX×15 100
- 経済性×15 95
- ローカル価値×10 95
- 導入容易性×5 70
- 実務正確性×35 65
- 信頼性×20 88
- 速度UX×15 99
- 経済性×15 95
- ローカル価値×10 95
- 導入容易性×5 68
カテゴリ別ヒートマップ
行=モデル / 列=タスク / 濃いほど高スコア(0–100)| モデル \ タスク | 社内規程RAG | 契約・見積照合 | 議事録ToDo | メール敬語 | 表/CSV | コード保守 | 長文耐性 |
|---|---|---|---|---|---|---|---|
| Codex (ChatGPT) | 99 | 99 | 91 | 100 | 98 | 100 | 100 |
| Claude (Claude Code / Max) | 82 | 100 | 91 | 93 | 99 | 100 | 100 |
| Gemini (Gemini CLI) | 95 | 97 | 91 | 93 | 98 | 48 | 100 |
| gpt-oss:20b | 71 | 79 | 86 | 100 | 98 | 83 | 100 |
| qwen2.5:14b | 77 | 81 | 92 | 100 | 56 | 100 | 100 |
| qwen2.5-coder:14b | 75 | 47 | 86 | 90 | 51 | 28 | 100 |
| qwen2.5:7b | 39 | 57 | 88 | 85 | 31 | 83 | 100 |
称号
各モデルの個性を1行で正直な内訳 — どこが互角で、どこで負けるか
代替率の総合値だけ見ると「ローカルでだいたい足りる」と読めてしまう。だがカテゴリ別に割ると、互角の領域と大きく負ける領域がはっきり分かれる。これが実務の振り分けに直結する。
長文・議事録・メールはローカルが互角。 長文耐性は全7モデルが満点(100)、議事録ToDoはローカルも 86〜92 とクラウド(91)に並ぶ。メール敬語も qwen2.5:14b / gpt-oss:20b が 100 を出し、クラウドの 92〜100 と互角だ。これらは「下書き・一次処理」として素直にローカルに寄せられる。
規程・契約の条文推論はクラウドが明確に上。 社内規程RAGはクラウドが 82〜99 なのに対しローカルは 39〜77、契約照合もクラウド 97〜100 に対しローカルは 47〜81。条文を取り違えると致命的な領域で、ローカルは「勤続年数を根拠なく断言して有給日数を誤付与」のような事故を起こす(→失敗集)。ここはクラウドに残すのが安全。
表/CSVはローカル内で割れる。 gpt-oss:20b だけが 98 とクラウド(98〜99)に並ぶ一方、他のローカルは 31〜56。「小計と合計を足すな、明細だけ合算」のような行種別の集計でローカル軽量勢は破綻しやすい。
コードは逆転が起きた。 code-hozen では qwen2.5-coder:14b が 28 と最下位に沈み、クラウドの Gemini も 48 と落ちた一方、claude / codex / qwen2.5:14b は 100。端数処理(Math.round→Math.floor)の1行修正で、ローカルのcoderは最終出力が生のツール呼び出しJSONで停止して未修正、Gemini も同じ署名(tax:160)で失敗。「コード=ローカルが得意」という直感が外れる典型例だ。
総合で勝つローカル、品質で勝つクラウド
リーダーボードの総合トップ4はローカルだが、これを「品質で勝った」と読むのは誤りだ。総合点は次の5軸(6項目)の重み付き合計で、正確性は35%に過ぎない。
- 実務正確性(×35) — 規程・契約・数値を取り違えないか。最重要。ここはクラウドが上(codex 98 / claude 94 / gemini 89、ローカル最良 gpt-oss:20b で 86)。
- 信頼性(×20) — ハルシネーション・JSON崩壊・根拠なし断言をしないか。
- 速度UX(×15) — 待てる速度か。サブスクCLIはヘッドレスでも遅く、claude は速度軸 43、gemini 50。ローカル14Bは 98〜100。
- 経済性(×15) — ローカルは電気代のみ(95)、クラウドはサブスク有料(60)。
- ローカル価値(×10) — 外に出さない・止まらない。クラウドは構造上 0。
- 導入容易性(×5) — pull して動かすまでの手間。
つまり**速度UX・経済性・ローカル価値の計40%**が、遅くて有料でデータを外に出すクラウドCLIに不利に働く。ローカル14Bが総合1〜2位なのはこの40%を取り切ったからで、正確性で上回ったからではない。「機密で外に出せない」「サブスク上限に当たる」「速い応答が欲しい」が効くなら総合点が意味を持ち、「とにかく正確に」が最優先なら35%軸=クラウドを見るべきだ。
向くケース / 向かないケース
向く
- 社外に出せない機密文書を、要約・分類・下書きに通したい(実測でも長文・議事録・メールは互角)
- サブスクの利用上限に頻繁に当たる重量ユーザーで、軽い前処理をローカルに逃がしたい
- 議事録ToDo化など、間違えても人間がすぐ気づける定型作業。表/CSVを任せるなら gpt-oss:20b 一択(他ローカルは 31〜56 で破綻しやすい)
向かない
- 契約・見積の数値照合や社内規程の条文推論(ローカルは 39〜81、クラウドは 97〜100。取り違えが致命的)
- コード保守をローカルに丸投げ(qwen2.5-coder:14b が 28。なお同タスクは Gemini も 48 と落ちるので、モデル単位で当たりを見極める)
- 「とにかく速くて正確」を最優先したい(その場合はクラウドが素直)
方法論と注意点
数字をそのまま信じすぎないために、測り方と既知の限界を明記しておく。
- 環境: RTX 3090 24GB / Ollama 0.19 / 温度0・seed7・量子化Q4_K_M相当。GPU・ドライバまで結果に記録した。
- 採点: 客観グレーダ(数値の部分一致・JSON妥当性)は決定的。ルーブリックは公平のため Claude を独立採点者として 168 ペアを再採点した(自己採点ではない)。クラウドは従量APIではなく サブスク版CLI(
claude/codex/gemini)をヘッドレス起動した現実構成を基準にしている。 - 代替率は judge 感度が最も高い指標。Claude 採点に置き換えても順位は不変だったが、自動採点である以上「内容エラーへの甘さ」は残りうる。
- 客観グレーダの部分一致化は、慎重に安全側へ倒した妥当回答を過小評価しうる(クラウド過小方向の歪み)。コード保守などの自動採点タスクは Claude による二重採点をしていない。
- 長文耐性が全モデル満点なのは限界。fixture が本文に答えを書きすぎており、モデルの堅牢性ではなく問題設計の甘さを映している。次版は正解を直書きせず参照解決を強制する設計にする。
これらは弱点を隠すためではなく、どこを割り引いて読むべきかを示すために置いている。生トランスクリプトは全件公開しているので、採点が甘い/辛いと感じたら一次出力にあたってほしい。
FAQ
Q. 結局、ローカルは品質でクラウドに勝ったのか。 A. 勝っていない。総合点ではローカル14Bが上位だが、それは経済性・速度・ローカル価値(計40%)が効いた結果で、実務正確性(35%軸)は codex 98 / claude 94 に対しローカル最良が 86 とクラウドが明確に上だ。
Q. 代替率100%のローカルモデルは出るのか。 A. 基準がクラウド最良=100なので、構造上ローカルが100を超えることは想定しない。実用上は「特定カテゴリで90台」が出れば、その作業は十分ローカルに寄せられる。長文・議事録・メールがそれにあたる。
Q. クラウドはなぜ従量APIではなくサブスクなのか。 A. 個人/小規模の現実的な使い方が定額サブだからだ。損益分岐も token 課金ではなく月額で考える(損益分岐の記事参照)。
出典・方法論
- 生データ(全件・脚色なし・公開): /jworkbench/2026-06-06/ —
FINDINGS.md(確定知見)/run-<model>.json(生結果)/report.md/transcripts/(全トランスクリプト)/claude-rubric-scores.json(採点記録) - 方法論の正典: /jworkbench/SPEC.md
- 設計の背景は ADR 0025、リーダーボード用データ
src/data/jworkbench.tsはbench/report.mjsが実測から再生成(いずれもリポジトリ管理)
次に読む
関連して読む
自分のPCで J-WorkBench を回す — ローカルLLM実務ベンチの再現手順
日本語実務ベンチ J-WorkBench を自分のPCで再現する手順。Ollamaでモデルをpullし、npm run bench で7カテゴリを採点、結果からサイト用データを生成するまでを通しで解説します。サブスクCLIのフラグは要検証。
ローカルLLMの損益分岐 — サブスク定額で考える3つの分岐点
ローカルLLMがクラウドより得になるのはいつか。token従量ではなく定額サブを前提に、GPU中古相場・電気代・サブスク月額の概算から、ローカルが効く3パターン(機密/上限超え/共有)を比較します(数値は概算)。
ローカルLLMが日本語実務でやらかす失敗集 — 実測7例ギャラリー
J-WorkBench の生トランスクリプトから、ローカルLLMが日本語の実務でやらかした失敗を7例そのまま並べた見本帳。JSON崩壊・根拠なし断言・敬語崩壊・表の二重計上・コード未修正、そしてローカルがクラウド3社に勝った逆転例まで、脚色なしの出力で示します。