自分のPCで J-WorkBench を回す — ローカルLLM実務ベンチの再現手順
日本語実務ベンチ J-WorkBench を自分のPCで再現する手順。Ollamaでモデルをpullし、npm run bench で7カテゴリを採点、結果からサイト用データを生成するまでを通しで解説します。サブスクCLIのフラグは要検証。
- local-llm
- ollama
- benchmark
- claude-code
- codex-cli
- 情報確認
- 更新性
- 定期更新
- 読了目安
- 約2分
仕様・料金・提供範囲が変わりやすいテーマは、公開日・更新日・情報確認日を分けて管理します。 導入前には必ず記事末尾の一次情報と公式ドキュメントで最新状況を確認してください。
J-WorkBench は「自分の手元PCで日本語の実務がどこまでクラウドの代わりになるか」を測る再現可能なベンチだ。公開している数値を鵜呑みにせず、自分の機材で回して確かめられるのが要点。本稿は 2026-06-06 の実測(RTX 3090 24GB / Ollama 0.19 / 温度0・seed7)を再現する最短手順をまとめる。
1. ローカルモデルを pull する
候補は bench/config.mjs の LOCAL_CANDIDATES にある。今回の実測で使ったのは次の4モデル(RTX 3090 24GB に載る帯域)。
ollama pull qwen2.5:7bollama pull qwen2.5:14bollama pull qwen2.5-coder:14bollama pull gpt-oss:20brun.mjs は ollama list の実在モデルを優先する。配布状況でタグが変わるため、ollama list で実際に入っている名前を使うこと。
2. まず計画だけ見る(dry run)
何を何回回すかを確認してから本番を回すと事故が減る。
npm run bench -- --dry3. ベンチを回す
judge は --judge で選べる。ollama:<model> ならローカル採点で cap(サブスク利用枠)を消費しない。claude などサブスクCLIを指定すると採点品質は上がるが cap を消費する。今回はローカルモデルの実行を ollama:qwen2.5:7b で採点し、クラウド3社は別に回した。
# ローカルモデルを回す(採点はローカルjudge=cap無し)npm run bench -- --models qwen2.5:7b,qwen2.5:14b,qwen2.5-coder:14b,gpt-oss:20b --judge ollama:qwen2.5:7b
# クラウドのサブスクCLIを回す(claude / codex / gemini)npm run bench -- --models claude,codex,gemini実行すると results/<date>/ 配下に生結果(run-<model>.json)、生トランスクリプト、人間用サマリ(report.md)が出る。再現性のため温度0・固定シード(seed7)で回る(RUN_PARAMS)。
4. 採点だけやり直す(rescore)
judge を差し替えたいときは、モデルを再実行せず保存済みトランスクリプトから採点だけ当て直せる。再実行が無いので追加 cap は発生しない。今回の確定値はローカル採点のあと、品質軸を Claude judge で再採点して固めた(168ペア)。
npm run bench:rescore -- --in results/2026-06-06 --judge claude--judge は ollama:<model>(ローカル=cap無し)か claude(高品質だが cap 消費)を選ぶ。既定はローカルの ollama:qwen2.5:14b。agent課題(script採点)は sandbox 状態が消えているため再採点されず既存スコアを維持する。
5. 結果からサイト用データを生成する
npm run bench:report -- --in results/2026-06-06これで src/data/jworkbench.ts が実測値で再生成され、リーダーボードの「実測前サンプル」バッジが外れる(bench:rescore でも同じデータが書き出される)。
6. 公開前チェック
実測値を公開する前に bench/SPEC.md §9 のチェックリストを通す。量子化・温度・シード・GPU・ドライバの記録、judge の公開、生トランスクリプトの添付、実測前はサンプル明示、を確認する。
関連ファイル
bench/README.md— 全体の使い方bench/SPEC.md— 方法論の正典bench/config.mjs— 唯一の設定面(候補モデル・コスト・5軸・称号)bench/results/<date>/— 自分で回したときの生結果・全トランスクリプト・確定知見(FINDINGS.md)。2026-06-06 の実測は /jworkbench/2026-06-06/ で全件公開しているdocs/adr/0025-jworkbench-local-vs-cloud-benchmark.md— 判断の背景
次に読む
関連して読む
ローカルLLMはクラウドの何割を肩代わりできるか — J-WorkBench クラウド代替率
日本語の実務7カテゴリで、手元PC(RTX 3090)のローカルLLMがサブスク版クラウドの何割を代替できるかを5軸で測ったベンチ J-WorkBench の実測結果。代替率66〜87%の正直な内訳、互角と苦戦の境界、向く/向かないケースを整理します。
ローカルLLMの損益分岐 — サブスク定額で考える3つの分岐点
ローカルLLMがクラウドより得になるのはいつか。token従量ではなく定額サブを前提に、GPU中古相場・電気代・サブスク月額の概算から、ローカルが効く3パターン(機密/上限超え/共有)を比較します(数値は概算)。
ローカルLLMが日本語実務でやらかす失敗集 — 実測7例ギャラリー
J-WorkBench の生トランスクリプトから、ローカルLLMが日本語の実務でやらかした失敗を7例そのまま並べた見本帳。JSON崩壊・根拠なし断言・敬語崩壊・表の二重計上・コード未修正、そしてローカルがクラウド3社に勝った逆転例まで、脚色なしの出力で示します。