自分のPCで J-WorkBench を回す — ローカルLLM実務ベンチの再現手順

J-WorkBench は「自分の手元PCで日本語の実務がどこまでクラウドの代わりになるか」を測る再現可能なベンチだ。公開している数値を鵜呑みにせず、自分の機材で回して確かめられるのが要点。本稿は 2026-06-06 の実測（RTX 3090 24GB / Ollama 0.19 / 温度0・seed7）を再現する最短手順をまとめる。

1. ローカルモデルを pull する

候補は bench/config.mjs の LOCAL_CANDIDATES にある。今回の実測で使ったのは次の4モデル（RTX 3090 24GB に載る帯域）。

ollama pull qwen2.5:7b
ollama pull qwen2.5:14b
ollama pull qwen2.5-coder:14b
ollama pull gpt-oss:20b

run.mjs は ollama list の実在モデルを優先する。配布状況でタグが変わるため、ollama list で実際に入っている名前を使うこと。

2. まず計画だけ見る（dry run）

何を何回回すかを確認してから本番を回すと事故が減る。

npm run bench -- --dry

3. ベンチを回す

judge は --judge で選べる。ollama:<model> ならローカル採点で cap（サブスク利用枠）を消費しない。claude などサブスクCLIを指定すると採点品質は上がるが cap を消費する。今回はローカルモデルの実行を ollama:qwen2.5:7b で採点し、クラウド3社は別に回した。

# ローカルモデルを回す（採点はローカルjudge＝cap無し）
npm run bench -- --models qwen2.5:7b,qwen2.5:14b,qwen2.5-coder:14b,gpt-oss:20b --judge ollama:qwen2.5:7b

# クラウドのサブスクCLIを回す（claude / codex / gemini）
npm run bench -- --models claude,codex,gemini

実行すると results/<date>/ 配下に生結果（run-<model>.json）、生トランスクリプト、人間用サマリ（report.md）が出る。再現性のため温度0・固定シード（seed7）で回る（RUN_PARAMS）。

4. 採点だけやり直す（rescore）

judge を差し替えたいときは、モデルを再実行せず保存済みトランスクリプトから採点だけ当て直せる。再実行が無いので追加 cap は発生しない。今回の確定値はローカル採点のあと、品質軸を Claude judge で再採点して固めた（168ペア）。

npm run bench:rescore -- --in results/2026-06-06 --judge claude

--judge は ollama:<model>（ローカル＝cap無し）か claude（高品質だが cap 消費）を選ぶ。既定はローカルの ollama:qwen2.5:14b。agent課題（script採点）は sandbox 状態が消えているため再採点されず既存スコアを維持する。

5. 結果からサイト用データを生成する

npm run bench:report -- --in results/2026-06-06

これで src/data/jworkbench.ts が実測値で再生成され、リーダーボードの「実測前サンプル」バッジが外れる（bench:rescore でも同じデータが書き出される）。

6. 公開前チェック

実測値を公開する前に bench/SPEC.md §9 のチェックリストを通す。量子化・温度・シード・GPU・ドライバの記録、judge の公開、生トランスクリプトの添付、実測前はサンプル明示、を確認する。

自分のPCで J-WorkBench を回す — ローカルLLM実務ベンチの再現手順

1. ローカルモデルを pull する

2. まず計画だけ見る（dry run）

3. ベンチを回す

4. 採点だけやり直す（rescore）

5. 結果からサイト用データを生成する

6. 公開前チェック

関連ファイル

次に読む

関連して読む

ローカルLLMはクラウドの何割を肩代わりできるか — J-WorkBench クラウド代替率

ローカルLLMの損益分岐 — サブスク定額で考える3つの分岐点

ローカルLLMが日本語実務でやらかす失敗集 — 実測7例ギャラリー