本文へスキップ
Edition · Tokyo

自分のPCで J-WorkBench を回す — ローカルLLM実務ベンチの再現手順

日本語実務ベンチ J-WorkBench を自分のPCで再現する手順。Ollamaでモデルをpullし、npm run bench で7カテゴリを採点、結果からサイト用データを生成するまでを通しで解説します。サブスクCLIのフラグは要検証。

codeagent.jp編集部 情報確認 約2分
Tags
情報確認
更新性
定期更新
読了目安
約2分
更新管理

仕様・料金・提供範囲が変わりやすいテーマは、公開日・更新日・情報確認日を分けて管理します。 導入前には必ず記事末尾の一次情報と公式ドキュメントで最新状況を確認してください。

J-WorkBench は「自分の手元PCで日本語の実務がどこまでクラウドの代わりになるか」を測る再現可能なベンチだ。公開している数値を鵜呑みにせず、自分の機材で回して確かめられるのが要点。本稿は 2026-06-06 の実測(RTX 3090 24GB / Ollama 0.19 / 温度0・seed7)を再現する最短手順をまとめる。

1. ローカルモデルを pull する

候補は bench/config.mjsLOCAL_CANDIDATES にある。今回の実測で使ったのは次の4モデル(RTX 3090 24GB に載る帯域)。

Terminal window
ollama pull qwen2.5:7b
ollama pull qwen2.5:14b
ollama pull qwen2.5-coder:14b
ollama pull gpt-oss:20b

run.mjsollama list の実在モデルを優先する。配布状況でタグが変わるため、ollama list で実際に入っている名前を使うこと。

2. まず計画だけ見る(dry run)

何を何回回すかを確認してから本番を回すと事故が減る。

Terminal window
npm run bench -- --dry

3. ベンチを回す

judge は --judge で選べる。ollama:<model> ならローカル採点で cap(サブスク利用枠)を消費しないclaude などサブスクCLIを指定すると採点品質は上がるが cap を消費する。今回はローカルモデルの実行を ollama:qwen2.5:7b で採点し、クラウド3社は別に回した。

Terminal window
# ローカルモデルを回す(採点はローカルjudge=cap無し)
npm run bench -- --models qwen2.5:7b,qwen2.5:14b,qwen2.5-coder:14b,gpt-oss:20b --judge ollama:qwen2.5:7b
# クラウドのサブスクCLIを回す(claude / codex / gemini)
npm run bench -- --models claude,codex,gemini

実行すると results/<date>/ 配下に生結果(run-<model>.json)、生トランスクリプト、人間用サマリ(report.md)が出る。再現性のため温度0・固定シード(seed7)で回る(RUN_PARAMS)。

4. 採点だけやり直す(rescore)

judge を差し替えたいときは、モデルを再実行せず保存済みトランスクリプトから採点だけ当て直せる。再実行が無いので追加 cap は発生しない。今回の確定値はローカル採点のあと、品質軸を Claude judge で再採点して固めた(168ペア)。

Terminal window
npm run bench:rescore -- --in results/2026-06-06 --judge claude

--judgeollama:<model>(ローカル=cap無し)か claude(高品質だが cap 消費)を選ぶ。既定はローカルの ollama:qwen2.5:14b。agent課題(script採点)は sandbox 状態が消えているため再採点されず既存スコアを維持する。

5. 結果からサイト用データを生成する

Terminal window
npm run bench:report -- --in results/2026-06-06

これで src/data/jworkbench.ts が実測値で再生成され、リーダーボードの「実測前サンプル」バッジが外れる(bench:rescore でも同じデータが書き出される)。

6. 公開前チェック

実測値を公開する前に bench/SPEC.md §9 のチェックリストを通す。量子化・温度・シード・GPU・ドライバの記録、judge の公開、生トランスクリプトの添付、実測前はサンプル明示、を確認する。

関連ファイル

  • bench/README.md — 全体の使い方
  • bench/SPEC.md — 方法論の正典
  • bench/config.mjs — 唯一の設定面(候補モデル・コスト・5軸・称号)
  • bench/results/<date>/ — 自分で回したときの生結果・全トランスクリプト・確定知見(FINDINGS.md)。2026-06-06 の実測は /jworkbench/2026-06-06/ で全件公開している
  • docs/adr/0025-jworkbench-local-vs-cloud-benchmark.md — 判断の背景

次に読む

About the author
codeagent.jp編集部

Claude Code / Codex / MCP を個人開発サイト運用と公開MCPサーバー開発で試し、一次情報・検証ログ・失敗例をもとに整理します。

関連して読む