benchmark
3 件の記事
-
ローカルLLMが日本語実務でやらかす失敗集 — 実測7例ギャラリー
J-WorkBench の生トランスクリプトから、ローカルLLMが日本語の実務でやらかした失敗を7例そのまま並べた見本帳。JSON崩壊・根拠なし断言・敬語崩壊・表の二重計上・コード未修正、そしてローカルがクラウド3社に勝った逆転例まで、脚色なしの出力で示します。
local-llm / ollama / troubleshooting / rag / benchmark -
ローカルLLMはクラウドの何割を肩代わりできるか — J-WorkBench クラウド代替率
日本語の実務7カテゴリで、手元PC(RTX 3090)のローカルLLMがサブスク版クラウドの何割を代替できるかを5軸で測ったベンチ J-WorkBench の実測結果。代替率66〜87%の正直な内訳、互角と苦戦の境界、向く/向かないケースを整理します。
local-llm / ollama / claude-code / codex-cli / benchmark / rag -
自分のPCで J-WorkBench を回す — ローカルLLM実務ベンチの再現手順
日本語実務ベンチ J-WorkBench を自分のPCで再現する手順。Ollamaでモデルをpullし、npm run bench で7カテゴリを採点、結果からサイト用データを生成するまでを通しで解説します。サブスクCLIのフラグは要検証。
local-llm / ollama / benchmark / claude-code / codex-cli