2026年7月27日(月)

Edition · Tokyo

codeagent AI Agent Desk · Japan Search ↗ 検索 ↗

← すべてのタグ

benchmark

3 件の記事

ローカルLLMが日本語実務でやらかす失敗集 — 実測7例ギャラリー

J-WorkBench の生トランスクリプトから、ローカルLLMが日本語の実務でやらかした失敗を7例そのまま並べた見本帳。JSON崩壊・根拠なし断言・敬語崩壊・表の二重計上・コード未修正、そしてローカルがクラウド3社に勝った逆転例まで、脚色なしの出力で示します。

2026年6月5日 local-llm / ollama / troubleshooting / rag / benchmark
自分のPCで J-WorkBench を回す — ローカルLLM実務ベンチの再現手順

日本語実務ベンチ J-WorkBench を自分のPCで再現する手順。Ollamaでモデルをpullし、npm run bench で7カテゴリを採点、結果からサイト用データを生成するまでを通しで解説します。サブスクCLIのフラグは要検証。

2026年6月5日 local-llm / ollama / benchmark / claude-code / codex-cli
ローカルLLMはクラウドの何割を肩代わりできるか — J-WorkBench クラウド代替率

日本語の実務7カテゴリで、手元PC（RTX 3090）のローカルLLMがサブスク版クラウドの何割を代替できるかを5軸で測ったベンチ J-WorkBench の実測結果。代替率66〜87%の正直な内訳、互角と苦戦の境界、向く/向かないケースを整理します。

2026年6月5日 local-llm / ollama / claude-code / codex-cli / benchmark / rag