ローカルLLM GPU選び 2026年4月版: RTX・MoE・量子化
RTX 50/40/30シリーズとApple Siliconを前提に、VRAM階層、MoE、量子化、日本語モデル、Ollama運用の判断軸を整理します。
- local-llm
- rtx
- gpu
- quantization
- moe
- ollama
- tensorrt-llm
- japanese-llm
- apple-silicon
- 情報確認
- 参考リンク
- 5件
- 更新性
- 定期更新
- 読了目安
- 約19分
仕様・料金・提供範囲が変わりやすいテーマは、公開日・更新日・情報確認日を分けて管理します。 導入前には必ず記事末尾の一次情報と公式ドキュメントで最新状況を確認してください。
ローカルLLMを取り巻く環境は、2026年春に再び臨界点を迎えた。Mixture-of-Experts(MoE)の標準化、Blackwell世代でネイティブ化したFP8/NVFP4、TensorRT-LLM v1.0、Ollama v0.5の成熟、そしてRakuten AI 3.0・LLM-jp-4・Qwen3 Swallowといった国産日本語モデルの躍進が同時に到来し、「クラウドの大型クローズドモデルでないと無理」と言われた領域の多くが、ご家庭のRTX搭載デスクトップで現実に動くようになっている。
本記事では、2026年4月29日時点のハードウェア市場・ソフトウェアエコシステム・モデル選択肢を一気通貫で整理し、「自分のGPUで何が動くのか」を即座に判断できるリファレンスとして再構成する。
1. 2026年春のローカルLLM パラダイムシフト
2025年までの「パラメータをひたすら増やす」というトレンドは終わった。MoEアーキテクチャの洗練、新世代量子化フォーマット(FP8、NVFP4)のネイティブ対応、推論エンジンの劇的最適化が同時に進み、進化の主軸は完全に「アーキテクチャの効率性」に移っている。
最大の変化はMoE(Mixture of Experts)の標準化だ。従来のDenseモデルでは総パラメータ数と推論時の計算負荷が正比例していたが、最新MoEは総パラメータに対してアクティブを極端に絞る。これによりメモリ帯域への計算負荷を抑えつつ、巨大な表現力と論理推論能力を引き出せる。
ただし推論時には非アクティブなエキスパートを含むすべての重みをVRAM/RAM上に保持しておく必要があるため、GPU選定の支配要因は演算性能ではなく「VRAM容量」となった。
— 2026年ローカルLLMの選定原則パラメータを買うのではなく、VRAMを買う。Tensor性能は二番手で良い。
2. コンシューマーGPU市場の現実:RTX 50シリーズと「AI税」
2.1 RTX 50シリーズの技術仕様
NVIDIAが2025年1月にリリースしたGeForce RTX 50シリーズ(Blackwell)は、ローカルAIにとって理想的なスペックを備える。フラッグシップRTX 5090は922億トランジスタのGB202-300ダイ、32GB GDDR7、512-bitバス、メモリ帯域1,792 GB/sという前例のない水準。第5世代TensorコアによるFP8/NVFP4ネイティブサポートで、同容量VRAMでも従来世代より遥かに大きなモデルを高速に展開できる。
| GPUモデル | 発売日 | コアダイ | VRAM | バス幅 | リリース時MSRP |
|---|---|---|---|---|---|
| RTX 5090 | 2025-01-30 | GB202-300 | 32GB GDDR7 | 512-bit | $1,999 |
| RTX 5080 | 2025-01-30 | GB203-400 | 16GB GDDR7 | 256-bit | $999 |
| RTX 5070 Ti | 2025-02 | GB203-250 | 16GB GDDR7 | 256-bit | $749 |
| RTX 5070 | 2025-02 | GB205-200 | 12GB GDDR7 | 192-bit | $549 |
| RTX 5060 Ti | 2025-04 | GB206-300 | 16GB / 8GB GDDR7 | 128-bit | $429 (16GB) |
| RTX 5060 | 2025-05 | GB206-200 | 8GB GDDR7 | 128-bit | 非公開 |
ラップトップ向けGPUも2025年3月から順次投入。最上位のRTX 5090 Laptopは10,496 CUDAコア+16GB GDDR7、Blackwell Max-Q技術(Advanced Power Gating、低レイテンシスリープ等)でSLM稼働時のバッテリー寿命を最大40%向上させている。
2.2 「AI税」と国内市場の供給制限
スペックは申し分ないが入手は極めて困難だ。RTX 5090のMSRPは$1,999(国内約30万円)だったが、2026年4月現在、GDDR7の世界的供給不足とAIサーバーマニュファクチャラーによる買い占めで、実売は$5,000(約75万円)付近まで高騰している。いわゆる「AI税」だ。
国内でも影響は顕著で、名古屋大須のGoodwillなどではRTX 5090/5080の販売は厳格な抽選制に移行。さらに大阪などの主要家電量販店では、海外旅行者の免税購入や転売を防ぐため**「国内居住者限定」販売制限(免税停止)**がかけられている。ただし高騰した国際相場の前では免税分の差は小さく、転売抑止としては象徴的な効果に留まり、一般コンシューマーが定価入手するのは絶望的な状況が続く。
2.3 VRAM階層別ハードウェア定義
ローカルLLM環境を設計する上で、VRAM容量は絶対制約だ。INT4/FP8量子化を用いてGPUメモリ内に完全収容(CPUオフロードなし)できる目安を以下にまとめる。
最も費用対効果が高いと再評価されているのが24GB帯(RTX 4090/3090)。一方Steam統計で最も普及しているのは8〜12GB帯で、ここでいかに効率を出すかが多くのユーザーの実務課題となる。
3. 推論エンジンとソフトウェアエコシステム
ハードウェア制約を埋めるソフトウェア層は、量子化フォーマット(GGUF/EXL2/Native FP8/INT4)→ 推論エンジン(TensorRT-LLM/llama.cpp/vLLM)→ アプリ層(Ollama v0.5/LM Studio/Claude Code/RAGツール)という多段構造で成熟した。
3.1 TensorRT-LLM v1.0 × Blackwell
NVIDIAはTensorRT-LLM v1.0を提供し、PyTorchネイティブなモデルオーサリングと安定したLLM APIを開発者に開放した。Paged KV Cache、In-Flight Batching、Speculative Decoding(EAGLE-3、マルチトークン予測)など最新最適化を内包する。
特筆すべきはRTX 50シリーズのFP8/NVFP4ネイティブ性能。FP16をFP8に量子化することで、
さらにNVIDIAはDynamoオーケストレーションフレームワークでDisaggregated Serving(プレフィルとデコードの分離)やKV-Aware Routingを提供し、単一ノード〜マルチGPUのリソース利用効率を最大化している。
3.2 Ollama v0.5:デファクトスタンダードの確立
コマンド一発でモデルを配備できるOllamaは、2026年のローカルLLMにおけるデファクトスタンダードとして完全に定着した。v0.5はllama.cppベースの強固な基盤に加え、Anthropic Claude CodeとOpenAI Codexとのシームレス統合を達成。新設のollama launchで、ローカル稼働中のオープンウェイトモデルをバックエンドにコーディングエージェントを起動できる。
3.3 NVIDIA RTX AI Toolkit
開発者向けにはNVIDIA RTX AI ToolkitがAI WorkbenchやLlamaFactory GUI経由でローカルRTX上のPEFT(LoRA/QLoRA)を可能にする。チューニング済みモデルはTensorRT-LLM/ONNX-Runtime形式へエクスポートされ、NVIDIA AI Inference Manager (AIM) SDKでクラウド⇄ローカル間のデプロイメントを統一的にオーケストレーションできる。社内データや個人ドキュメントを用いたセキュアなローカルRAG構築は、過去最も容易になった。
4. 量子化技術:VRAM制約を打破するアプローチ
FP16展開ではパラメータあたり約2バイト消費するため、70Bモデルは純粋な重みだけで約140GB、いかなる単一コンシューマーGPUにも収まらない。これをハードウェアに合わせるのが量子化だ。
4.1 主要フォーマット比較
4.2 低ビット量子化の実用性と限界
INT4は1パラメータ0.5バイトに圧縮し、FP16比でVRAMを最大75%削減する。70Bモデルを約38GBまで圧縮でき、RTX 5090やデュアル4090で実行可能になる。ただし論理推論や複雑なコーディングでは数%のパープレキシティ上昇が避けられない。
このジレンマを解くのがBlackwell+TensorRT-LLMでネイティブサポートされるFP8(パラメータあたり1バイト)およびNVFP4だ。INT4よりVRAMは食うが、浮動小数点表現により推論精度をFP16とほぼ同等に保ちつつスループットを劇的に押し上げる。
5. 2026年フロンティア・オープンウェイトモデル
2026年4月は「オープンウェイトの豊作の月」となった。SOTA級モデルが続々と公開され、その多くがローカル運用を念頭に設計されている。
5.1 Gemma 4 と Qwen3.6:24〜32GB帯のチャンピオン
24〜32GB環境で最も注目されているのがGoogle Gemma 4とAlibaba Qwen3.6シリーズだ。
- Gemma 4 26B-A4B(2026年4月): 総252億/アクティブ38億のMoE。ハイブリッドアテンション採用、コンテキスト256K、GPT-4クラスの論理推論。Q4_K_MでRTX 4090/3090に余裕で収まり、Ollamaデプロイが最も容易
- Qwen3.6-35B-A3B(2026年4月): 総350億/アクティブ35億。SWE-bench Verifiedで73.4を記録するコーディング特化。デフォルトで
<think>タグによる思考モードが有効化され、ローカルで動かせる最も知的な汎用モデルの一角
5.2 超巨大モデルの限界突破
Qwen3-Coder-480B-A35Bは4,800億パラメータの究極のコーディング特化MoE。家庭で動かすには量子化+最低150GB以上のユニファイドメモリ(VRAM+RAM)が必要。256GB DDR5 + RTX 4090×2でllama.cppのMoEオフロードを駆使し、専門家レイヤーをRAMに逃がしてようやく数 t/s で動く水準。
5.3 Metaの最新動向:Llama 4 と「Muse Spark」
Metaは2025年4月にMoEアーキテクチャのLlama 4 Scout(109B総/17Bアクティブ)とLlama 4 Maverick(400B総/17Bアクティブ)をリリース。さらに2026年4月8日に新ファミリー**「Muse Spark」**を発表した。
Muse SparkはIntelligence Indexで52を記録し、Claude Opus 4.6やGPT-5.4に匹敵する性能。262Kコンテキスト、「Contemplating mode(熟考モード)」による並列推論エージェント機能を備える。
6. 日本語特化型ローカルLLMの頂上決戦
日本国内のビジネス/プライベート用途では、ローカルLLMに「日本語のニュアンスの深い理解」と「日本特有の文化・文脈に沿った回答」が求められる。2026年春、グローバルなフロンティアモデルと真っ向から勝負できる国産モデルが相次いでリリースされた。
6.1 Rakuten AI 3.0:歴史的ブレイクスルー
2026年3月17日にApache 2.0ライセンスで公開されたRakuten AI 3.0は、日本のローカルLLM界隈に歴史的パラダイムシフトをもたらした。経済産業省/NEDOのGENIACプロジェクトの支援で開発され、総700B/アクティブ37BのMoEという国内最大規模アーキテクチャを採用する。
楽天社内の実証実験では、自社エコシステムへの適用で外部サードパーティAI比 最大90%のコスト削減を達成したと報告されている。ただしローカル実行にはデュアルRTX 4090/5090クラスと高度な量子化、システムRAMへの大規模オフロードが必須。
6.2 LLM-jp-4:高効率な日本語処理の現実解
Rakuten AI 3.0級のハードウェアを持たない一般ユーザーには、国立情報学研究所(NII)LLMCが2026年4月3日にリリースしたLLM-jp-4ファミリーが極めて現実的かつ強力な選択肢になる。約12兆トークンの高品質コーパスで事前学習されたオープンソースシリーズだ。
- LLM-jp-4 32B-A3B(MoE): Japanese MT-Bench 7.82、GPT-4o(7.29)を明確に上回る
- LLM-jp-4 8B(Dense): 7.54を記録。12〜16GB VRAM環境(RTX 3060 12GB/4070)でも軽快に動作
6.3 Qwen3 Swallow:STEMと日本語の融合
2026年2月、東京科学大学(旧東工大)岡崎研究室・横田研究室と産業技術総合研究所(AIST)が共同開発したQwen3 Swallowも特筆すべき選択肢だ。Alibabaの強力なQwen3をベースに、継続事前学習(CPT)+教師ありファインチューニング(SFT)+**検証可能報酬による強化学習(RLVR)**を組み合わせて構築された。
8B/30B-A3B/32Bの3サイズが提供され、30B-A3Bは24GB VRAM(RTX 4090/3090)にジャストフィットする最高クラスの日本語特化・推論モデル。
7. コンテキスト長とRAGの最適解
クラウドではClaude Opus 4.7/Gemini 3.1 Proが100万トークン、GPT-5.4が110万トークンを処理。ローカル向けオープンウェイトもこれに追従し、Gemma 4 26B-A4Bや Qwen3.6-35B-A3B は標準で256K〜262Kのコンテキスト長をサポートする。
ただしローカルで長文脈を処理する際、VRAMは「モデル重み」だけでなく過去トークン状態を保持するKVキャッシュで急速に枯渇する。これに対しTensorRT-LLM/vLLMはPaged KV Cacheを実装し、必要に応じてKVキャッシュ自体をINT8量子化することで長文脈入力時のVRAM溢れを回避している。
8. 用途別・GPU環境別 リファレンスガイド
ここからが本記事の核だ。「自分のGPUで具体的に何が快適に動き、何に使えるのか」を即座に判断できるよう、VRAM階層別に整理する。まずはインタラクティブな選定ツールで大枠を掴んでから、続く 8.1〜8.6 の階層別解説で背景と注意点を確認する流れを推奨する。
8.0 インタラクティブ・レコメンダー
ローカルLLM レコメンダー(2026-04-29 スナップショット)
自分のGPUと用途を入れると、本記事の調査範囲+家庭ローカルLLMコミュニティで2026年4月時点に定着しているモデルから、上位候補を絞り込みます。 VRAM見積はモデル重みのみ。実運用ではKVキャッシュで +1〜4GB 程度の余裕を見てください。
このツールは2026年4月29日時点のスナップショットで、適時のアップデートは行わない。新モデルが出続けるため、半年〜1年で実勢から乖離する点に注意してほしい。スコアリングは「VRAMフィット × 用途タグ × 量子化/FP8の整合性」で算出している。
8.1 【VRAM 8GB帯】エントリー/旧世代層
該当GPU: RTX 4060 8GB/RTX 5060 8GB/RTX 3060 Ti/RTX 2070 など
ローカルLLMの「最低限のスタートライン」。モデルは必ず4〜5bit量子化して使う。
- 最適用途: シンプルなチャットボット、コードのTab補完、学習用プロンプト実験
- 推奨①「DeepSeek R1 Distill 8B」: 推論能力に特化した軽量モデル。GGUF Q4_K_MでOSのVRAM消費を差し引いても安定稼働
- 推奨②「LLM-jp-4 8B (Q4_K_M)」: 日本語日常チャット・要約のベスト。Denseでメモリ消費が予測しやすく、8GB環境でもサクサク
- 限界: 多文書RAGや長大コンテキストは不向き。長文を入れるとすぐにシステムRAMオフロードが発生し速度が急落
8.2 【VRAM 12GB帯】売れ筋・コスパ最強層
該当GPU: RTX 3060 12GB/RTX 4070 12GB/RTX 5070 12GB
Steam統計でも最も普及するメインストリーム帯。RTX 3060 12GBは演算性能ではRTX 5060(8GB)に約40%劣るが、AI用途では「12GB VRAM」が絶大な威力を発揮し、2026年でも息の長い名機として現役だ。
- 最適用途: 高精度な日本語生成、1万トークン規模の中規模RAG、ローカル翻訳
- 推奨①「Qwen3-14B」: 148億パラメータ、Q4で12GBに収まる。100以上の言語対応で日本語処理と推論のバランス良
- 推奨②「LLM-jp-4 8B (Q6_K)」: 8B級なら圧縮率の低いQ6_K(ほぼ無劣化)でロード可能。本来の日本語能力を損なわず20〜30 t/s で稼働
8.3 【VRAM 16GB帯】アッパーミドル層
該当GPU: RTX 5080 16GB/RTX 5070 Ti/RTX 4080/RTX 4070 Ti SUPER
TensorRT-LLM等の最適化恩恵が強く出始める階層。RAMオフロードを一切せず中〜大規模モデルをGPU完結で高速回転できる。
- 最適用途: 高速エージェントワークフロー、リアルタイム音声対話バックエンド、複数ドキュメント横断RAG
- 推奨①「NVIDIA Nemotron Cascade 2」: ハードウェア最適化の極み。GPT-4o miniに匹敵する品質を毎秒54トークンで生成
- 推奨②「Qwen3.5-9B」: 最大262Kの長コンテキストを活用。モデルが小さく、余ったVRAMをKVキャッシュに割り当て可
8.4 【VRAM 24GB帯】ハイエンド・ローカルLLMの王道
該当GPU: RTX 4090/RTX 3090
現在最も「美味しい」スイートスポット。オープンウェイト界を席巻するMoE群を完全オンメモリで快適に回せる。
- 最適用途: 商用クラウドLLMの完全代替、高度なコーディングエージェント(Claude Code等との連携)、複雑な論理推論
- 推奨①「Gemma 4 26B-A4B」または「Qwen3.6-35B-A3B」: 30B前後の最新MoEをQ4_K_MでOllama経由デプロイ — 2026年現在の最強汎用セットアップ。RTX 4090なら一切オフロードなしで思考モード含むフロンティア級知能を実用速度で得られる
- 推奨②「Qwen3 Swallow 30B-A3B」: STEM能力と日本語能力を最高レベルで両立。日本語の専門仕様書作成や日本特有の文脈タスクで圧倒的
8.5 【VRAM 32GB帯】エンスージアスト層
該当GPU: RTX 5090 32GB
実売は異常高騰しているが、現行コンシューマー単一GPU最高峰の32GB GDDR7環境。量子化劣化を気にせず、より純度の高いモデルを扱えるのがこの階層の特権。
- 最適用途: 学術研究、エンタープライズ級エージェントAI、ローカル・マルチエージェントオーケストレーション
- 推奨①「Llama 4 Scout (109B / 17B active)」: 100B超のMoEもQ4で約10GB強のアクティブ重みになり32GBに収まる
- 運用アドバイス(FP8ネイティブ): Blackwellの真価を引き出すにはTensorRT-LLM+FP8を使うべき。INT4のような知能劣化なくFP16同等精度+スループット20〜35%向上
8.6 【限界突破:マルチGPU/64GB+帯】
該当GPU: RTX 4090/3090 デュアル構成以上、または M5 Max/Ultra Mac Studio (128GB+)
単一GPUを超えてデータセンター級モデルを自宅で動かす層。
- 最適用途: 究極の自律型ソフトウェアエンジニア環境、最高峰の日本語ローカルAIインフラ
- 推奨①「Rakuten AI 3.0 (700B)」: 国内最強日本語モデル。MoEなのでアクティブは37Bだが、巨大ユニファイドメモリまたは複数GPU分散ロードが必須
- 推奨②「Qwen3-Coder-480B-A35B」: 究極のプログラミング特化。llama.cppのMoEオフロードで最低150GB以上のメモリを確保し、低ビット量子化で稼働可能
9. Apple Silicon(M5 MacBook)という強力なオルタナティブ
NVIDIA RTX以外で最も有力なローカルLLMハードウェアが、Apple Silicon(Mシリーズ)搭載MacBook Air/Proだ。2026年3月発表のM5搭載新型MacBookは、ローカルLLM環境として特筆すべき性能を誇る。
9.1 ユニファイドメモリの巨大アドバンテージ
Windows PCではCPU用RAMとGPU用VRAMが物理分離されており、VRAM超過モデルはPCIe経由で深刻なボトルネックを生む。一方Apple SiliconはCPUとGPUが同一メモリプールを共有するユニファイドメモリで、搭載RAM容量=ほぼそのままVRAMとなる。
128GBユニファイドメモリのMacBook Pro(M5 Max)なら、RTX 5090(32GB)の約4倍のVRAM領域を1台で確保でき、70Bクラスを単機ロードできる。
9.2 機種別の実用性と選定目安
OllamaやLM Studioの裏側ではAppleのMLXが推論を最適化している。
- MacBook Air (M5 / 16〜24GBメモリ): 24GB搭載でOS/バックグラウンド分を引いて約16GBがオンメモリ展開可能。Qwen3.5-9BやLLM-jp-4 8Bを4bit量子化(GGUF)すれば、ファンレスの薄型ノートで実用的なローカルAIが動く
- MacBook Pro (M5 Pro / Max / 36〜128GB+): 広帯域メモリでトークン生成速度(t/s)が有利。Gemma 4 26B-A4BやQwen3.6-35B-A3Bを完全GPU駆動・オフロードなしで高速に回せ、RTX 4090/3090搭載デスクトップ相当のエージェント環境がノートで持ち運べる
10. 結論と将来展望
2026年4月時点のローカルLLM選定戦略は、「アーキテクチャの効率性とハードウェア最適化」へ完全に重心が移った。
ハードウェア市場の異常な価格高騰を踏まえれば、必ずしもRTX 5090に投資する必要はない。限られた予算でもVRAM容量の多いRTX 3060 12GBを活用すれば、LLM-jp-4 8Bなど最新モデルを十分に扱える。広大なVRAMが要るならユニファイドメモリの恩恵を受けるM5 MacBook Proが、高価なマルチGPUに対する極めてスマートな代替になる。
日本語環境では、Rakuten AI 3.0/LLM-jp-4/Qwen3 Swallowの躍進により、英語圏フロンティアモデルに頼らずローカルで完結する高度なナレッジ処理が可能になった。Ollamaによる簡易デプロイから、TensorRT-LLM/Apple MLXによるパフォーマンスチューニングまで、ユーザーの技術レベルとハードウェアに応じたソフトウェアスタックが成熟したことも、この傾向を後押ししている。
自身のVRAM容量・ユニファイドメモリの限界を正確に把握し、MoE × 量子化技術を組み合わせる — これが2026年のAIポテンシャルをデスクトップ/ラップトップで最大限解放する原則である。
▶ 自分のGPUで何が動くか即座に試す: ローカルLLM レコメンダー(2026-04-29 スナップショット) — 本記事の調査をそのままインタラクティブ化したツール。GPU と用途タグを選ぶだけで上位5モデルを提示する。
一次情報・参考リンク
- NVIDIA GeForce RTX 5090 https://www.nvidia.com/en-us/geforce/graphics-cards/50-series/rtx-5090/
- NVIDIA TensorRT-LLM https://github.com/NVIDIA/TensorRT-LLM
- Ollama Blog https://ollama.com/blog
- 楽天、日本語に最適化した大規模言語モデル『Rakuten AI 3.0』を公開 https://global.rakuten.com/corp/news/press/2026/0317_01.html 公開
- LLM-jp / 国立情報学研究所 https://llmc.nii.ac.jp/
関連して読む
ローカルLLMの損益分岐 — サブスク定額で考える3つの分岐点
ローカルLLMがクラウドより得になるのはいつか。token従量ではなく定額サブを前提に、GPU中古相場・電気代・サブスク月額の概算から、ローカルが効く3パターン(機密/上限超え/共有)を比較します(数値は概算)。
ローカルLLMが日本語実務でやらかす失敗集 — 実測7例ギャラリー
J-WorkBench の生トランスクリプトから、ローカルLLMが日本語の実務でやらかした失敗を7例そのまま並べた見本帳。JSON崩壊・根拠なし断言・敬語崩壊・表の二重計上・コード未修正、そしてローカルがクラウド3社に勝った逆転例まで、脚色なしの出力で示します。
ローカルLLMはクラウドの何割を肩代わりできるか — J-WorkBench クラウド代替率
日本語の実務7カテゴリで、手元PC(RTX 3090)のローカルLLMがサブスク版クラウドの何割を代替できるかを5軸で測ったベンチ J-WorkBench の実測結果。代替率66〜87%の正直な内訳、互角と苦戦の境界、向く/向かないケースを整理します。