Qwen 3.5 Smallとは？小型AIモデルの実力と注意点

結論から言うと、イーロン・マスク氏がほめた、という話は事実です。ただし、それは詳細な技術レビューではなく、Qwen公式X投稿への短い返信で、文言は “Impressive intelligence density”、直訳すれば「印象的な知能密度」でした。対象は、Alibaba/Qwenチームが2026年3月2日に発表した Qwen3.5-0.8B/2B/4B/9B の小型モデル群、いわゆる Qwen 3.5 Small Model Series です。

02-16

Qwen3.5 発表 (agentic AI era)

Alibabaが前世代比60%安、重いワークロードで8倍の改善、mobile/desktopでのvisual agentic capabilitiesを謳う。
02-24

中〜大型モデル群の公開

122B-A10B / 35B-A3B / 27B がHugging Face・ModelScopeで公開。
03-02

Qwen 3.5 Small 公開

0.8B / 2B / 4B / 9B の4サイズをApache 2.0でリリース。マスク氏が『Impressive intelligence density』と返信。
03-03

Lin Junyang氏退任報道

Qwen技術リードの退任をTechCrunchが報道。Qwen 3.5 Small公開の翌日。
03-04

Reutersも退任を伝える

Qwen AI部門トップの退任は2026年で3人目のシニア退任と報じられる。

Qwen3.5シリーズ関連の2026年2〜3月の主な出来事

何が出たのか

今回話題になったのは、巨大モデルではなく、0.8B〜9Bパラメータ級の小型・中型マルチモーダルモデルです。Qwen公式は、これらを「More intelligence, less compute」と位置づけ、0.8B/2Bをエッジデバイス向け、4Bを軽量エージェント向けのマルチモーダル基盤、9Bを大規模モデルとの性能差を詰めるコンパクトモデルとして紹介しました。公式GitHubにも、2026年3月2日に4モデルがHugging Face HubとModelScopeで利用可能になったと記録されています。

QwenはAlibaba Cloudが開発する大規模言語モデルファミリーで、Hugging Face上のQwen組織ページも「Alibaba Cloud built」のLLM/LMM/AGI関連プロジェクト群として説明しています。今回のQwen3.5 Smallは、名前こそ”小型”ですが、テキストだけでなく視覚入力を扱う Vision Encoder付きのCausal Language Model として公開されています。

なぜマスク氏の一言が刺さったのか

マスク氏の「intelligence density」は正式な学術指標ではありません。今回の文脈では、パラメータ数や推論コストに対して、どれだけ高い能力を出しているかという意味で受け取るのが自然です。特に9Bモデルは、公式ベンチマーク上、GPT-OSS-120Bなど桁違いに大きいモデルと同じ表に並べられ、一部項目では上回る値を示しています。

Qwen3.5-9Bの公式モデルカードによると、同モデルはMMLU-Pro 82.5、GPQA Diamond 81.7、IFEval 91.5、MultiChallenge 54.5、LongBench v2 55.2を記録しており、同じ表のGPT-OSS-120Bを一部で上回っています。一方で、HMMTやLiveCodeBenchなどではGPT-OSS-120Bが優位な項目もあり、「全方位で120B超え」とまでは言えません。

この点が重要です。マスク氏が反応したのは、単に「小さいのに賢い」という印象だけでなく、AI競争の焦点が 最大パラメータ数 から 性能/コスト比、ローカル実行、エージェント用途、マルチモーダル効率 に移っていることを象徴していたからだと見られます。

技術的な中身：小型化だけではない

Qwen3.5のモデルカードは、Qwen3.5の特徴として、マルチモーダル学習、効率的なハイブリッドアーキテクチャ、強化学習のスケール、201言語・方言への対応を挙げています。9Bモデルの具体仕様を見ると、32層、隠れ次元4096、Gated DeltaNetとGated Attentionを組み合わせた構成、Multi-Token Prediction、262,144トークンのネイティブコンテキスト長、さらに最大1,010,000トークンまで拡張可能とされています。

0.8Bモデルも同じくVision Encoder付きのCausal Language Modelで、24層、隠れ次元1024、262,144トークンのネイティブコンテキスト長を持ちます。ただしHugging Face上の説明では、0.8Bという規模を踏まえた想定用途は、プロトタイピング、タスク特化ファインチューニング、研究開発目的とされています。つまり、0.8Bは「スマホ級・エッジ級で面白い」モデルであって、汎用の高精度AIをそのまま置き換えるモデルではありません。

ベンチマークで見る9Bの強さ

公式の言語ベンチマークでは、Qwen3.5-9BはMMLU-Pro、MMLU-Redux、C-Eval、GPQA Diamond、IFEval、LongBench v2、多言語系指標などで非常に強い値を出しています。特にGPQA Diamond 81.7は、公式表に載っているGPT-OSS-120Bの80.1をわずかに上回り、MMLU-Proでも82.5対80.8で上回っています。一方、LiveCodeBench v6ではQwen3.5-9Bが65.6、GPT-OSS-120Bが82.7で、コーディングの一部評価では大型モデルの優位が残っています。

視覚言語タスクでも印象的です。公式表では、Qwen3.5-9BがMMMU 78.4、MMMU-Pro 70.1、MathVision 78.9、Mathvista(mini) 85.7、RealWorldQA 80.3、OCRBench 89.2、VideoMME字幕あり84.5を記録しています。表の比較対象にはGPT-5-Nano-2025-08-07、Gemini-2.5-Flash-Lite、Qwen3-VL-30B-A3Bなどが含まれており、Qwen3.5-9Bは多くの視覚推論・文書理解・動画理解タスクで強く見えます。ただし、これも公式モデルカード上の結果であり、独立評価とは分けて読むべきです。

0.8Bは「すごい」が、過大評価は禁物

最小のQwen3.5-0.8Bは、サイズを考えれば非常に興味深いモデルです。公式表では、非ThinkingモードのMMLU-Proが29.7、MMLU-Reduxが48.5、IFEvalが52.1。ThinkingモードではMMLU-Pro 42.3、MMLU-Redux 59.5、C-Eval 50.5まで上がります。ただしGPQAは11.9、Long Context系や高度推論では限界が見えます。

視覚タスクでも、0.8BはRealWorldQAでおよそ63点台、OCRBenchで70点台後半を示すなど、サブ1Bモデルとしては注目に値します。しかし、9Bや4Bとは明確な差があります。したがって、0.8Bは「常時ローカルで軽い分類・視覚確認・簡易アシスタントを動かす」用途に向き、難問推論や高信頼な業務判断には4B以上、できれば9B以上を検討するのが現実的です。

独立評価はどう見ているか

第三者ベンチマークサイトArtificial Analysisも、Qwen3.5 Smallを高く評価しています。同サイトは、Qwen3.5-9B Reasoningを「10B未満で最も知的」、Qwen3.5-4B Reasoningを「5B未満で最も知的」とし、4モデルすべてが262Kコンテキスト、Apache 2.0、ネイティブVision対応を備えると整理しています。

ローカル・エッジAIとしての意味

Qwen3.5 Smallの最大の価値は、クラウド前提の巨大モデルではなく、手元のPC、スマートフォン、企業内サーバー、エッジ環境で実用的なマルチモーダルAIを動かせる可能性にあります。公式モデルカードは、SGLang、vLLM、KTransformers、Hugging Face Transformersなどでのサービング例を示し、OpenAI互換APIとしてローカルサーバーを立てる方法も説明しています。

さらに、Qwen3.5モデルはThinkingモードがデフォルトで、<think>...</think>形式の思考内容を生成してから最終回答を出す設計になっています。これは推論性能を引き上げる一方、出力トークン数・レイテンシ・コストを増やす要因にもなります。実運用では、分類、RAGの軽い回答、UI操作、OCR補助などでは非Thinkingモード、数学・推論・コードレビューではThinkingモードといった使い分けが必要です。

直後の人事ニュースも話題を増幅した

モデル発表の直後、Qwenの技術リーダーだったLin Junyang氏が退任を表明し、ReutersはQwen AI部門のトップが2026年に入って3人目のシニア退任者になったと報じました。Reutersによれば、Lin氏の退任はQwenの更新製品リリースの2日後で、AlibabaはQwenについて2023年以降400以上のオープンソースモデルを公開し、累計10億回以上ダウンロードされたとも報じられています。

TechCrunchも、Lin氏の退任がQwen 3.5 open-weight small models発表の翌日だったこと、Qwenファミリーが中国の代表的なオープンウェイトAIの一つになっていること、そしてマスク氏が「impressive intelligence density」と反応したことを報じています。Alibabaはその後、基盤モデル開発を加速するため、CEOやCTOらが関与する新タスクフォースを設けるとReutersが伝えました。

「オープンソース」と呼んでいいのか

記事やSNSでは「open-source」と呼ばれることが多いですが、厳密には少なくともモデル利用の観点では open-weight と表現するのが安全です。Qwen公式GitHubは、open-weightモデルはApache 2.0ライセンスで公開されると説明しています。Apache 2.0は商用利用を含めて扱いやすいライセンスですが、学習データ、完全な訓練コード、評価手順の全詳細が完全公開されているという意味での”完全オープンソース”とは区別すべきです。

採用するならどれを選ぶべきか

0.8B：軽量分類、簡易チャット、視覚入力つきのプロトタイプ、端末常駐の小さなエージェント向け。
2B：速度と最低限の推論力のバランスを狙う用途に向く。
4B：軽量マルチモーダルエージェントとして最も実用的な中間点になりやすい。
9B：ローカルや小規模サーバーで品質を優先したい場合の本命。

ただし、長大コンテキストやThinkingモードを使うと、モデル本体のメモリだけでなくKVキャッシュ、画像・動画処理、出力トークン量がボトルネックになります。小型モデルだから常に安い、速い、軽い、という単純な話ではありません。Qwen3.5-9Bの262K〜最大1M級コンテキストは魅力ですが、実際の運用では必要なコンテキスト長を絞る設計が重要です。

最終評価

マスク氏がほめたのは本当です。しかし、それは「Qwen3.5 Smallは万能で、巨大モデルを完全に置き換えた」という意味ではありません。より正確には、小型モデルの性能密度が一段上がり、ローカルAI・エッジAI・軽量エージェントの現実味を強く示したという評価です。

Qwen3.5 Smallの意義は、9B級で高度な言語・視覚推論を狙えること、4B以下でもマルチモーダル用途に入れること、Apache 2.0のopen-weightとして開発者が試しやすいことにあります。一方で、公式ベンチマーク依存、Thinkingによるトークン消費、幻覚率、実機メモリ、チーム体制の変化といったリスクも残ります。

Qwen3.5 Smallは、2026年春時点の小型オープンウェイトAIモデル競争で最重要クラスのリリースです。マスク氏の「intelligence density」という一言は大げさな宣伝ではなく、かなり的を射た反応だと言えます。