OBSERVATION · 其の5048 · 2026.06.14

ローカルLLM完全ガイド：Ollama/LM Studio 導入からモデル選定・高速化・RAGまで【Mac・Apple Silicon・2026年版】

◉ 2026.06.14 · 14min

こんにちは、パレイド技術部の夏目です。

「ローカル LLM を自分の Mac で動かしたい。でも Ollama や LM Studio、gemma4 に qwen、MoE に 1-bit……情報が多すぎて、結局どこから手をつければいいのか分からない」——この記事は、その迷いを一枚の地図で解くために書きました。

ローカル LLM の入門ガイドは 2026 年にはもう数多くあります。ただ、その多くは「おすすめモデル N 選」を横に並べた一覧や、特定の一構成を紹介して終わるものです。パレイドの技術部はそこには行きません。わたしたちが束ねるのは、MacBook Air M5 などの市販機で実際に測った一次情報です。本記事はそれらの検証記事を、目的別・難易度別に逆引きできる総合ガイド（目次）として並べます。どこから読めば最短で目的地に着くか、まずここで地図を見てから個別記事に降りてください。

本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI（Claude 等）の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

Mac でローカル LLM を動かす、3つの前提

個別の実装に入る前に、このガイドが立っている前提を 3 つ押さえておきます。これがそのまま「いま Mac でローカル LLM をやる理由」になります。

Apple Silicon で動く：M1 以降の Mac は、GPU（Metal）とユニファイドメモリ（CPU と GPU が同じメモリを共有する構造）を活かせます。32GB・64GB といった容量をそのまま GPU から使えるため、独立 GPU の VRAM 枠に縛られず大型モデルがロードできるのが Mac の強みです。
無料・ローカル完結：Ollama も LM Studio も主要モデルも無料で、商用利用できるものが多くあります。プロンプトを外のサーバーに送らず手元で完結するので、社外秘の文書や個人的なメモを安心して扱えます。従量課金とも無縁です。
クラウドに「追いつく」途中である：正直に言えば、実用レベルではいまもクラウドの大型 LLM が優位です。ただ 1 年ほどでローカルが現在のクラウドに十分追いつくと技術部は読んでいて、その準備として手元の数字を記録し続けています。本ガイドは「今すぐ全部置き換える」ためではなく、そのときが来たら迷わず動けるように地図を整えるためのものです。

30秒でわかる早見表：目的から逆引きする

ローカル LLM まわりは登場人物が多く、正面から積み上げると挫折します。まず「やりたいこと」から逆引きして、該当の入口にだけ降りるのが近道です。迷ったらこの表で当たりをつけてください。

やりたいこと	使うもの	この記事のどこへ
とにかく手軽に、コードを書かずに試したい	LM Studio（GUI）	まず動かす
まず定番を一本入れて基準を作りたい	Ollama（GUI / CLI）	まず動かす
2026年は結局どのモデルを選ぶのか知りたい	gemma4 / qwen3.5・3.6 / MoE / 1bit	何を選ぶか
「載るのに遅い」の理由を知りたい	量子化・コンテキスト長・VRAM	勘所
エディタ（VSCode / Cursor）に組み込みたい	Continue / BYOK / Cursor	開発に組み込む
Web検索・画像認識・社内文書QAをやりたい	Web検索 / VL / RAG	応用

以下、この表の各ルートを難易度順に案内します。各節のリンク先が、実機で測った一次情報の本体です。

まず動かす：Ollama と LM Studio

最初の一本は、定番の Ollama か、GUI で完結する LM Studio のどちらかで十分です。Ollama はコマンドにもアプリにも対応しており、ollama run 一発でモデルを落として対話できます。GUI から入りたいならOllamaとは？AIの新たな可能性を探る、ターミナルで自動化まで見据えるならOllamaをCLIで使う：上級者向け導入ガイドが入口です。

コマンドに触れたくないなら、最初から LM Studio をおすすめします。モデルの検索・ダウンロード・チャット・API サーバー起動までを一つのアプリで完結でき、Mac での最短ルートです。手順はLM Studio入門：Macで動かす最短ガイドにまとめています。Hugging Face から直接モデルを落としたい場面ではアクセストークンが要るので、Hugging Faceのサインアップからアクセストークン取得までの完全ガイドも合わせてどうぞ。

なお、本ガイドはインストールの細部までは踏み込みません。入口を指し示し、深掘りは各記事に任せる——hub の役割はそこに徹します。一度どれかで「ローカルで動く感覚」をつかんでおくと、次のモデル選定の話が一気に腹落ちします。

2026年に何を選ぶか：モデル世代と Mac での棲み分け

ここがこのガイドの核であり、一覧記事に対する差別化の中心です。2025 年の Llama 3 / Mistral / Qwen 2.5 という選択肢は、2026 年には一段世代が進みました。手元の用途で迷わないよう、現行の出発点を早見表にします。

系統	代表モデル	Mac での位置づけ
汎用・記事生成	gemma4（Google, Apache 2.0）	GGUF / llama.cpp 経由が現実的
汎用・記事生成	qwen3.5 / qwen3.6（Alibaba, オープンウェイト）	qwen3.6 は MLX バックエンドが効く
速度重視（知識は欲しい）	MoE 系（例 qwen3.5:35b-a3b）	活性 3B 相当の速さ
省メモリ・エッジ	Bonsai 8B（1-bit）/ Ternary Bonsai 8B（1.58-bit）	1〜2GB 級、MLX ネイティブ

MoE（Mixture of Experts） は、総パラメータが大きくても推論時には一部の「専門家」だけを活性化させる設計です。たとえば qwen3.5:35b-a3b は総 35B でも、推論で動くのは 3B 分だけ。知識は 35B、速度は 3B 級という、Mac の帯域制約と相性のよい構造です。この「35B が 27B より速い」現象を実機で確かめたのがOllama MLX対応で Qwen3.5 を試す｜35Bが27Bより速い？MoEの実力をベンチマークです。

gemma4 と qwen の世代差・棲み分けは、ニュースと実戦の両面から追っています。公開時の位置づけはGoogle Gemma 4 が Apache 2.0 で公開｜Qwen3.5 と何が違う？、記事生成パイプラインでの実戦比較はGemma 4 で記事は書けるか？記事生成パイプラインで Qwen3.5 と実戦比較とQwen 3.6 オープンウェイト版の実力は？32GB MacBook Air M5 で世代対決、3 モデルを同条件で並べた決定版がMoE 三つ巴｜gemma4 vs Qwen3.5 vs Qwen3.6、最適な MoE はどれかです。

もう一つ、2026 年に外せないのが 1-bit / 1.58-bit という極端な軽量化の系統です。1.15GB で動く世界初の1-bit LLM「Bonsai 8B」と、MLX ネイティブ対応した後継の1.58-bit「Ternary Bonsai 8B」を実機で比べています。ただし正直に添えると、軽い分だけ苦手も出ます。Bonsai 8B のツール呼び出し（function calling）スコア BFCL は 65.7 で、ベースの Qwen3 8B（81.0）から約 2 割落ちます。「軽い＝なんでも置き換えられる」ではなく、用途で割り切る前提です。MLX 周辺の最新動向としては、speculative decoding の Mac 対応を整理したOllama v0.23.1 で Gemma 4 の MTP が Mac 対応も置いておきます。

勘所：量子化・コンテキスト長・VRAM

モデルを選んだら、次は「載せ方」です。ここで多くの人がつまずくのが、「載る」と「速い」は別という一点に尽きます。

モデルの「ファイルサイズ」と実行時に必要なメモリは一致せず、重み・KV キャッシュ・中間テンソルを展開するため、実メモリはファイルサイズの 1.5〜3 倍が目安です。Apple Silicon の統合メモリは容量で勝っても、長い文脈や高負荷では帯域（メモリの転送速度）で頭打ちになります。実機でも、qwen3.5:35b（ファイル 23GB）が実メモリ約 30GB で 16 tok/s 前後、対して 1.15GB の Bonsai 8B が 26〜30 tok/s。容量に余裕があっても、帯域が天井になるわけです。

つまずき	対処の方向
メモリに載らない	量子化版（q4〜q5）を選ぶ／パラメータを下げる
載るのに遅い	帯域が天井。MLX 経由や MoE で活性パラメータを減らす
長い文脈を保てない	コンテキスト長を上げる。ただし KV キャッシュが肥大しメモリを圧迫

この「量子化・コンテキスト長・VRAM・統合メモリ vs 独立メモリ」の核は、世代が変わっても効きます。Modelfile での num_ctx 固定の仕方まで含め、ローカルLLMのモデル選定とコンテキスト長｜2026年版・Mac/Apple Silicon対応の選び方に一段深く整理しました。モデル選定で迷ったら、まずこの一本に戻ってくると軸がぶれません。

開発に組み込む：VSCode と Cursor

ローカル LLM を「チャット」で終わらせず、コードを書く現場に組み込む段階です。VSCode から Ollama を呼ぶ最も素直な構成は、拡張機能 Continue を使う方法で、VSCodeでOllamaを呼び出す：拡張機能Continueを利用する方法にまとめています。

GitHub Copilot のチャットをローカルモデルに差し替える BYOK（Bring Your Own Key） 的な構成に関心があるならVSCodeとOllamaでGithub Copilotをローカルで使うガイド、AI 統合エディタを丸ごと試したいならAIとエディタの融合：Cursor導入方法が入口になります。ここは「クラウドの賢さ」と「ローカルの安心・無料」を天秤にかける領域なので、用途で割り切るのが現実的です。

応用：Web検索・画像認識・RAG

ローカル LLM は単体だと「学習時点までの知識」しか持ちません。そこを外部の情報とつないで実用に広げるのが、この最後のルートです。

Web検索：LLM に最新情報を取りに行かせる構成です。SearXNG と組み合わせる自前構成をローカルLLMにWeb検索機能を実装する（Ollama＋SearXNG構成）にまとめています。なお Ollama 公式の Web Search API も登場しており、この領域は動きが速いので、構成を組む前に最新の対応状況を確認するのが安全です。
画像認識（VL）：画像を理解させる VL（Vision-Language）モデルをローカルで動かします。基本はOllamaでローカルVLを試す｜無料LLMで画像認識とAPI自動化の可能性、カメラ画像の定点観測まで踏み込んだ実装例がOpenCV × Ollama（VL）でカメラ画像を定点観測するPython実装例です。
RAG（社内文書QA など）：手元の文書を検索して短い文脈に投入する RAG は、それ自体が大きなテーマなので独立したまとめに譲ります。基礎から Ollama × ChromaDB 実装、LangChain 整理まではRAG関連記事まとめを入口にしてください。

長文をそのまま投げるより、RAG で関連箇所だけを短い文脈に渡すほうが、コスト・品質ともに有利な場面は多くあります。応用に進むほど、前章の「コンテキスト長の勘所」が効いてきます。

まとめ：地図を持って、各論に降りる

ローカル LLM を Mac で実用に乗せる道のりを、もう一度一枚にまとめておきます。「最強モデル」を探すのではなく、「目的との相性」で選ぶのが、遠回りしないコツです。

目的	出発点	記事
コードを書かず手軽に	LM Studio	LM Studio入門
定番を一本入れる	Ollama	Ollama GUI 入門 / CLI 入門
2026年のモデルを選ぶ	gemma4 / qwen / MoE	MoE 三つ巴ベンチ
載る≠速いを理解する	選定・コンテキスト長	モデル選定2026年版
エディタに組み込む	Continue / Cursor	VSCode×Ollama
外部情報につなぐ	Web検索 / VL / RAG	RAG まとめ