← [ TECH / 技術部 ] に戻る
OBSERVATION · 其の5048 · 2026.06.14

ローカルLLM完全ガイド:Ollama/LM Studio 導入からモデル選定・高速化・RAGまで【Mac・Apple Silicon・2026年版】

ローカルLLM完全ガイド:Ollama/LM Studio 導入からモデル選定・高速化・RAGまで【Mac・Apple Silicon・2026年版】 — ローカルLLM, Ollama, LM Studio

こんにちは、パレイド技術部の夏目です。

「ローカル LLM を自分の Mac で動かしたい。でも Ollama や LM Studio、gemma4 に qwen、MoE に 1-bit……情報が多すぎて、結局どこから手をつければいいのか分からない」——この記事は、その迷いを一枚の地図で解くために書きました。

ローカル LLM の入門ガイドは 2026 年にはもう数多くあります。ただ、その多くは「おすすめモデル N 選」を横に並べた一覧や、特定の一構成を紹介して終わるものです。パレイドの技術部はそこには行きません。わたしたちが束ねるのは、MacBook Air M5 などの市販機で実際に測った一次情報です。本記事はそれらの検証記事を、目的別・難易度別に逆引きできる総合ガイド(目次)として並べます。どこから読めば最短で目的地に着くか、まずここで地図を見てから個別記事に降りてください。

本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

Mac でローカル LLM を動かす、3つの前提

個別の実装に入る前に、このガイドが立っている前提を 3 つ押さえておきます。これがそのまま「いま Mac でローカル LLM をやる理由」になります。

  • Apple Silicon で動く:M1 以降の Mac は、GPU(Metal)とユニファイドメモリ(CPU と GPU が同じメモリを共有する構造)を活かせます。32GB・64GB といった容量をそのまま GPU から使えるため、独立 GPU の VRAM 枠に縛られず大型モデルがロードできるのが Mac の強みです。
  • 無料・ローカル完結:Ollama も LM Studio も主要モデルも無料で、商用利用できるものが多くあります。プロンプトを外のサーバーに送らず手元で完結するので、社外秘の文書や個人的なメモを安心して扱えます。従量課金とも無縁です。
  • クラウドに「追いつく」途中である:正直に言えば、実用レベルではいまもクラウドの大型 LLM が優位です。ただ 1 年ほどでローカルが現在のクラウドに十分追いつくと技術部は読んでいて、その準備として手元の数字を記録し続けています。本ガイドは「今すぐ全部置き換える」ためではなく、そのときが来たら迷わず動けるように地図を整えるためのものです。

30秒でわかる早見表:目的から逆引きする

ローカル LLM まわりは登場人物が多く、正面から積み上げると挫折します。まず「やりたいこと」から逆引きして、該当の入口にだけ降りるのが近道です。迷ったらこの表で当たりをつけてください。

やりたいこと 使うもの この記事のどこへ
とにかく手軽に、コードを書かずに試したい LM Studio(GUI) まず動かす
まず定番を一本入れて基準を作りたい Ollama(GUI / CLI) まず動かす
2026年は結局どのモデルを選ぶのか知りたい gemma4 / qwen3.5・3.6 / MoE / 1bit 何を選ぶか
「載るのに遅い」の理由を知りたい 量子化・コンテキスト長・VRAM 勘所
エディタ(VSCode / Cursor)に組み込みたい Continue / BYOK / Cursor 開発に組み込む
Web検索・画像認識・社内文書QAをやりたい Web検索 / VL / RAG 応用

以下、この表の各ルートを難易度順に案内します。各節のリンク先が、実機で測った一次情報の本体です。

まず動かす:Ollama と LM Studio

最初の一本は、定番の Ollama か、GUI で完結する LM Studio のどちらかで十分です。Ollama はコマンドにもアプリにも対応しており、ollama run 一発でモデルを落として対話できます。GUI から入りたいならOllamaとは?AIの新たな可能性を探る、ターミナルで自動化まで見据えるならOllamaをCLIで使う:上級者向け導入ガイドが入口です。

コマンドに触れたくないなら、最初から LM Studio をおすすめします。モデルの検索・ダウンロード・チャット・API サーバー起動までを一つのアプリで完結でき、Mac での最短ルートです。手順はLM Studio入門:Macで動かす最短ガイドにまとめています。Hugging Face から直接モデルを落としたい場面ではアクセストークンが要るので、Hugging Faceのサインアップからアクセストークン取得までの完全ガイドも合わせてどうぞ。

なお、本ガイドはインストールの細部までは踏み込みません。入口を指し示し、深掘りは各記事に任せる——hub の役割はそこに徹します。一度どれかで「ローカルで動く感覚」をつかんでおくと、次のモデル選定の話が一気に腹落ちします。

2026年に何を選ぶか:モデル世代と Mac での棲み分け

ここがこのガイドの核であり、一覧記事に対する差別化の中心です。2025 年の Llama 3 / Mistral / Qwen 2.5 という選択肢は、2026 年には一段世代が進みました。手元の用途で迷わないよう、現行の出発点を早見表にします。

系統 代表モデル Mac での位置づけ
汎用・記事生成 gemma4(Google, Apache 2.0) GGUF / llama.cpp 経由が現実的
汎用・記事生成 qwen3.5 / qwen3.6(Alibaba, オープンウェイト) qwen3.6 は MLX バックエンドが効く
速度重視(知識は欲しい) MoE 系(例 qwen3.5:35b-a3b) 活性 3B 相当の速さ
省メモリ・エッジ Bonsai 8B(1-bit)/ Ternary Bonsai 8B(1.58-bit) 1〜2GB 級、MLX ネイティブ

MoE(Mixture of Experts) は、総パラメータが大きくても推論時には一部の「専門家」だけを活性化させる設計です。たとえば qwen3.5:35b-a3b は総 35B でも、推論で動くのは 3B 分だけ。知識は 35B、速度は 3B 級という、Mac の帯域制約と相性のよい構造です。この「35B が 27B より速い」現象を実機で確かめたのがOllama MLX対応で Qwen3.5 を試す|35Bが27Bより速い?MoEの実力をベンチマークです。

gemma4 と qwen の世代差・棲み分けは、ニュースと実戦の両面から追っています。公開時の位置づけはGoogle Gemma 4 が Apache 2.0 で公開|Qwen3.5 と何が違う?、記事生成パイプラインでの実戦比較はGemma 4 で記事は書けるか?記事生成パイプラインで Qwen3.5 と実戦比較Qwen 3.6 オープンウェイト版の実力は?32GB MacBook Air M5 で世代対決、3 モデルを同条件で並べた決定版がMoE 三つ巴|gemma4 vs Qwen3.5 vs Qwen3.6、最適な MoE はどれかです。

もう一つ、2026 年に外せないのが 1-bit / 1.58-bit という極端な軽量化の系統です。1.15GB で動く世界初の1-bit LLM「Bonsai 8B」と、MLX ネイティブ対応した後継の1.58-bit「Ternary Bonsai 8B」を実機で比べています。ただし正直に添えると、軽い分だけ苦手も出ます。Bonsai 8B のツール呼び出し(function calling)スコア BFCL は 65.7 で、ベースの Qwen3 8B(81.0)から約 2 割落ちます。「軽い=なんでも置き換えられる」ではなく、用途で割り切る前提です。MLX 周辺の最新動向としては、speculative decoding の Mac 対応を整理したOllama v0.23.1 で Gemma 4 の MTP が Mac 対応も置いておきます。

勘所:量子化・コンテキスト長・VRAM

モデルを選んだら、次は「載せ方」です。ここで多くの人がつまずくのが、「載る」と「速い」は別という一点に尽きます。

モデルの「ファイルサイズ」と実行時に必要なメモリは一致せず、重み・KV キャッシュ・中間テンソルを展開するため、実メモリはファイルサイズの 1.5〜3 倍が目安です。Apple Silicon の統合メモリは容量で勝っても、長い文脈や高負荷では帯域(メモリの転送速度)で頭打ちになります。実機でも、qwen3.5:35b(ファイル 23GB)が実メモリ約 30GB で 16 tok/s 前後、対して 1.15GB の Bonsai 8B が 26〜30 tok/s。容量に余裕があっても、帯域が天井になるわけです。

つまずき 対処の方向
メモリに載らない 量子化版(q4〜q5)を選ぶ/パラメータを下げる
載るのに遅い 帯域が天井。MLX 経由や MoE で活性パラメータを減らす
長い文脈を保てない コンテキスト長を上げる。ただし KV キャッシュが肥大しメモリを圧迫

この「量子化・コンテキスト長・VRAM・統合メモリ vs 独立メモリ」の核は、世代が変わっても効きます。Modelfile での num_ctx 固定の仕方まで含め、ローカルLLMのモデル選定とコンテキスト長|2026年版・Mac/Apple Silicon対応の選び方に一段深く整理しました。モデル選定で迷ったら、まずこの一本に戻ってくると軸がぶれません。

開発に組み込む:VSCode と Cursor

ローカル LLM を「チャット」で終わらせず、コードを書く現場に組み込む段階です。VSCode から Ollama を呼ぶ最も素直な構成は、拡張機能 Continue を使う方法で、VSCodeでOllamaを呼び出す:拡張機能Continueを利用する方法にまとめています。

GitHub Copilot のチャットをローカルモデルに差し替える BYOK(Bring Your Own Key) 的な構成に関心があるならVSCodeとOllamaでGithub Copilotをローカルで使うガイド、AI 統合エディタを丸ごと試したいならAIとエディタの融合:Cursor導入方法が入口になります。ここは「クラウドの賢さ」と「ローカルの安心・無料」を天秤にかける領域なので、用途で割り切るのが現実的です。

応用:Web検索・画像認識・RAG

ローカル LLM は単体だと「学習時点までの知識」しか持ちません。そこを外部の情報とつないで実用に広げるのが、この最後のルートです。

長文をそのまま投げるより、RAG で関連箇所だけを短い文脈に渡すほうが、コスト・品質ともに有利な場面は多くあります。応用に進むほど、前章の「コンテキスト長の勘所」が効いてきます。

まとめ:地図を持って、各論に降りる

ローカル LLM を Mac で実用に乗せる道のりを、もう一度一枚にまとめておきます。「最強モデル」を探すのではなく、「目的との相性」で選ぶのが、遠回りしないコツです。

目的 出発点 記事
コードを書かず手軽に LM Studio LM Studio入門
定番を一本入れる Ollama Ollama GUI 入門 / CLI 入門
2026年のモデルを選ぶ gemma4 / qwen / MoE MoE 三つ巴ベンチ
載る≠速いを理解する 選定・コンテキスト長 モデル選定2026年版
エディタに組み込む Continue / Cursor VSCode×Ollama
外部情報につなぐ Web検索 / VL / RAG RAG まとめ

迷ったら、まずOllama か LM Studioで一度動かし、モデル選びで詰まったら選定の2026年版に戻る——この二本を行き来するだけでも、Mac のローカル LLM はかなり手の内に入ります。クラウドに追いつくその日まで、手元の数字を一緒に積んでいきましょう。

リンク集

パレイドOllamaとは?AIの新たな可能性を探るこの記事のポイント(30秒で要点) OllamaはローカルでLLM(大規模言語モデル)を動かせる無料アプリ GUI版(デスクトップアプリ)は初心者でも簡単…

パレイドLM StudioをMacで使う最短ガイド|2026年版・Apple Silicon/MLX対応こんにちは、パレイド技術部の夏目です。 ローカルLLMを「まずGUIで触ってみたい」という相談をよく受けます。その最短ルートが LM Studio です。モ…

パレイドローカルLLMのモデル選定とコンテキスト長|2026年版・Mac/Apple Silicon対応の選び方こんにちは、パレイド技術部の夏目です。 ローカル LLM を手元のマシンで実用レベルに仕上げるには、「どのモデルを選び」「コンテキスト長(文脈長…

パレイドOllama MLX対応で Qwen3.5 を試す|35Bが27Bより速い?MoEの実力をベンチマークこんにちは、パレイド技術部です。 Ollama が v0.19 で Apple MLX フレームワークに対応しました。M5 チップの GPU Neural Ac…

パレイドMoE 三つ巴|gemma4 vs Qwen3.5 vs Qwen3.6、32GB MacBook Air M5 で記事生成に最適な MoE はどれかこんにちは、パレイド技術部です。 昨日 (4/17) の記事で、新しくオープンウェイト化された Qwen3.6-35B-A3B を Qwen3.5 と比較し、記…

パレイドQwen 3.6 オープンウェイト版の実力は?記事執筆用途の 32GB MacBook Air M5 で Qwen 3.5 と世代対決こんにちは、パレイド技術部です。 先週 (4/7) の記事で、Alibaba が発表したフラッグシップ LLM Qwen 3.6-Plus のニュースを取り上げ…

パレイド世界初の1-bit LLM「Bonsai 8B」が登場|1.15GBでLlama 3.1超え、Macで動かしてみたこんにちは、パレイド技術部です。 Caltech 発の AI ラボ PrismML が、世界初の商用レベル 1-bit LLM「Bonsai 8B」 を Apa…

パレイド1.58-bit LLM「Ternary Bonsai 8B」が登場|MLXネイティブ対応、M5 Mac で前作と比較してみたこんにちは、パレイド技術部です。 前回の記事で取り上げた PrismML が、約2週間のインターバルで続報を出してきました。今度は 1.58-bit の Ter…

パレイドVSCodeでOllamaをローカル実行|Continue拡張でコード補完・チャット(config.yaml対応)こんにちは、パレイド技術部の夏目です。 クラウドの大型 LLM がコーディング支援で優位なのは、2026 年の今も変わりません。ただ「手元のマシンだけ…

パレイドローカルLLMにWeb検索を足す|Ollama×SearXNGで完全ローカルな最新情報参照こんにちは、パレイド技術部の夏目です。ローカルLLMの一番の弱点は 知識カットオフ(学習した時点より新しい情報を知らないこと)です。手元で動く…

パレイドOllamaでローカルVLを試す|無料LLMで画像認識とAPI自動化の可能性前回試したOCR機能ではテキストの抽出は可能ですが、画像そのものを理解することはできません。 ChatGPTのようなクラウド型AIに画像を見せれば認識し…

パレイドRAG関連記事まとめ:基礎からOllama×ChromaDB実装、LangChain整理までpareido.jpのAIテキストカテゴリ内にあるRAG関連記事10本を、読む順番が迷わない形で整理しました。

━━ 観るのを再開 ━━
次の回を読む
夢十夜・第九夜 ── とうに死んだ夫へ、御百度を踏む。応答なき相手への祈り
技術部を一覧で
部門アーカイブ
[NEXT] FRONT · 其の4705
夢十夜・第九夜 ── とうに死んだ夫へ、御百度を踏む。応答なき相手への祈り
[NEXT] FRONT · 其の4775
【日本人面地形 07】北海道④ 日高・襟裳 ── 火を噴かなかった山脈と、いちばん厳しい目が折れた一点