ChatGPTやClaudeといったクラウドベースのAIサービスは便利ですが、「機密データをクラウドに送りたくない」「オフラインでも使いたい」「APIコストを抑えたい」という声も増えてきました。

Ollamaは、LlamaやGemma、Mistralなどのオープンソースモデルを、自分のPCやサーバーで手軽に動かせるツールです。Dockerのような使い勝手で、コマンド一つでモデルのダウンロードと実行ができてしまいます。

この記事では、Ollamaの基本的な仕組みからインストール手順、おすすめモデルまで紹介していきます。

OllamaがローカルLLM実行で選ばれる理由

ローカルでLLMを動かす方法はいくつかありますが、Ollamaが支持されている理由は主に3つあります。

第一に、セットアップの手軽さ。Python環境の構築やCUDA設定といった面倒な作業が不要で、インストーラー1つとコマンド1行で動き始めます。

第二に、OpenAI互換APIを内蔵している点です。既存のOpenAI APIを使ったコードのエンドポイントをhttp://localhost:11434に向けるだけで、ローカルモデルに切り替えられます。CursorContinueなどのAI開発ツールとの連携も、この互換APIのおかげでスムーズですね。

第三に、モデル管理の容易さollama pullでモデルをダウンロードし、ollama runで即座に対話を始められます。モデルファイルの量子化やカスタマイズも、Modelfileという設定ファイルで宣言的に行えます。

Ollamaのインストール手順

各プラットフォーム向けにインストール方法が用意されています。

# macOS / Linux(ワンライナー)
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# 公式サイトからインストーラーをダウンロード
# https://ollama.com/download

# Docker
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

インストールが完了したら、早速モデルを動かしてみましょう。

# Llama 3.3 70Bを実行(初回はダウンロードあり)
ollama run llama3.3

# Gemma 3を試す
ollama run gemma3

# 軽量なPhi-4(3.8B)
ollama run phi4-mini

Ollamaのおすすめモデルと選び方

Ollamaで利用できるモデルは100種類以上ありますが、用途別におすすめを整理してみました。

汎用的な対話・文章生成

Llama 3.3 70BがGPUメモリに余裕があるなら最も賢い選択肢です。8Bパラメータ版もあり、こちらは8GB程度のGPUメモリで動作します。日本語性能も実用レベルに達していて、ちょっとした文章生成や要約なら十分使えると感じました。

コーディング支援

DeepSeek Coder V2CodeLlamaがコード生成に特化しています。AIコーディングエディタのバックエンドとして使えば、APIコストゼロでコード補完が利用できるようになります。

軽量・高速な用途

Gemma 3 4BPhi-4 Miniは、パラメータ数が小さいぶん高速に動作します。リアルタイム性が重要なチャットボットやエッジデバイスでの利用に向いていますね。

Ollamaと Docker Model Runnerの違い

Docker Model RunnerはDocker社が提供するローカルLLM実行環境で、Ollamaの代替として位置づけられています。

Docker Model Runnerの強みは、既存のDockerワークフローとの統合のしやすさです。一方、Ollamaはモデルのエコシステムが圧倒的に充実していて、コミュニティの活発さやサードパーティツールとの連携の広さで優位に立っています。

どちらもOpenAI互換APIを提供しているので、用途やチームの技術スタックに応じて選ぶのが良さそうです。個人的には、まずOllamaから始めて、Docker環境との統合が重要になったらDocker Model Runnerを検討する、という順番がおすすめかなと思います。

Ollamaの応用的な使い方

カスタムModelfileの作成

Modelfileを使うと、ベースモデルにシステムプロンプトやパラメータ調整を加えたカスタムモデルを作成できます。

# Modelfile
FROM llama3.3
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
SYSTEM "あなたは日本語で応答する技術アシスタントです。簡潔かつ正確に回答してください。"
# カスタムモデルの作成と実行
ollama create my-assistant -f Modelfile
ollama run my-assistant

REST APIとしての利用

OllamaはデフォルトでREST APIサーバーとして動作するので、curlや任意のHTTPクライアントから利用できます。

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.3",
  "prompt": "Pythonのリスト内包表記を説明して",
  "stream": false
}'

Ollamaに必要なハードウェアスペック

ローカルLLMの実行にはそれなりのスペックが必要です。目安としては、7Bモデルで8GB以上のRAM(GPU利用時はVRAM)、70Bモデルでは48GB以上が推奨されています。

Apple Siliconの場合、M1以降のチップに搭載されたユニファイドメモリが活用できるため、同じメモリ量でもNVIDIA GPUより効率的に動作する傾向があります。M4 Pro(48GB)なら70Bモデルも快適に動かせますね。

NVIDIA GPUを使う場合は、RTX 4060以上が実用的なラインです。量子化(Q4やQ5)されたモデルを使えば、必要なメモリ量を大幅に削減できます。

まとめ

Ollamaは、ローカルLLM実行の敷居を劇的に下げてくれるツールです。プライバシーの確保、オフライン利用、APIコスト削減など、クラウドAIでは実現しにくい要件に応えてくれます。

セットアップの手軽さとモデルエコシステムの充実度は、現時点でローカルLLMツールの中でトップクラスだと感じました。公式サイト(ollama.com)からすぐにダウンロードできるので、まずは軽量なモデルから試してみることをおすすめします。