ローカルでLLMを動かしたいとき、まず思い浮かぶのはOllamaかもしれません。ただ、最近になってDockerが公式にリリースした「Docker Model Runner」がかなり良い選択肢になってきていると感じました。

実際に触ってみたところ、既存のDocker環境にそのまま統合できる点が想像以上に便利だったので、今回はその特徴や使い方をまとめてみます。

Docker Model Runnerとは

Docker Model Runner(DMR)は、Docker Desktop 4.40以降に搭載されたAIモデル管理・実行機能です。LLMをDockerコンテナのように扱えるのが大きな特徴で、Docker Hubから直接モデルをpullして、OpenAI互換APIで即座に利用できます。

つまり、これまでOllamaを別途インストールして管理していたワークフローが、Docker一本で完結するようになったわけですね。

Ollamaとの違い

一番の違いは「既存のDocker環境との統合度」です。Ollamaは単体のツールとして優秀ですが、Docker Model RunnerはDocker ComposeやDocker Desktopのエコシステムにネイティブに組み込まれています。

具体的な違いをまとめると、こんな感じになります。

  • モデル配布:DMRはDocker HubやOCI準拠レジストリからpull。OllamaはOllama独自のレジストリを利用
  • API互換性:DMRはOpenAI互換とOllama互換の両方のAPIを提供。Ollamaは独自API+OpenAI互換
  • 推論エンジン:DMRはllama.cpp、vLLM、Diffusersに対応。Ollamaはllama.cppベース
  • 画像生成:DMRはStable Diffusionモデルによるテキストから画像生成に対応。Ollamaは非対応
  • IDE連携:DMRはCursor、Cline、Continue、Aiderなどと直接接続可能

特にvLLMやDiffusersのサポートは大きいですね。NVIDIA GPUを搭載したLinux環境であれば、本格的な推論パイプラインをDocker内で完結できます。

対応環境と要件

Docker Model Runnerは以下の環境で動作します。

  • macOS:Docker Desktop 4.40以降、Apple Silicon対応
  • Windows(amd64):Docker Desktop 4.41以降、NVIDIA GPU(ドライバ576.57+)
  • Windows(arm64):Qualcomm Adreno GPU(6xxシリーズ以降)
  • Linux(Docker Engine):CPU、NVIDIA(CUDA)、AMD(ROCm)、Vulkanバックエンドに対応

Linuxの対応幅がかなり広いのは好印象でした。AMD GPUユーザーにとっては特にありがたいポイントかもしれません。

基本的な使い方

使い方はとてもシンプルです。Docker Desktopを起動した状態で、ターミナルからモデルをpullして実行するだけ。

docker model pull ai/llama3.2
docker model run ai/llama3.2 "日本の首都はどこですか?"

これだけでローカルLLMが動きます。初回のpullには時間がかかりますが、2回目以降はキャッシュされるので高速です。

APIとして利用する場合は、localhostのエンドポイントに対してOpenAI互換のリクエストを送るだけ。既存のアプリケーションをほぼ無修正で接続できるのが強みですね。

Hugging Faceからのモデル取得

Docker Hub以外にも、Hugging Faceから直接モデルをpullできます。GGUFフォーマットのモデルであれば、以下のように指定するだけです。

docker model pull hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF

Hugging Face上の膨大なモデルライブラリにアクセスできるのは、実験的なモデルを試したいときに重宝します。

AIコーディングツールとの連携

個人的に一番便利だと思ったのは、AIコーディングエージェントとの連携です。CursorやClineなどのエディタ拡張が、Docker Model Runnerのエンドポイントに直接接続できます。

クラウドAPIを使わずにローカルでコード補完や生成を行えるため、機密性の高いプロジェクトでも安心して使えます。MCP(Model Context Protocol)との組み合わせで、さらに高度なワークフローも構築可能です。

Open WebUIとの統合

ChatGPTのようなWebインターフェースが欲しい場合、Open WebUIとの連携も公式にサポートされています。Docker Composeで数行の設定を追加するだけで、ブラウザからローカルLLMと対話できる環境が整います。

チーム内でローカルLLMを共有したいケースや、技術に詳しくないメンバーにも使ってもらいたい場面で活躍しそうですね。

使ってみた所感

実際に数日間使ってみて感じたのは、「Dockerユーザーならこれ一択になるかもしれない」ということです。Ollamaも素晴らしいツールですが、Docker Model Runnerは既存のコンテナワークフローに自然に溶け込みます。

一方で、Ollamaのコミュニティやエコシステムの成熟度はまだDocker Model Runnerより上だと感じました。モデルの種類やドキュメントの充実度では、Ollamaに軍配が上がる場面もあります。

ただ、Dockerが本気でAIインフラに取り組んでいるのは明らかで、Docker Hardened Imagesの無料化と合わせて、開発者のAI体験を包括的に改善しようとしている方向性は頼もしいですね。

まとめ

Docker Model Runnerは、ローカルLLM実行の新しい選択肢として十分に実用的なレベルに達しています。Ollamaから乗り換える必要はすぐにはないかもしれませんが、Docker環境を日常的に使っている方なら試してみる価値は大いにあると思います。

公式ドキュメントはDocker公式サイトで確認できます。対応モデルの一覧はDocker Hubから閲覧可能です。まずは軽いモデルでサクッと試してみるのがおすすめです。