Ollama

启动并运行大型语言模型。

macOS 的

下载

Windows

下载

Linux

curl -fsSL https://ollama.com/install.sh | sh

手动安装说明

Docker

官方 Ollama Docker 镜像 ollama/ollama在 Docker Hub 上可用。

开发库

社区

快速入门

要运行 Llama 并与 Llama 聊天 3.2

ollama run llama3.2

模型库

Ollama 支持 ollama.com/library 上可用的模型列表

以下是一些可以下载的示例模型:

参数 大小 下载
Deepseek-R1 7B 4.7GB ollama run deepseek-r1
Deepseek-R1 671B 404GB ollama run deepseek-r1:671b
llama 3.3 70B 43GB ollama run llama3.3
llama 3.2 3B 2.0GB ollama run llama3.2
llama 3.2 1B 1.3GB ollama run llama3.2:1b
llama 3.2 Vision 11B 7.9GB ollama run llama3.2-vision
llama 3.2 Vision 90B 55GB ollama run llama3.2-vision:90b
llama 3.1 8B 4.7GB ollama run llama3.1
llama 3.1 405B 231GB ollama run llama3.1:405b
Phi 4 14B 9.1GB ollama run phi4
Phi 3 Mini 3.8B 2.3GB ollama run phi3
Gemma 2 2B 1.6GB ollama run gemma2:2b
Gemma 2 9B 5.5GB ollama run gemma2
Gemma 2 27B 16GB ollama run gemma2:27b
Mistral 7B 4.1GB ollama run mistral
Moondream 2 1.4B 829MB ollama run moondream
Neural Chat 7B 4.1GB ollama run neural-chat
Starling 7B 4.1GB ollama run starling-lm
Code Llama 7B 3.8GB ollama run codellama
Llama 2 Uncensored 7B 3.8GB ollama run llama2-uncensored
LLaVA 7B 4.5GB ollama run llava
Solar 10.7B 6.1GB ollama run solar

[!注意] 您应该至少有 8 GB 的 RAM 来运行 7B 型号,16 GB 的 RAM 来运行 13B 的型号,32 GB 的 RAM 来运行 33B 型号。

自定义模型

从 GGUF 导入

Ollama 支持在 Modelfile 中导入 GGUF 模型:

  1. 创建一个名为Modelfile,其中FROM指令替换为要导入的模型的本地文件路径。

    FROM ./vicuna-33b.Q4_0.gguf
    
  2. 在 Ollama 中创建模型

    ollama create example -f Modelfile
    
  3. 运行模型

    ollama run example
    

从 Safetensor 导入

请参阅 导入模型 以了解更多信息。

自定义提示

Ollama 库中的模型可以通过提示进行自定义。例如,要自定义llama3.2型:

ollama pull llama3.2

创建一个Modelfile:

FROM llama3.2

# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 1

# set the system message
SYSTEM """
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
"""

接下来,创建并运行模型:

ollama create mario -f ./Modelfile
ollama run mario
>>> hi
Hello! It's your friend Mario.

有关使用 Modelfile 的更多信息,请参阅 Modelfile 文档。

CLI 参考

创建模型

ollama create用于从 Modelfile 创建模型。

ollama create mymodel -f ./Modelfile

拉取模型

ollama pull llama3.2

此命令还可用于更新本地模型。只会拉取 diff。

删除模型

ollama rm llama3.2

复制模型

ollama cp llama3.2 my-model

多行输入

对于多行输入,您可以使用 :"""

>>> """Hello,
... world!
... """
I'm a basic program that prints the famous "Hello, world!" message to the console.

多模态模型

ollama run llava "What's in this image? /Users/jmorgan/Desktop/smile.png"

输出:图像具有黄色笑脸,这可能是图片的中心焦点。

将提示作为参数传递

ollama run llama3.2 "Summarize this file: $(cat README.md)"

输出:Ollama 是一个轻量级的可扩展框架,用于在本地计算机上构建和运行语言模型。它提供了一个用于创建、运行和管理模型的简单 API,以及一个可在各种应用程序中轻松使用的预构建模型库。

显示模型信息

ollama show llama3.2

列出计算机上的模型

ollama list

列出当前加载的模型

ollama ps

停止当前正在运行的模型

ollama stop llama3.2

启动 Ollama

ollama serve当您想在不运行桌面应用程序的情况下启动 OLLAMA 时使用。

构建

查看开发人员指南

运行本地构建

接下来,启动服务器:

./ollama serve

最后,在单独的 shell 中运行一个模型:

./ollama run llama3.2

REST API

Ollama 有一个用于运行和管理模型的 REST API。

生成响应

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt":"Why is the sky blue?"
}'

与模型聊天

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'

请参阅所有端点的 API 文档

社区集成

Web & 桌面

云服务

终端

苹果视觉专业版

数据库

  • pgai - PostgreSQL 作为向量数据库(使用 pgvector 从 Ollama 模型创建和搜索嵌入)
  • MindsDB(将 Ollama 模型与近 200 个数据平台和应用程序连接起来)
  • chromem-go 示例
  • Kangaroo(适用于 AI 的 SQL 客户端和常用数据库的管理工具)

包管理器

开发库

移动端

  • Enchanted
  • Maid
  • Ollama 应用程序(适用于 Ollama 的现代且易于使用的多平台客户端)
  • ConfiChat(轻量级、独立、多平台和注重隐私的 LLM 聊天界面,具有可选加密功能)

扩展和插件

支持的后端

  • llama.cpp Georgi Gerganov 创立的项目。

可观察性

  • Lunary 是领先的开源 LLM 可观测性平台。它提供各种企业级功能,例如实时分析、提示模板管理、PII 掩码和全面的代理跟踪。
  • OpenLIT是一种OpenTelemetry原生工具,用于监控Ollama应用程序和GPUs,使用跟踪和指标。
  • HoneyHive 是一个面向 AI 代理的 AI 可观测性和评估平台。使用 HoneyHive 评估代理性能、询问故障并监控生产质量。
  • Langfuse 是一个开源 LLM 可观测性平台,使团队能够协作监控、评估和调试 AI 应用程序。
  • MLflow Tracing 是一种开源 LLM 可观测性工具,具有方便的 API 来记录和可视化跟踪,从而轻松调试和评估 GenAI 应用程序。

结果 匹配 ”"

    没有匹配 “ 的结果"