常见问题

如何升级 Ollama?

macOS 和 Windows 上的 Ollama 将自动下载更新。单击任务栏或菜单栏项,然后单击“重新启动以更新”以应用更新。也可以通过手动下载最新版本来安装更新。ollama.cadn.net.cn

在 Linux 上,重新运行安装脚本:ollama.cadn.net.cn

curl -fsSL https://ollama.com/install.sh | sh

如何查看日志?

查看故障排除文档,了解有关使用日志的更多信息。ollama.cadn.net.cn

我的 GPU 与 Ollama 兼容吗?

请参阅 GPU 文档ollama.cadn.net.cn

如何指定上下文窗口大小?

默认情况下,Ollama 使用的上下文窗口大小为 2048 个令牌。ollama.cadn.net.cn

要在使用ollama run/set parameter:ollama.cadn.net.cn

/set parameter num_ctx 4096

使用 API 时,请指定num_ctx参数:ollama.cadn.net.cn

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Why is the sky blue?",
  "options": {
    "num_ctx": 4096
  }
}'

如何判断我的模型是否已加载到 GPU 上?

使用ollama ps命令查看当前加载到内存中的模型。ollama.cadn.net.cn

ollama ps

输出ollama.cadn.net.cn

NAME          ID              SIZE     PROCESSOR    UNTIL
llama3:70b    bcfb190ca3a7    42 GB    100% GPU     4 minutes from now

Processor列将显示模型加载到哪个内存:ollama.cadn.net.cn

  • 100% GPU表示模型已完全加载到 GPU 中
  • 100% CPU表示模型完全加载到系统内存中
  • 48%/52% CPU/GPU表示模型已部分加载到 GPU 和系统内存中

如何配置 Ollama 服务器?

Ollama 服务器可以配置环境变量。ollama.cadn.net.cn

在 Mac 上设置环境变量

如果 Ollama 作为 macOS 应用程序运行,则应使用launchctl:ollama.cadn.net.cn

  1. 对于每个环境变量,调用launchctl setenv.ollama.cadn.net.cn

     launchctl setenv OLLAMA_HOST "0.0.0.0:11434"
    
  2. 重新启动 Ollama 应用程序。ollama.cadn.net.cn

在 Linux 上设置环境变量

如果 Ollama 作为 systemd 服务运行,则应使用systemctl:ollama.cadn.net.cn

  1. 通过调用systemctl edit ollama.service.这将打开一个编辑器。ollama.cadn.net.cn

  2. 对于每个环境变量,添加一行Environment在部分[Service]:ollama.cadn.net.cn

     [Service]
     Environment="OLLAMA_HOST=0.0.0.0:11434"
    
  3. 保存并退出。ollama.cadn.net.cn

  4. 重新加载systemd并重新启动 Ollama:ollama.cadn.net.cn

    systemctl daemon-reload
    systemctl restart ollama
    

在 Windows 上设置环境变量

在 Windows 上,Ollama 会继承您的用户和系统环境变量。ollama.cadn.net.cn

  1. 首先,通过在任务栏中单击它来退出 Ollama。ollama.cadn.net.cn

  2. 启动设置 (Windows 11) 或控制面板 (Windows 10) 应用程序并搜索环境变量ollama.cadn.net.cn

  3. 单击 Edit environment variables(编辑您账户的环境变量)。ollama.cadn.net.cn

  4. 为您的用户帐户编辑或创建新变量OLLAMA_HOST,OLLAMA_MODELS等。ollama.cadn.net.cn

  5. 单击 确定/应用 保存。ollama.cadn.net.cn

  6. 从 Windows 开始菜单启动 Ollama 应用程序。ollama.cadn.net.cn

如何在代理后面使用 Ollama?

Ollama 从 Internet 中提取模型,并且可能需要代理服务器才能访问模型。用HTTPS_PROXY通过代理重定向出站请求。确保代理证书作为系统证书安装。有关如何在您的平台上使用环境变量的信息,请参阅上面的部分。ollama.cadn.net.cn

[!注意] 避免设置HTTP_PROXY.Ollama 不使用 HTTP 进行模型拉取,只使用 HTTPS。设置HTTP_PROXY可能会中断客户端与服务器的连接。ollama.cadn.net.cn

如何在 Docker 中的代理后面使用 Ollama?

Ollama Docker 容器镜像可以配置为使用代理,方法是将-e HTTPS_PROXY=https://proxy.example.com启动容器时。ollama.cadn.net.cn

或者,可以将 Docker 守护程序配置为使用代理。有关说明,请参阅 macOS、WindowsLinux 上的 Docker Desktop,以及带有 systemd 的 Docker 守护程序ollama.cadn.net.cn

确保在使用 HTTPS 时将证书安装为系统证书。使用自签名证书时,这可能需要新的 Docker 映像。ollama.cadn.net.cn

FROM ollama/ollama
COPY my-ca.pem /usr/local/share/ca-certificates/my-ca.crt
RUN update-ca-certificates

构建并运行此镜像:ollama.cadn.net.cn

docker build -t ollama-with-ca .
docker run -d -e HTTPS_PROXY=https://my.proxy.example.com -p 11434:11434 ollama-with-ca

Ollama 会将我的提示和答案发回给 ollama.com 吗?

不。Ollama 在本地运行,对话数据不会离开您的机器。ollama.cadn.net.cn

如何在我的网络上公开 Ollama?

Ollama 默认绑定 127.0.0.1 端口 11434。将 bind 地址更改为OLLAMA_HOST环境变量。ollama.cadn.net.cn

有关如何在平台上设置环境变量的信息,请参阅上述部分。ollama.cadn.net.cn

如何将 Ollama 与代理服务器一起使用?

Ollama 运行 HTTP 服务器,可以使用 Nginx 等代理服务器进行公开。为此,请将代理配置为转发请求,并选择性地设置所需的标头(如果不在网络上公开 Ollama)。例如,使用 Nginx:ollama.cadn.net.cn

server {
    listen 80;
    server_name example.com;  # Replace with your domain or IP
    location / {
        proxy_pass http://localhost:11434;
        proxy_set_header Host localhost:11434;
    }
}

如何将 Ollama 与 ngrok 一起使用?

可以使用一系列隧道工具访问 Ollama。例如,使用 Ngrok:ollama.cadn.net.cn

ngrok http 11434 --host-header="localhost:11434"

如何将 Ollama 与 Cloudflare Tunnel 一起使用?

要将 Ollama 与 Cloudflare Tunnel 一起使用,请使用--url--http-host-header标志:ollama.cadn.net.cn

cloudflared tunnel --url http://localhost:11434 --http-host-header="localhost:11434"

如何允许其他 Web 源访问 Ollama?

Ollama 允许来自127.0.0.10.0.0.0默认情况下。其他源可以使用OLLAMA_ORIGINS.ollama.cadn.net.cn

有关如何在平台上设置环境变量的信息,请参阅上述部分。ollama.cadn.net.cn

模型存储在哪里?

  • macOS 版本:~/.ollama/models
  • Linux的:/usr/share/ollama/.ollama/models
  • 窗户:C:\Users\%username%\.ollama\models

如何将它们设置为其他位置?

如果需要使用不同的目录,请设置环境变量OLLAMA_MODELS添加到所选目录。ollama.cadn.net.cn

注意:在 Linux 上使用标准安装程序时,ollama用户需要对指定目录的读写权限。要将目录分配给ollama用户运行sudo chown -R ollama:ollama <directory>.ollama.cadn.net.cn

有关如何在平台上设置环境变量的信息,请参阅上述部分。ollama.cadn.net.cn

如何在 Visual Studio Code 中使用 Ollama?

已经有大量插件可用于 VSCode 以及其他利用 Ollama 的编辑器。请参阅主存储库自述文件底部的扩展和插件列表。ollama.cadn.net.cn

如何在 Docker 中使用带有 GPU 加速的 Ollama?

Ollama Docker 容器可以在 Linux 或 Windows 中配置 GPU 加速(使用 WSL2)。这需要 nvidia-container-toolkit。有关更多详细信息,请参阅 ollama/ollamaollama.cadn.net.cn

由于缺少 GPU 直通和仿真,macOS 中的 Docker Desktop 无法使用 GPU 加速。ollama.cadn.net.cn

为什么 Windows 2 上的 WSL10 中的网络速度很慢?

这可能会影响安装 Ollama 和下载模型。ollama.cadn.net.cn

打开Control Panel > Networking and Internet > View network status and tasks并单击Change adapter settings在左侧面板上。查找vEthernel (WSL)适配器,右键单击并选择Properties. 点击Configure并打开Advanced标签。搜索每个属性,直到找到Large Send Offload Version 2 (IPv4)Large Send Offload Version 2 (IPv6).禁用这两个 性能。ollama.cadn.net.cn

如何将模型预加载到 Ollama 中以获得更快的响应时间?

如果您使用的是 API,则可以通过向 Ollama 服务器发送空请求来预加载模型。这适用于/api/generate/api/chatAPI 端点。ollama.cadn.net.cn

要使用 generate 端点预加载 mistral 模型,请使用:ollama.cadn.net.cn

curl http://localhost:11434/api/generate -d '{"model": "mistral"}'

要使用聊天完成端点,请使用:ollama.cadn.net.cn

curl http://localhost:11434/api/chat -d '{"model": "mistral"}'

要使用 CLI 预加载模型,请使用以下命令:ollama.cadn.net.cn

ollama run llama3.2 ""

如何将模型保持在内存中加载或使其立即卸载?

默认情况下,模型在卸载之前会在内存中保留 5 分钟。如果您向 LLM 发出大量请求,这样可以更快地响应。如果要立即从内存中卸载模型,请使用ollama stop命令:ollama.cadn.net.cn

ollama stop llama3.2

如果您使用的是 API,请使用keep_alive参数替换为/api/generate/api/chatendpoints 设置模型在内存中保留的时间。这keep_aliveparameter 可以设置为:ollama.cadn.net.cn

  • 持续时间字符串(例如“10m”或“24h”)
  • 以秒为单位的数字(例如 3600)
  • 任何负数,它将使模型保持在内存中(例如 -1 或 “-1m”)
  • '0' 将在生成响应后立即卸载模型

例如,要预加载模型并将其保留在内存中,请使用:ollama.cadn.net.cn

curl http://localhost:11434/api/generate -d '{"model": "llama3.2", "keep_alive": -1}'

要卸载模型并释放内存,请使用:ollama.cadn.net.cn

curl http://localhost:11434/api/generate -d '{"model": "llama3.2", "keep_alive": 0}'

或者,您可以通过设置OLLAMA_KEEP_ALIVE环境变量。这OLLAMA_KEEP_ALIVE变量使用与keep_alive参数类型。请参阅说明如何配置 Ollama 服务器以正确设置环境变量的部分。ollama.cadn.net.cn

keep_aliveAPI 参数替换为/api/generate/api/chatAPI 端点将覆盖OLLAMA_KEEP_ALIVE设置。ollama.cadn.net.cn

如何管理 Ollama 服务器可以排队的最大请求数?

如果向服务器发送的请求过多,它将响应 503 错误,指示服务器过载。您可以通过设置OLLAMA_MAX_QUEUE.ollama.cadn.net.cn

Ollama 如何处理并发请求?

Ollama 支持两个级别的并发处理。如果您的系统有足够的可用内存(使用 CPU 推理时的系统内存,或用于 GPU 推理的 VRAM),则可以同时加载多个模型。对于给定模型,如果在加载模型时有足够的可用内存,则会将其配置为允许并行请求处理。ollama.cadn.net.cn

如果在已加载一个或多个模型的情况下没有足够的可用内存来加载新模型请求,则所有新请求都将排队,直到可以加载新模型。当以前的模型变为空闲状态时,将卸载一个或多个模型,以便为新模型腾出空间。排队的请求将按顺序处理。使用 GPU 推理时,新模型必须能够完全适应 VRAM 以允许并发模型加载。ollama.cadn.net.cn

给定模型的并行请求处理会导致上下文大小增加并行请求的数量。例如,具有 4 个并行请求的 2K 上下文将导致 8K 上下文和额外的内存分配。ollama.cadn.net.cn

以下服务器设置可用于调整 Ollama 在大多数平台上处理并发请求的方式:ollama.cadn.net.cn

  • OLLAMA_MAX_LOADED_MODELS- 如果模型适合可用内存,则可以同时加载的最大模型数。默认值为 3 * GPU 数量或 3 用于 CPU 推理。
  • OLLAMA_NUM_PARALLEL- 每个模型将同时处理的最大并行请求数。默认值将根据可用内存自动选择 4 或 1。
  • OLLAMA_MAX_QUEUE- Ollama 在忙碌时在拒绝其他请求之前将排队的最大请求数。默认值为 512

注意:由于 ROCm v5.7 中对可用 VRAM 报告的限制,配备 Radeon GPU 的 Windows 目前默认为最多 1 个型号。ROCm v6.2 可用后,Windows Radeon 将遵循上述默认值。您可以在 Windows 上的 Radeon 上启用并发模型加载,但请确保加载的模型数量不会超过 GPU VRAM 的容量。ollama.cadn.net.cn

Ollama 如何在多个 GPU 上加载模型?

加载新模型时,Ollama 会根据当前可用的 VRAM 评估模型所需的 VRAM。如果模型完全适合任何单个 GPU,则 Ollama 将在该 GPU 上加载模型。这通常提供最佳性能,因为它减少了推理期间通过 PCI 总线传输的数据量。如果模型不能完全安装在一个 GPU 上,则它将分布在所有可用的 GPU 上。ollama.cadn.net.cn

如何启用 Flash Attention?

Flash Attention 是大多数现代模型的一项功能,随着上下文大小的增长,它可以显著减少内存使用量。要启用 Flash Attention,请将OLLAMA_FLASH_ATTENTION环境变量设置为1启动 Ollama 服务器时。ollama.cadn.net.cn

如何设置 K/V 缓存的量化类型?

K/V 上下文缓存可以量化,以便在启用 Flash Attention 时显著减少内存使用。ollama.cadn.net.cn

要将量化 K/V 缓存与 Ollama 一起使用,您可以设置以下环境变量:ollama.cadn.net.cn

  • OLLAMA_KV_CACHE_TYPE- K/V 缓存的量化类型。默认值为f16.

注意:目前这是一个全局选项,这意味着所有模型都将以指定的量化类型运行。ollama.cadn.net.cn

当前可用的 K/V 缓存量化类型包括:ollama.cadn.net.cn

  • f16- 高精度和内存使用率(默认)。
  • q8_0- 8 位量化,使用大约 1/2 的内存f16由于精度损失非常小,这通常不会对模型的质量产生明显影响(如果不使用 F16,建议使用)。
  • q4_0- 4 位量化,使用大约 1/4 的内存f16精度损失为中小,在较高的上下文大小下可能更明显。

缓存量化对模型响应质量的影响程度取决于模型和任务。与低 GQA 计数的模型相比,具有高 GQA 计数的模型(例如 Qwen2)可能对量化精度的影响更大。ollama.cadn.net.cn

您可能需要尝试不同的量化类型,以在内存使用和质量之间找到最佳平衡。ollama.cadn.net.cn

结果 匹配 ”"

    没有匹配 “ 的结果"