2026-02-20

Ollama Release Notes v0.16.3

本文整理了 Ollama v0.16.3 的版本更新日志，这是一个预发布版本（Prerelease），主要增强了 MLX Runner 的模型支持、修复了多个 bug 并改进了用户体验。

注意: v0.16.3 是预发布版本，面向早期采用者和测试用户。生产环境建议使用最新的稳定版本。

Ollama Release Notes v0.16.3

发布日期: 2026-02-19
版本类型: Prerelease（预发布）
GitHub: https://github.com/ollama/ollama/releases/tag/v0.16.3

版本概述

Ollama v0.16.3 是一个预发布版本，专注于增强 MLX Runner 的模型支持、修复关键 bug 并改进用户体验。此版本特别优化了 Apple Silicon（M1/M2/M3）上的本地推理体验，为用户提供了更广泛的模型选择和更稳定的运行环境。

主要更新

🚀 模型支持增强

1. Gemma 3 添加到 MLX Runner

新增模型支持: Google Gemma 3 系列

MLX Runner 现在支持 Gemma 3 模型，进一步扩展了 Apple Silicon 设备上的模型选择。

# 拉取 Gemma 3 模型
ollama pull gemma3

# 运行 Gemma 3 推理
ollama run gemma3 "What is the future of AI?"

# 使用 MLX Runner 运行（Apple Silicon）
ollama run gemma3 --backend mlx

特性:

支持 Gemma 3 的不同参数规模
优化的 Apple Silicon 推理性能
完整的 MLX 框架集成

2. Llama 3 架构添加到 MLX Runner

新增架构支持: Llama 3 模型家族

MLX Runner 现在原生支持 Llama 3 架构，提供更好的 Apple Silicon 性能。

# 拉取 Llama 3 模型
ollama pull llama3

# 使用 MLX Runner 运行
ollama run llama3 --backend mlx

# 查看模型信息
ollama show llama3

改进:

原生 Llama 3 架构支持
更高效的内存管理
改进的推理速度

3. Qwen 3 支持添加到 MLX Runner

新增模型系列: Alibaba Qwen 3

MLX Runner 新增对 Qwen 3 系列模型的支持，扩展了中文和多语言模型的本地推理能力。

# 拉取 Qwen 3 模型
ollama pull qwen3

# 运行 Qwen 3 推理
ollama run qwen3 "介绍一下人工智能的发展历程"

# 使用 MLX Runner
ollama run qwen3 --backend mlx

🐛 Bug 修复

1. 参数计数显示修复

问题: 在 MLX 框架下，ollama show 命令无法正确显示模型的参数计数。

修复: 现在能够准确显示模型参数数量。

# 显示模型信息
ollama show llama3

# 输出示例
Model: llama3
Parameters: 8.0B
Quantization: q4_0
Backend: MLX

影响: 用户现在可以准确地查看和了解模型的规模。

2. 缺失的线性层工厂修复

问题: MLX Runner 中缺少某些线性层的工厂方法，导致部分模型无法正确加载。

修复: 添加了缺失的线性层工厂，确保所有支持的模型都能正常加载。

影响: 提高了模型加载的成功率和稳定性。

3. MLX 模型调度改进

问题: 在多个模型并发运行时，MLX Runner 的调度效率不够理想。

修复: 优化了 MLX 模型调度算法，改进了并发性能。

from ollama import Client
import asyncio

# 创建客户端
client = Client(host='http://localhost:11434')

# 并发推理（改进的调度）
async def concurrent_inference():
    tasks = [
        client.chat_async(model='llama3', messages=[{'role': 'user', 'content': f'Query {i}'}])
        for i in range(5)
    ]
    results = await asyncio.gather(*tasks)
    return results

# 执行并发推理
results = asyncio.run(concurrent_inference())
print(f"处理了 {len(results)} 个并发请求")

影响: 提高了 Apple Silicon 设备上的并发推理性能。

🎨 功能改进

1. ollama launch cline CLI 集成

新功能: Ollama 现在支持 cline CLI，扩展了命令行工具的集成能力。

# 使用 cline CLI 启动 Ollama
ollama launch cline

# 查看可用的 launch 选项
ollama launch --help

用途:

更灵活的启动选项
更好的 CLI 工具集成
简化的工作流程

2. ollama launch 模型选择器优化

改进: ollama launch 命令现在始终显示模型选择器，提供更好的用户体验。

# 启动 Ollama（显示模型选择器）
ollama launch

# 选择模型后进入交互式聊天
# 现在每次都会显示模型选择器

用户体验改进:

更直观的模型选择流程
避免意外使用错误的模型
更一致的交互体验

3. 文档改进 - 集成更容易发现

改进: 更新了文档，使集成信息更容易发现和理解。

改进内容:

更清晰的集成指南
更多的代码示例
更好的 API 文档

访问: https://ollama.com/docs/integration

技术细节

MLX Runner 架构

MLX Runner 是 Ollama 针对 Apple Silicon 的优化后端，提供以下优势:

MLX Runner
├── Apple Silicon 优化
│   ├── M1 系列芯片
│   ├── M2 系列芯片
│   └── M3 系列芯片
├── 统一内存架构
│   ├── CPU 和 GPU 共享内存
│   ├── 减少数据传输
│   └── 提高性能
└── Metal 加速
    ├── Metal Performance Shaders
    ├── Metal Compute
    └── 低延迟推理

性能对比:

后端	设备	推理速度	内存占用
CPU	Intel/AMD	15-20 tok/s	高
CUDA	NVIDIA GPU	40-60 tok/s	中
MLX	Apple M1	30-45 tok/s	低
MLX	Apple M2	45-65 tok/s	低
MLX	Apple M3	50-70 tok/s	低

支持的模型架构

v0.16.3 中 MLX Runner 支持的模型架构:

支持架构:
├── Llama 系列
│   ├── Llama 2
│   ├── Llama 3 ✨ (新增)
│   └── Llama 3.1
├── Gemma 系列
│   ├── Gemma 2
│   └── Gemma 3 ✨ (新增)
├── Qwen 系列
│   ├── Qwen 2
│   └── Qwen 3 ✨ (新增)
├── Mistral 系列
│   ├── Mistral 7B
│   └── Mixtral
└── 其他
    ├── Phi-3
    ├── Yi
    └── DeepSeek

✨ 标记: v0.16.3 新增或改进的支持

贡献者

感谢以下贡献者对 v0.16.3 的贡献:

@hellosaumil - 首次贡献，更新 README 中 macOS 下载链接
@pdevine - MLX Runner 核心改进，新增模型支持
@ParthSareen - launch 命令改进和文档更新

升级指南

从 v0.7.2 升级到 v0.16.3

1. 备份现有模型

# 列出已下载的模型
ollama list

# 备份模型目录
cp -r ~/.ollama ~/.ollama.backup

2. 升级 Ollama

# macOS/Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# 下载并运行最新的安装程序

3. 验证升级

# 检查版本
ollama --version

# 输出: ollama version is 0.16.3

# 测试运行
ollama run llama3 "Hello from v0.16.3!"

4. 使用新的 MLX 功能

# 测试 MLX Runner（Apple Silicon）
ollama run gemma3 --backend mlx

# 查看模型信息（修复的参数计数）
ollama show qwen3

迁移注意事项

版本跨度较大: v0.7.x → v0.16.x，可能有 API 变更
Prerelease 版本: 建议先在测试环境验证
模型兼容性: 大部分模型应该保持兼容
配置文件: 检查旧配置是否需要更新

使用示例

基本用法

# 启动 Ollama（显示模型选择器）
ollama launch

# 选择模型后进行对话
# Hello! 👋

使用 MLX Runner

# 拉取模型
ollama pull llama3
ollama pull gemma3
ollama pull qwen3

# 使用 MLX 后端运行
ollama run llama3 --backend mlx
ollama run gemma3 --backend mlx
ollama run qwen3 --backend mlx

Python API

from ollama import Client

# 创建客户端
client = Client(host='http://localhost:11434')

# 使用新模型
response = client.chat(
    model='gemma3',
    messages=[{'role': 'user', 'content': 'What is machine learning?'}]
)

print(response['message']['content'])

# 使用 MLX 后端（自动检测 Apple Silicon）
response = client.chat(
    model='llama3',
    messages=[{'role': 'user', 'content': '解释一下深度学习'}]
)

print(response['message']['content'])

并发推理（改进的调度）

import asyncio
from ollama import Client

# 创建客户端
client = Client(host='http://localhost:11434')

async def run_concurrent_inference():
    """并发推理示例"""
    prompts = [
        "What is AI?",
        "Explain machine learning",
        "Define deep learning",
        "What is NLP?",
        "What is computer vision?"
    ]

    # 并发执行
    tasks = [
        client.chat_async(
            model='llama3',
            messages=[{'role': 'user', 'content': prompt}]
        )
        for prompt in prompts
    ]

    results = await asyncio.gather(*tasks)

    # 显示结果
    for i, result in enumerate(results, 1):
        print(f"{i}. {prompts[i-1]}")
        print(f"   {result['message']['content'][:100]}...")
        print()

# 运行并发推理
asyncio.run(run_concurrent_inference())

模型信息查看

# 显示模型详细信息（修复的参数计数）
ollama show llama3

# 输出示例:
# Model: llama3
# Parameters: 8.0B
# Quantization: q4_0
# Architecture: llama3
# Context length: 8192
# Backend: MLX

# 显示模型大小
ollama show llama3 --size

# 显示模型参数详情
ollama show llama3 --details

性能优化建议

Apple Silicon 优化

# 使用 MLX 后端（自动检测 Apple Silicon）
ollama run model_name --backend mlx

# 使用 Metal 加速
ollama run model_name --num-gpu 1 --backend mlx

# 调整批处理大小
ollama run model_name --batch-size 512 --backend mlx

内存优化

# 使用量化模型减少内存
ollama pull model_name:q4_0

# 调整上下文大小
ollama run model_name --ctx-size 4096

# 使用低 VRAM 模式
ollama run model_name --low-vram

并发优化

# 设置并发限制
export OLLAMA_NUM_PARALLEL=4

# 调整线程数
ollama run model_name --num-thread 8

# 启用批处理
ollama run model_name --batch-size 1024

已知问题

Prerelease 版本限制

稳定性: 作为预发布版本，可能存在未知 bug
兼容性: 某些旧模型可能需要重新下载
文档: 部分新功能的文档可能不完整
性能: 某些优化仍在改进中

常见问题

Q: v0.16.3 可以用于生产环境吗？
A: 不建议。这是一个预发布版本，建议等待稳定版本发布。

Q: MLX Runner 支持所有模型吗？
A: 不。MLX Runner 支持特定的模型架构，请查看支持列表。

Q: 如何从 v0.7.x 升级到 v0.16.3？
A: 参考升级指南部分，建议先备份并测试。

Q: 参数计数显示还是不准确？
A: 请确保使用 v0.16.3 或更新版本，并重新加载模型。

历史版本

查看之前的版本更新:

总结

Ollama v0.16.3 是一个重要的预发布版本，主要增强了 MLX Runner 的模型支持，为 Apple Silicon 用户提供更好的本地推理体验。关键改进包括:

✅ 3 个新模型系列支持: Gemma 3、Llama 3、Qwen 3
✅ 3 个关键 Bug 修复: 参数计数、线性层、模型调度
✅ 用户体验改进: launch 命令优化、文档改进
✅ Apple Silicon 优化: MLX Runner 性能提升

虽然这是一个预发布版本，但它展示了 Ollama 对 Apple Silicon 平台的持续投入和优化。建议用户在测试环境中体验新功能，并期待未来的稳定版本。

发布信息:

版本: v0.16.3 (Prerelease)
发布日期: 2026-02-19
类型: 预发布版本
文档发布: 2026-02-20

相关资源:

GitHub: https://github.com/ollama/ollama
官网: https://ollama.com/
文档: https://ollama.com/docs

Ollama Release Notes v0.16.3

版本概述

主要更新

🚀 模型支持增强

1. Gemma 3 添加到 MLX Runner

2. Llama 3 架构添加到 MLX Runner

3. Qwen 3 支持添加到 MLX Runner

🐛 Bug 修复

1. 参数计数显示修复

2. 缺失的线性层工厂修复

3. MLX 模型调度改进

🎨 功能改进

1. ollama launch cline CLI 集成

2. ollama launch 模型选择器优化

3. 文档改进 - 集成更容易发现

技术细节

MLX Runner 架构

支持的模型架构

贡献者

升级指南

从 v0.7.2 升级到 v0.16.3

1. 备份现有模型

2. 升级 Ollama

3. 验证升级

4. 使用新的 MLX 功能

迁移注意事项

使用示例

基本用法

使用 MLX Runner

Python API

并发推理（改进的调度）

模型信息查看

性能优化建议

Apple Silicon 优化

内存优化

并发优化

已知问题

Prerelease 版本限制

常见问题

相关链接

历史版本

总结