Ollama Release Notes v0.16.3

本文整理了 Ollama v0.16.3 的版本更新日志,这是一个预发布版本(Prerelease),主要增强了 MLX Runner 的模型支持、修复了多个 bug 并改进了用户体验。

注意: v0.16.3 是预发布版本,面向早期采用者和测试用户。生产环境建议使用最新的稳定版本。

Ollama Release Notes v0.16.3

发布日期: 2026-02-19
版本类型: Prerelease(预发布)
GitHub: https://github.com/ollama/ollama/releases/tag/v0.16.3

版本概述

Ollama v0.16.3 是一个预发布版本,专注于增强 MLX Runner 的模型支持、修复关键 bug 并改进用户体验。此版本特别优化了 Apple Silicon(M1/M2/M3)上的本地推理体验,为用户提供了更广泛的模型选择和更稳定的运行环境。

主要更新

🚀 模型支持增强

1. Gemma 3 添加到 MLX Runner

新增模型支持: Google Gemma 3 系列

MLX Runner 现在支持 Gemma 3 模型,进一步扩展了 Apple Silicon 设备上的模型选择。

1
2
3
4
5
6
7
8
# 拉取 Gemma 3 模型
ollama pull gemma3

# 运行 Gemma 3 推理
ollama run gemma3 "What is the future of AI?"

# 使用 MLX Runner 运行(Apple Silicon)
ollama run gemma3 --backend mlx

特性:

  • 支持 Gemma 3 的不同参数规模
  • 优化的 Apple Silicon 推理性能
  • 完整的 MLX 框架集成

2. Llama 3 架构添加到 MLX Runner

新增架构支持: Llama 3 模型家族

MLX Runner 现在原生支持 Llama 3 架构,提供更好的 Apple Silicon 性能。

1
2
3
4
5
6
7
8
# 拉取 Llama 3 模型
ollama pull llama3

# 使用 MLX Runner 运行
ollama run llama3 --backend mlx

# 查看模型信息
ollama show llama3

改进:

  • 原生 Llama 3 架构支持
  • 更高效的内存管理
  • 改进的推理速度

3. Qwen 3 支持添加到 MLX Runner

新增模型系列: Alibaba Qwen 3

MLX Runner 新增对 Qwen 3 系列模型的支持,扩展了中文和多语言模型的本地推理能力。

1
2
3
4
5
6
7
8
# 拉取 Qwen 3 模型
ollama pull qwen3

# 运行 Qwen 3 推理
ollama run qwen3 "介绍一下人工智能的发展历程"

# 使用 MLX Runner
ollama run qwen3 --backend mlx

🐛 Bug 修复

1. 参数计数显示修复

问题: 在 MLX 框架下,ollama show 命令无法正确显示模型的参数计数。

修复: 现在能够准确显示模型参数数量。

1
2
3
4
5
6
7
8
# 显示模型信息
ollama show llama3

# 输出示例
Model: llama3
Parameters: 8.0B
Quantization: q4_0
Backend: MLX

影响: 用户现在可以准确地查看和了解模型的规模。

2. 缺失的线性层工厂修复

问题: MLX Runner 中缺少某些线性层的工厂方法,导致部分模型无法正确加载。

修复: 添加了缺失的线性层工厂,确保所有支持的模型都能正常加载。

影响: 提高了模型加载的成功率和稳定性。

3. MLX 模型调度改进

问题: 在多个模型并发运行时,MLX Runner 的调度效率不够理想。

修复: 优化了 MLX 模型调度算法,改进了并发性能。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
from ollama import Client
import asyncio

# 创建客户端
client = Client(host='http://localhost:11434')

# 并发推理(改进的调度)
async def concurrent_inference():
tasks = [
client.chat_async(model='llama3', messages=[{'role': 'user', 'content': f'Query {i}'}])
for i in range(5)
]
results = await asyncio.gather(*tasks)
return results

# 执行并发推理
results = asyncio.run(concurrent_inference())
print(f"处理了 {len(results)} 个并发请求")

影响: 提高了 Apple Silicon 设备上的并发推理性能。

🎨 功能改进

1. ollama launch cline CLI 集成

新功能: Ollama 现在支持 cline CLI,扩展了命令行工具的集成能力。

1
2
3
4
5
# 使用 cline CLI 启动 Ollama
ollama launch cline

# 查看可用的 launch 选项
ollama launch --help

用途:

  • 更灵活的启动选项
  • 更好的 CLI 工具集成
  • 简化的工作流程

2. ollama launch 模型选择器优化

改进: ollama launch 命令现在始终显示模型选择器,提供更好的用户体验。

1
2
3
4
5
# 启动 Ollama(显示模型选择器)
ollama launch

# 选择模型后进入交互式聊天
# 现在每次都会显示模型选择器

用户体验改进:

  • 更直观的模型选择流程
  • 避免意外使用错误的模型
  • 更一致的交互体验

3. 文档改进 - 集成更容易发现

改进: 更新了文档,使集成信息更容易发现和理解。

改进内容:

  • 更清晰的集成指南
  • 更多的代码示例
  • 更好的 API 文档

访问: https://ollama.com/docs/integration

技术细节

MLX Runner 架构

MLX Runner 是 Ollama 针对 Apple Silicon 的优化后端,提供以下优势:

1
2
3
4
5
6
7
8
9
10
11
12
13
MLX Runner
├── Apple Silicon 优化
│ ├── M1 系列芯片
│ ├── M2 系列芯片
│ └── M3 系列芯片
├── 统一内存架构
│ ├── CPU 和 GPU 共享内存
│ ├── 减少数据传输
│ └── 提高性能
└── Metal 加速
├── Metal Performance Shaders
├── Metal Compute
└── 低延迟推理

性能对比:

后端 设备 推理速度 内存占用
CPU Intel/AMD 15-20 tok/s
CUDA NVIDIA GPU 40-60 tok/s
MLX Apple M1 30-45 tok/s
MLX Apple M2 45-65 tok/s
MLX Apple M3 50-70 tok/s

支持的模型架构

v0.16.3 中 MLX Runner 支持的模型架构:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
支持架构:
├── Llama 系列
│ ├── Llama 2
│ ├── Llama 3 ✨ (新增)
│ └── Llama 3.1
├── Gemma 系列
│ ├── Gemma 2
│ └── Gemma 3 ✨ (新增)
├── Qwen 系列
│ ├── Qwen 2
│ └── Qwen 3 ✨ (新增)
├── Mistral 系列
│ ├── Mistral 7B
│ └── Mixtral
└── 其他
├── Phi-3
├── Yi
└── DeepSeek

✨ 标记: v0.16.3 新增或改进的支持

贡献者

感谢以下贡献者对 v0.16.3 的贡献:

  • @hellosaumil - 首次贡献,更新 README 中 macOS 下载链接
  • @pdevine - MLX Runner 核心改进,新增模型支持
  • @ParthSareen - launch 命令改进和文档更新

升级指南

从 v0.7.2 升级到 v0.16.3

1. 备份现有模型

1
2
3
4
5
# 列出已下载的模型
ollama list

# 备份模型目录
cp -r ~/.ollama ~/.ollama.backup

2. 升级 Ollama

1
2
3
4
5
# macOS/Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# 下载并运行最新的安装程序

3. 验证升级

1
2
3
4
5
6
7
# 检查版本
ollama --version

# 输出: ollama version is 0.16.3

# 测试运行
ollama run llama3 "Hello from v0.16.3!"

4. 使用新的 MLX 功能

1
2
3
4
5
# 测试 MLX Runner(Apple Silicon)
ollama run gemma3 --backend mlx

# 查看模型信息(修复的参数计数)
ollama show qwen3

迁移注意事项

  1. 版本跨度较大: v0.7.x → v0.16.x,可能有 API 变更
  2. Prerelease 版本: 建议先在测试环境验证
  3. 模型兼容性: 大部分模型应该保持兼容
  4. 配置文件: 检查旧配置是否需要更新

使用示例

基本用法

1
2
3
4
5
# 启动 Ollama(显示模型选择器)
ollama launch

# 选择模型后进行对话
# Hello! 👋

使用 MLX Runner

1
2
3
4
5
6
7
8
9
# 拉取模型
ollama pull llama3
ollama pull gemma3
ollama pull qwen3

# 使用 MLX 后端运行
ollama run llama3 --backend mlx
ollama run gemma3 --backend mlx
ollama run qwen3 --backend mlx

Python API

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
from ollama import Client

# 创建客户端
client = Client(host='http://localhost:11434')

# 使用新模型
response = client.chat(
model='gemma3',
messages=[{'role': 'user', 'content': 'What is machine learning?'}]
)

print(response['message']['content'])

# 使用 MLX 后端(自动检测 Apple Silicon)
response = client.chat(
model='llama3',
messages=[{'role': 'user', 'content': '解释一下深度学习'}]
)

print(response['message']['content'])

并发推理(改进的调度)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
import asyncio
from ollama import Client

# 创建客户端
client = Client(host='http://localhost:11434')

async def run_concurrent_inference():
"""并发推理示例"""
prompts = [
"What is AI?",
"Explain machine learning",
"Define deep learning",
"What is NLP?",
"What is computer vision?"
]

# 并发执行
tasks = [
client.chat_async(
model='llama3',
messages=[{'role': 'user', 'content': prompt}]
)
for prompt in prompts
]

results = await asyncio.gather(*tasks)

# 显示结果
for i, result in enumerate(results, 1):
print(f"{i}. {prompts[i-1]}")
print(f" {result['message']['content'][:100]}...")
print()

# 运行并发推理
asyncio.run(run_concurrent_inference())

模型信息查看

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# 显示模型详细信息(修复的参数计数)
ollama show llama3

# 输出示例:
# Model: llama3
# Parameters: 8.0B
# Quantization: q4_0
# Architecture: llama3
# Context length: 8192
# Backend: MLX

# 显示模型大小
ollama show llama3 --size

# 显示模型参数详情
ollama show llama3 --details

性能优化建议

Apple Silicon 优化

1
2
3
4
5
6
7
8
# 使用 MLX 后端(自动检测 Apple Silicon)
ollama run model_name --backend mlx

# 使用 Metal 加速
ollama run model_name --num-gpu 1 --backend mlx

# 调整批处理大小
ollama run model_name --batch-size 512 --backend mlx

内存优化

1
2
3
4
5
6
7
8
# 使用量化模型减少内存
ollama pull model_name:q4_0

# 调整上下文大小
ollama run model_name --ctx-size 4096

# 使用低 VRAM 模式
ollama run model_name --low-vram

并发优化

1
2
3
4
5
6
7
8
# 设置并发限制
export OLLAMA_NUM_PARALLEL=4

# 调整线程数
ollama run model_name --num-thread 8

# 启用批处理
ollama run model_name --batch-size 1024

已知问题

Prerelease 版本限制

  1. 稳定性: 作为预发布版本,可能存在未知 bug
  2. 兼容性: 某些旧模型可能需要重新下载
  3. 文档: 部分新功能的文档可能不完整
  4. 性能: 某些优化仍在改进中

常见问题

Q: v0.16.3 可以用于生产环境吗?
A: 不建议。这是一个预发布版本,建议等待稳定版本发布。

Q: MLX Runner 支持所有模型吗?
A: 不。MLX Runner 支持特定的模型架构,请查看支持列表。

Q: 如何从 v0.7.x 升级到 v0.16.3?
A: 参考升级指南部分,建议先备份并测试。

Q: 参数计数显示还是不准确?
A: 请确保使用 v0.16.3 或更新版本,并重新加载模型。

相关链接

历史版本

查看之前的版本更新:

总结

Ollama v0.16.3 是一个重要的预发布版本,主要增强了 MLX Runner 的模型支持,为 Apple Silicon 用户提供更好的本地推理体验。关键改进包括:

  • 3 个新模型系列支持: Gemma 3、Llama 3、Qwen 3
  • 3 个关键 Bug 修复: 参数计数、线性层、模型调度
  • 用户体验改进: launch 命令优化、文档改进
  • Apple Silicon 优化: MLX Runner 性能提升

虽然这是一个预发布版本,但它展示了 Ollama 对 Apple Silicon 平台的持续投入和优化。建议用户在测试环境中体验新功能,并期待未来的稳定版本。


发布信息:

  • 版本: v0.16.3 (Prerelease)
  • 发布日期: 2026-02-19
  • 类型: 预发布版本
  • 文档发布: 2026-02-20

相关资源: