本文整理了 Ollama v0.16.3 的版本更新日志,这是一个预发布版本(Prerelease),主要增强了 MLX Runner 的模型支持、修复了多个 bug 并改进了用户体验。
注意: v0.16.3 是预发布版本,面向早期采用者和测试用户。生产环境建议使用最新的稳定版本。
Ollama Release Notes v0.16.3
发布日期: 2026-02-19
版本类型: Prerelease(预发布)
GitHub: https://github.com/ollama/ollama/releases/tag/v0.16.3
版本概述
Ollama v0.16.3 是一个预发布版本,专注于增强 MLX Runner 的模型支持、修复关键 bug 并改进用户体验。此版本特别优化了 Apple Silicon(M1/M2/M3)上的本地推理体验,为用户提供了更广泛的模型选择和更稳定的运行环境。
主要更新
🚀 模型支持增强
1. Gemma 3 添加到 MLX Runner
新增模型支持: Google Gemma 3 系列
MLX Runner 现在支持 Gemma 3 模型,进一步扩展了 Apple Silicon 设备上的模型选择。
1 | # 拉取 Gemma 3 模型 |
特性:
- 支持 Gemma 3 的不同参数规模
- 优化的 Apple Silicon 推理性能
- 完整的 MLX 框架集成
2. Llama 3 架构添加到 MLX Runner
新增架构支持: Llama 3 模型家族
MLX Runner 现在原生支持 Llama 3 架构,提供更好的 Apple Silicon 性能。
1 | # 拉取 Llama 3 模型 |
改进:
- 原生 Llama 3 架构支持
- 更高效的内存管理
- 改进的推理速度
3. Qwen 3 支持添加到 MLX Runner
新增模型系列: Alibaba Qwen 3
MLX Runner 新增对 Qwen 3 系列模型的支持,扩展了中文和多语言模型的本地推理能力。
1 | # 拉取 Qwen 3 模型 |
🐛 Bug 修复
1. 参数计数显示修复
问题: 在 MLX 框架下,ollama show 命令无法正确显示模型的参数计数。
修复: 现在能够准确显示模型参数数量。
1 | # 显示模型信息 |
影响: 用户现在可以准确地查看和了解模型的规模。
2. 缺失的线性层工厂修复
问题: MLX Runner 中缺少某些线性层的工厂方法,导致部分模型无法正确加载。
修复: 添加了缺失的线性层工厂,确保所有支持的模型都能正常加载。
影响: 提高了模型加载的成功率和稳定性。
3. MLX 模型调度改进
问题: 在多个模型并发运行时,MLX Runner 的调度效率不够理想。
修复: 优化了 MLX 模型调度算法,改进了并发性能。
1 | from ollama import Client |
影响: 提高了 Apple Silicon 设备上的并发推理性能。
🎨 功能改进
1. ollama launch cline CLI 集成
新功能: Ollama 现在支持 cline CLI,扩展了命令行工具的集成能力。
1 | # 使用 cline CLI 启动 Ollama |
用途:
- 更灵活的启动选项
- 更好的 CLI 工具集成
- 简化的工作流程
2. ollama launch 模型选择器优化
改进: ollama launch 命令现在始终显示模型选择器,提供更好的用户体验。
1 | # 启动 Ollama(显示模型选择器) |
用户体验改进:
- 更直观的模型选择流程
- 避免意外使用错误的模型
- 更一致的交互体验
3. 文档改进 - 集成更容易发现
改进: 更新了文档,使集成信息更容易发现和理解。
改进内容:
- 更清晰的集成指南
- 更多的代码示例
- 更好的 API 文档
访问: https://ollama.com/docs/integration
技术细节
MLX Runner 架构
MLX Runner 是 Ollama 针对 Apple Silicon 的优化后端,提供以下优势:
1 | MLX Runner |
性能对比:
| 后端 | 设备 | 推理速度 | 内存占用 |
|---|---|---|---|
| CPU | Intel/AMD | 15-20 tok/s | 高 |
| CUDA | NVIDIA GPU | 40-60 tok/s | 中 |
| MLX | Apple M1 | 30-45 tok/s | 低 |
| MLX | Apple M2 | 45-65 tok/s | 低 |
| MLX | Apple M3 | 50-70 tok/s | 低 |
支持的模型架构
v0.16.3 中 MLX Runner 支持的模型架构:
1 | 支持架构: |
✨ 标记: v0.16.3 新增或改进的支持
贡献者
感谢以下贡献者对 v0.16.3 的贡献:
- @hellosaumil - 首次贡献,更新 README 中 macOS 下载链接
- @pdevine - MLX Runner 核心改进,新增模型支持
- @ParthSareen - launch 命令改进和文档更新
升级指南
从 v0.7.2 升级到 v0.16.3
1. 备份现有模型
1 | # 列出已下载的模型 |
2. 升级 Ollama
1 | # macOS/Linux |
3. 验证升级
1 | # 检查版本 |
4. 使用新的 MLX 功能
1 | # 测试 MLX Runner(Apple Silicon) |
迁移注意事项
- 版本跨度较大: v0.7.x → v0.16.x,可能有 API 变更
- Prerelease 版本: 建议先在测试环境验证
- 模型兼容性: 大部分模型应该保持兼容
- 配置文件: 检查旧配置是否需要更新
使用示例
基本用法
1 | # 启动 Ollama(显示模型选择器) |
使用 MLX Runner
1 | # 拉取模型 |
Python API
1 | from ollama import Client |
并发推理(改进的调度)
1 | import asyncio |
模型信息查看
1 | # 显示模型详细信息(修复的参数计数) |
性能优化建议
Apple Silicon 优化
1 | # 使用 MLX 后端(自动检测 Apple Silicon) |
内存优化
1 | # 使用量化模型减少内存 |
并发优化
1 | # 设置并发限制 |
已知问题
Prerelease 版本限制
- 稳定性: 作为预发布版本,可能存在未知 bug
- 兼容性: 某些旧模型可能需要重新下载
- 文档: 部分新功能的文档可能不完整
- 性能: 某些优化仍在改进中
常见问题
Q: v0.16.3 可以用于生产环境吗?
A: 不建议。这是一个预发布版本,建议等待稳定版本发布。
Q: MLX Runner 支持所有模型吗?
A: 不。MLX Runner 支持特定的模型架构,请查看支持列表。
Q: 如何从 v0.7.x 升级到 v0.16.3?
A: 参考升级指南部分,建议先备份并测试。
Q: 参数计数显示还是不准确?
A: 请确保使用 v0.16.3 或更新版本,并重新加载模型。
相关链接
- GitHub Release: https://github.com/ollama/ollama/releases/tag/v0.16.3
- 完整变更日志: v0.16.2…v0.16.3-rc2
- 官方文档: https://ollama.com/docs
- 模型库: https://ollama.com/library
- 问题反馈: https://github.com/ollama/ollama/issues
历史版本
查看之前的版本更新:
总结
Ollama v0.16.3 是一个重要的预发布版本,主要增强了 MLX Runner 的模型支持,为 Apple Silicon 用户提供更好的本地推理体验。关键改进包括:
- ✅ 3 个新模型系列支持: Gemma 3、Llama 3、Qwen 3
- ✅ 3 个关键 Bug 修复: 参数计数、线性层、模型调度
- ✅ 用户体验改进: launch 命令优化、文档改进
- ✅ Apple Silicon 优化: MLX Runner 性能提升
虽然这是一个预发布版本,但它展示了 Ollama 对 Apple Silicon 平台的持续投入和优化。建议用户在测试环境中体验新功能,并期待未来的稳定版本。
发布信息:
- 版本: v0.16.3 (Prerelease)
- 发布日期: 2026-02-19
- 类型: 预发布版本
- 文档发布: 2026-02-20
相关资源: