AWQ(Activation-aware Weight Quantization)获得 MLSys 2024 最佳论文奖,通过激活感知的权重量化,在保持 95% 精度的同时实现 1.45× 的推理加速,让大模型在消费级 GPU 上成为可能。
Reranker 模型:RAG 系统的精炼排序器
在 RAG(检索增强生成)系统中,嵌入模型负责高效召回,而 Reranker 模型则负责精炼排序,将初始召回结果重新排列,提升最终的相关性。本文将介绍阿里巴巴 Qwen3-Reranker-0.6B 和 JiNAi 的 Jina Reranker v3,对比它们的核心特性,并探讨 Reranker 在生产环境中的应用场景。
Google EmbeddingGemma:高效多语言文本嵌入模型
Reciprocal Rank Fusion (RRF) 与混合检索:RAG 系统的高级排序策略
检索增强生成(RAG)已成为现代 LLM 应用的核心,但有个鲜为人知的秘密:检索阶段往往决定了整个系统的成败。如果你的检索器无法获取相关文档,生成模型会带着确信度产生幻觉,无论怎么优化 prompt 都无济于事。
作为拥有生产经验的后端工程师,你可能已经遇到过这个问题。你可能尝试过向量搜索来理解语义,关键词搜索来匹配精确词项,甚至两者结合使用。但将这些检索方法合并成统一、相关的结果集比看起来要难得多。
本文将深入探讨 Reciprocal Rank Fusion (RRF)——这是 Azure AI Search、Elasticsearch 和 OpenSearch 中驱动混合搜索的算法。我们将探讨它的工作原理、如何实现它,以及在何时使用更高级的重排序策略如 cross-encoder 和 ColBERT。
MySQL Redo Log 深度解析:从架构设计到技术原理
本文深入剖析 MySQL InnoDB 存储引擎的核心组件——Redo Log(重做日志)。从架构设计到技术原理,用面向资深工程师的视角详解 Write-Ahead Logging(WAL)机制、LSN 系统、崩溃恢复以及性能优化策略。
激活函数系列(二):Softmax - 从入门到精通
本文深入介绍深度学习中最核心的多分类激活函数:Softmax 函数。从数学原理到实际应用,用通俗易懂的方式带你理解这个将 logits 转换为概率分布的强大工具。
激活函数系列(一):Sigmoid - 从入门到精通
本文深入介绍深度学习中最经典的激活函数之一:Sigmoid 函数。从数学原理到实际应用,用通俗易懂的方式带你理解这个重要的算法组件。
Ollama Release Notes v0.16.3
本文整理了 Ollama v0.16.3 的版本更新日志,这是一个预发布版本(Prerelease),主要增强了 MLX Runner 的模型支持、修复了多个 bug 并改进了用户体验。
注意: v0.16.3 是预发布版本,面向早期采用者和测试用户。生产环境建议使用最新的稳定版本。
AI早报-2026.02.20
GitHub REST API v3 常用端点完全指南
GitHub REST API v3 提供了一套完整的、公开的 JSON 接口供开发者使用。本文详细介绍常见的 GitHub API v3 端点,包括仓库管理、用户资料、搜索功能、组织管理等,并通过实际代码示例展示如何使用这些无需认证即可调用的公开接口。