2026-02-24

AI

AWQ 模型量化技术：激活感知的权重量化革命

AWQ（Activation-aware Weight Quantization）获得 MLSys 2024 最佳论文奖，通过激活感知的权重量化，在保持 95% 精度的同时实现 1.45× 的推理加速，让大模型在消费级 GPU 上成为可能。

2026-02-23

AI

Reranker 模型：RAG 系统的精炼排序器

在 RAG（检索增强生成）系统中，嵌入模型负责高效召回，而 Reranker 模型则负责精炼排序，将初始召回结果重新排列，提升最终的相关性。本文将介绍阿里巴巴 Qwen3-Reranker-0.6B 和 JiNAi 的 Jina Reranker v3，对比它们的核心特性，并探讨 Reranker 在生产环境中的应用场景。

2026-02-22

Open-Sources

Google EmbeddingGemma：高效多语言文本嵌入模型

Google DeepMind 近日开源了 EmbeddingGemma，一个紧凑、高效的文本嵌入模型。在 RAG（检索增强生成）和语义搜索应用中，文本嵌入是核心组件。本文将介绍 EmbeddingGemma 的核心特性，并与阿里巴巴的 Qwen3-Embedding 进行对比，最后扩展到 Qwen3-VL-Embedding 的多模态能力。

2026-02-22

Open-Sources

Reciprocal Rank Fusion (RRF) 与混合检索：RAG 系统的高级排序策略

检索增强生成（RAG）已成为现代 LLM 应用的核心，但有个鲜为人知的秘密：检索阶段往往决定了整个系统的成败。如果你的检索器无法获取相关文档，生成模型会带着确信度产生幻觉，无论怎么优化 prompt 都无济于事。

作为拥有生产经验的后端工程师，你可能已经遇到过这个问题。你可能尝试过向量搜索来理解语义，关键词搜索来匹配精确词项，甚至两者结合使用。但将这些检索方法合并成统一、相关的结果集比看起来要难得多。

本文将深入探讨 Reciprocal Rank Fusion (RRF)——这是 Azure AI Search、Elasticsearch 和 OpenSearch 中驱动混合搜索的算法。我们将探讨它的工作原理、如何实现它，以及在何时使用更高级的重排序策略如 cross-encoder 和 ColBERT。

2026-02-21

Open-Sources

MySQL Redo Log 深度解析：从架构设计到技术原理

本文深入剖析 MySQL InnoDB 存储引擎的核心组件——Redo Log（重做日志）。从架构设计到技术原理，用面向资深工程师的视角详解 Write-Ahead Logging（WAL）机制、LSN 系统、崩溃恢复以及性能优化策略。

2026-02-21

AI

激活函数系列（二）：Softmax - 从入门到精通

本文深入介绍深度学习中最核心的多分类激活函数：Softmax 函数。从数学原理到实际应用，用通俗易懂的方式带你理解这个将 logits 转换为概率分布的强大工具。

2026-02-21

AI

激活函数系列（一）：Sigmoid - 从入门到精通

本文深入介绍深度学习中最经典的激活函数之一：Sigmoid 函数。从数学原理到实际应用，用通俗易懂的方式带你理解这个重要的算法组件。

2026-02-20

Release-Notes

Ollama Release Notes v0.16.3

本文整理了 Ollama v0.16.3 的版本更新日志，这是一个预发布版本（Prerelease），主要增强了 MLX Runner 的模型支持、修复了多个 bug 并改进了用户体验。

注意: v0.16.3 是预发布版本，面向早期采用者和测试用户。生产环境建议使用最新的稳定版本。

2026-02-20

News

AI早报-2026.02.20

🤖 AI早报-2026.02.20 周四

自动采集的AI领域最新动态，每日更新

今日AI领域共有 25 条重要动态：Google 发布 Gemini 3.1 Pro 增强推理模型；Meta 与 NVIDIA 达成百亿美元芯片采购协议；NVIDIA 推出 Rubin 平台六款新芯片；Google DeepMind 发布 Lyria 3 音乐生成模型；阿里发布 Qwen3.5 AI 智能体平台。

2026-02-18

Open-Sources

GitHub REST API v3 常用端点完全指南

GitHub REST API v3 提供了一套完整的、公开的 JSON 接口供开发者使用。本文详细介绍常见的 GitHub API v3 端点，包括仓库管理、用户资料、搜索功能、组织管理等，并通过实际代码示例展示如何使用这些无需认证即可调用的公开接口。