阿里巴巴開源創新大模型搜索引擎ZeroSearch
昨日5月8日, 宣布開源一款創新的大模型搜索引擎框架——ZeroSearch。該系統基於強化學習技術,無需連接真實搜索引擎即可激發大型語言模型的內在檢索潛力,顯著降低運作成本並提升可控性。
核心技術原理
- 知識轉化機制
ZeroSearch通過輕量級監督微調,將大型語言模型在大規模預訓練中積累的知識轉化為內置檢索模塊。此模塊能根據輸入查詢生成相關內容,並動態調整生成文本的質量水平。此功能突破了傳統搜索引擎僅能提供固定結果的限制。 - 交互軌跡學習
研究團隊採用「真實搜索軌跡模擬」策略:- 記錄模型與搜索引擎的多輪交互過程(包含查詢發起、文檔返回、答案生成)
- 標註正負樣本(正樣本對應正確答案的文檔組合,負樣本標記干擾性檢索結果)
- 通過調整提示模板中的關鍵詞(如加入「有用信息」「噪聲信息」),引導模型學習質量分級檢索
性能與成本優勢
- 基準測試表現
- 70億參數模型經ZeroSearch優化後,搜索效能達33.06
- 140億參數模型提升至33.97,超越Google搜索的32.47基準
- 運作成本對比
訓練方式 設備配置 單次訓練成本 成本降幅 傳統Google搜索 SerpAPI調用 586.70美元 基準值 ZeroSearch模擬 4×A100 GPU 70.80美元 87.9%↓
技術突破與產業意義
- 強化學習創新應用
- 整合近端策略優化(PPO)與組相對策略優化(GRPO),通過最大化獎勵函數訓練模型
- 設計基於F1分數的動態獎勵機制,平衡檢索精確度與覆蓋率
- 引入損失掩蔽技術,排除外部文檔標記的噪聲干擾
- 課程學習機制
採用漸進式難度調整策略:- 初期訓練側重高質量文檔生成,建立基礎檢索框架
- 後期逐步增加噪聲文檔比例,強化模型抗干擾能力
- 通過概率函數動態控制噪聲注入強度
- 結構化交互模板
設計三階段標籤系統(<推理>
、<搜索>
、<回答>
),實現:- 內部思考過程可視化
- 檢索需求自主觸發
- 外部知識整合透明化
產業影響與應用前景
- 解決現有RAG技術痛點
早期檢索增強生成(RAG)技術高度依賴提示工程與模型推理能力,ZeroSearch透過強化學習框架降低對人工設計提示的依賴,同時減少約80%的運算資源消耗。 - 突破商業搜索依賴
相較於Search-R1、ReSearch等需結合Google搜索的混合方案,ZeroSearch完全基於模型內生能力,避免商業API授權限制與數據外流風險。 - 動態質量控制潛力
生成文檔質量可根據應用場景實時調整(如學術檢索需高精度,創意生成需多樣性),為個性化搜索服務奠定技術基礎。
此項開源成果預計將推動語言模型在垂直領域的深度應用,特別是醫療、法律等對檢索準確性與成本敏感的行業。未來研究方向包括跨語言檢索優化與多模態內容生成整合。