在當今互聯(lián)網(wǎng)時代,搜索功能已成為連接用戶需求與海量信息的關鍵橋梁。對于美團這樣的本地生活服務平臺而言,搜索體驗的優(yōu)劣直接關系到用戶的決策效率和平臺的商業(yè)價值。面對用戶輸入簡短、模糊、口語化甚至包含錯誤的查詢詞,如何精準理解其真實意圖并返回相關結果,是搜索技術面臨的核心挑戰(zhàn)。查詢改寫技術(Query Rewriting)應運而生,旨在將原始查詢轉化為更能表達用戶意圖、更匹配系統(tǒng)文檔的查詢形式,從而提升搜索的相關性和召回率。
一、查詢改寫技術的核心價值與挑戰(zhàn)
在美團搜索場景下,查詢改寫技術的價值尤為凸顯。用戶搜索“附近好吃的火鍋”,其潛在意圖可能包括尋找高評分、有優(yōu)惠、特定品牌或適合聚會的火鍋店。原始查詢的模糊性可能導致結果不全面或偏差。通過改寫技術,系統(tǒng)可以生成如“海底撈 優(yōu)惠套餐”、“重慶老火鍋 評分4.5以上”、“多人包間火鍋店”等一系列擴展或精煉的查詢,從不同維度滿足用戶需求。
實踐之路充滿挑戰(zhàn):
- 意圖多樣性:同一查詢在不同上下文(如地理位置、時間、用戶歷史)下意圖可能不同。
- 語義鴻溝:用戶自然語言表達與系統(tǒng)內結構化數(shù)據(jù)(如商戶標簽、菜品名稱)之間存在差異。
- 效率與實時性:改寫需要在毫秒級內完成,不能影響搜索的整體響應速度。
- 評估難度:如何準確衡量改寫查詢對最終業(yè)務指標(如點擊率、轉化率)的提升效果。
二、技術探索:從規(guī)則到深度學習
美團搜索團隊在查詢改寫技術的演進上,大致經歷了三個階段:
1. 基于規(guī)則與詞典的初級階段
早期主要依賴人工的規(guī)則、同義詞詞典和熱門查詢模板。例如,將“火鍋”關聯(lián)到“四川火鍋”、“涮羊肉”,或將“好吃的”標準化為“高評分”。這種方法直觀可控,但覆蓋范圍有限,難以應對層出不窮的新表達和復雜語義,維護成本高昂。
2. 基于傳統(tǒng)機器學習的演進
隨著數(shù)據(jù)積累,開始采用統(tǒng)計機器學習方法。例如,通過分析海量搜索日志,挖掘查詢詞之間的共現(xiàn)關系、會話關聯(lián),構建查詢擴展模型。隱式反饋數(shù)據(jù)(如點擊、購買)被用來學習查詢與文檔的相關性,從而指導改寫。這類方法數(shù)據(jù)驅動,覆蓋能力更強,但對特征工程的依賴較大。
3. 基于深度學習的深化應用
當前,深度學習已成為主流。美團探索并實踐了多種先進模型:
- 序列到序列(Seq2Seq)模型:將原始查詢作為輸入,直接生成改寫后的查詢。通過引入注意力機制,提升生成質量。
- 預訓練語言模型(如BERT、ERNIE)的應用:利用其在語義理解上的強大能力,進行查詢意圖分類、查詢對相關性判斷以及生成式改寫。例如,通過微調預訓練模型來識別“附近口碑好的川菜館”中的核心意圖(菜系:川菜)、屬性(口碑好)和范圍(附近)。
- 融合知識圖譜:將美團豐富的本地生活知識圖譜(包含商戶、菜品、地點、屬性等實體及關系)融入改寫過程。例如,當用戶搜索“星巴克新品”,系統(tǒng)能識別“星巴克”為品牌實體,并關聯(lián)知識圖譜中該品牌當前季度的實際新品名稱進行精準改寫或補充。
- 強化學習優(yōu)化:將整個搜索排序環(huán)節(jié)作為環(huán)境,以最終的用戶滿意指標(如下單率)作為獎勵,訓練改寫模型,使其生成能導向更優(yōu)最終結果的查詢。
三、工程實踐:系統(tǒng)架構與效果評估
在工程落地上,美團構建了高效、穩(wěn)定的查詢改寫系統(tǒng)。其核心架構通常包括:
- 實時分析模塊:對用戶原始查詢進行快速解析、分詞、實體識別。
- 多路召回策略:并行觸發(fā)基于規(guī)則的改寫、基于模型(深度學習模型)的改寫以及基于實時熱點(如突發(fā)新聞、新上架商品)的改寫。
- 融合與排序模塊:對多路產生的候選改寫查詢進行去重、相關性打分和排序,選取最可能提升搜索體驗的Top N個改寫查詢,送入后續(xù)的召回與排序引擎。
- 在線學習與更新:系統(tǒng)能夠根據(jù)線上實時反饋數(shù)據(jù),快速調整模型或策略,適應變化。
效果評估體系分為離線評估和在線A/B測試:
- 離線評估:使用人工標注的測試集評估改寫的準確性、相關性和流暢度;計算改寫查詢與點擊文檔之間的語義相關性指標。
- 在線A/B測試:這是黃金標準。通過對比實驗,直接觀察引入或優(yōu)化改寫技術后,對核心業(yè)務指標如查詢滿意度、點擊率、轉化率、交易金額等的影響。只有在線實驗證明有顯著正向收益的技術迭代才會被全量發(fā)布。
四、未來展望
查詢改寫技術的探索永無止境。美團搜索將繼續(xù)在以下方向深化實踐:
- 多模態(tài)與跨模態(tài)理解:結合用戶上傳的圖片、語音進行查詢改寫。例如,用戶拍攝一種菜品圖片搜索,系統(tǒng)能準確識別并改寫為對應的菜名及相關查詢。
- 個性化與上下文感知:更深層次地融合用戶畫像、實時地理位置、歷史行為乃至當前會話的上下文,提供“千人千面”的精準改寫。
- 可解釋性與可控性:讓深度學習模型不再是“黑箱”,使改寫結果對運營和產品人員更可理解、可干預,平衡算法的智能與業(yè)務規(guī)則的控制。
- 端到端聯(lián)合優(yōu)化:將查詢改寫與文檔召回、結果排序等下游任務進行更緊密的端到端聯(lián)合建模與優(yōu)化,追求全局最優(yōu)的搜索體驗。
###
美團搜索中的查詢改寫技術,是從簡單規(guī)則到復雜AI系統(tǒng)不斷演進的縮影。它不僅是自然語言處理技術的應用舞臺,更是深刻理解用戶、連接線下豐富服務的關鍵一環(huán)。通過持續(xù)的技術探索與扎實的工程實踐,美團致力于讓每一次搜索都更智能、更貼心,最終實現(xiàn)“幫大家吃得更好,生活更好”的使命。這背后,是計算機信息技術咨詢服務所倡導的以技術驅動業(yè)務、以數(shù)據(jù)賦能決策的核心理念的生動體現(xiàn)。