生成式搜索与推荐:LLM时代的信息获取新范式

2026年5月2日 · 426 字 · 2 分钟 · Llm 推荐系统 信息检索 生成式ai 搜索

前置说明:本文是对6篇2024-2025年顶会/预印本核心论文的精读整理,涵盖:LLM时代生成式搜索与推荐综述[2404.16924]、GenSAR统一框架[2504.05730]、高德IntSR工业落地[2509.21179]、Amazon SynerGen[2509.21777]、GEMRec开山之作[2308.02205]、生成推荐数据模型任务综述[2510.27157]。


从"匹配"到"生成":范式转变的本质

过去三十年,搜索与推荐系统经历了三次技术范式更迭:

范式核心思想代表方法
机器学习时代学习排序函数,预测query-doc或user-item相关性分数Learning to Rank、矩阵分解
深度学习时代用神经网络将query/文档编码为稠密向量,学习非线性匹配函数BERT双塔、NCF、GNN推荐
生成式时代直接生成目标文档或物品标识符,而非在候选集上做判别排序LLM作为可微分检索索引(DSI)

关键区别:前两代是判别式——在已知候选集中打分量、排序。生成式是生成式——给定用户/查询,直接生成目标内容的标识符(identifier),做到真正的"端到端"。

这一转变的推力是llm(LLM)的崛起。LLM本身是生成模型,其规模涌现出的世界知识、语义理解、推理能力,天然适合解决信息匹配问题。


生成式框架的四个核心步骤

无论搜索还是推荐,生成式范式都遵循统一框架,可分为四个阶段:

用户/查询表示 → 物品标识符设计 → 模型训练 → 推理生成

2.1 搜索:Query Formulation

搜索场景中,用户通过文本query直接表达信息需求。但在多轮对话QA多跳推理QA中,需要将对话上下文或前跳答案拼接到当前query中。

2.2 推荐:User Formulation

推荐没有显式query,需要将用户信息转换为文本序列。输入通常包含四类组件:

  1. 任务描述——用自然语言告诉LLM这是"根据历史行为推荐下一个商品"的任务
  2. 历史交互——用户点击/购买过的商品序列(最关键的信号来源)
  3. 用户画像——人口统计信息(性别、年龄)、偏好标签
  4. 上下文信息——时间、地理位置等环境因素

2.3 物品标识符:核心设计空间

直接生成完整商品描述是不现实的(太长、无法约束输出)。核心解决方案是物品标识符——用一段短文本序列代表每个物品。

标识符类型对比

类型代表方法语义性区分性可更新性典型问题
数字IDDSI、TIGER缺乏语义,冷启动差
文本元数据(标题/描述)GENRE、P5长度问题、Out-of-corpus
N-gram片段SEAL部分一对多,需转换函数
Codebook(量化码本)RQ-VAE、TIGER训练复杂,语义/协作不对齐
多视角标识符MINDER部分推理效率下降
语义+协作双标识符GenSAR最新方案

关键洞察:语义 vs. 协作的权衡

搜索依赖语义相关性(query与商品的文本匹配),推荐依赖协作信号(相似用户的选择)。这是统一搜索与推荐的核心张力。

GenSAR的核心贡献:用RQ-VAE学习双码本——共享码本捕获共同信息,语义专用码本和协作专用码本分别保留各自特性。每个物品拥有两个标识符:语义ID用于搜索,协作ID用于推荐。

2.4 训练与推理

生成式训练天然是序列到序列任务——输入是用户/查询文本,输出是物品标识符序列,用标准next-token prediction损失优化。

推理时,由于LLM可能生成任意token序列(不一定是有效物品标识符),需要约束生成(Constrained Generation):

  • Trie树:支持前缀约束
  • FM-Index:支持任意位置的约束,效率更高

生成式搜索发展脉络

2020: GENRE — 开创性工作,用BART生成实体名称作为文档标识符
2022: DSI — 用T5将文档映射为数字ID,引入Trie约束生成
2022: SEAL — 用N-gram作为标识符,训练BART预测相关片段
2023: MINDER — 多视角标识符(标题+N-gram+伪查询+数字ID)
2023: TIGER — RQ-VAE学习语义ID,Codebook方法成熟化
2024: GenRet — 学习如何对物品进行tokenize

GENRE(2020)——开创者。用BART-large生成Wikipedia实体名称,结合Trie树做约束beam search,在KILT基准上刷新记录。意义在于证明了"生成式检索"这一范式的可行性。

DSI(2022)——将每个文档映射为一个数字ID序列(如"13407 → 13408 → 13409"),用T5学习query→ID的映射。数字ID天然具有强区分性,但完全丢失语义信息,冷启动极差。

SEAL(2022)——用文档中的N-gram片段作为标识符。解决了DSI的语义缺失问题,但N-gram和文档之间是一对多关系,需要额外的转换步骤。

TIGER(2023)——代表作。用RQ-VAE学习物品的语义ID:将物品的文本描述编码为向量,经过多层量化码本,输出一个简短的token序列作为语义ID。


生成式推荐:为什么需要生成式?

传统推荐本质是判别打分——在固定候选集上为每个用户计算分数并排序。生成式带来了判别方法无法获得的五大优势:

优势含义具体表现
世界知识整合LLM参数中存储了丰富的常识和领域知识推荐电影时自然融合导演/演员/文化背景信息
自然语言理解直接理解用户用自然语言表达的偏好“我想找周末放松又不无聊的内容”
推理能力建模用户多步决策逻辑解释"为什么推荐这个"——因果推理而非单纯匹配
Scaling Law随模型规模和数据量持续提升更llm+更多数据→更好的个性化
创造性生成生成不在候选集中的新内容冷启动时合成推荐、为用户定制化描述

统一搜索与推荐:终结"此消彼长"

核心矛盾

搜索强调语义相关性,推荐强调协作信号。两者信息需求不同,简单共享模型参数会导致"此消彼长"——提升推荐效果就损害搜索效果,反之亦然。

[arx_2504.05730]在真实商业数据(快手)上的实验证实了这一点:

方法推荐HR@10搜索HR@10
单独优化搜索0.42
单独优化推荐0.35
JSR(联合)0.320.20
UniSAR(联合)0.330.24
GenSAR(联合,最优)0.350.33

GenSAR是首个在联合优化下,同时逼近单独优化性能的方法。

GenSAR:语义+协作双标识符

论文:中国人民大学×快手,SIGIR 2025投稿

双码本结构

共享码本(Shared):   [z_s; z_c] → [c₁ᵐ, c₂ᵐ, ..., cₗₘᵐ] → 共同信息
语义专用码本:            rₛ → [c₁ˢ, c₂ˢ, ..., cₗₙˢ]
协作专用码本:            r_c → [c₁ᶜ, c₂ᶜ, ..., cₗₙᶜ]

最终语义ID = [c₁ᵐ...cₗₘᵐ, c₁ˢ...cₗₙˢ]  → 用于搜索
最终协作ID = [c₁ᵐ...cₗₘᵐ, c₁ᶜ...cₗₙᶜ]  → 用于推荐

三种训练任务(全部用next-token prediction):

  1. Next Recommendation Item:输入用户搜索+推荐历史,预测下一个推荐物品(用协作ID)
  2. Next Search Query:预测用户下一步可能搜索的query
  3. Next Search Item:给定当前搜索query+用户历史,预测用户会点击的物品(用语义ID)

IntSR:高德地图工业级落地

论文:阿里旗下高德地图 [arx_2509.21179]

核心洞察:将query作为统一搜索与推荐的中心——搜索用显式query,推荐则用隐式用户兴趣作为query。

关键模块

  • QDB(Query-Driven Block):用自定义attention mask区分搜索query、推荐物品、上下文token
  • DSFNet:多场景统一建模
  • Temporal Candidate Alignment:解决动态物品库中"物品描述与实际候选不一致"的问题

线上A/B实验(百万/亿级用户)

指标提升幅度
GMV+9.34%
CTR+2.76%
准确率(ACC)+7.04%

这是生成式搜索与推荐在真实工业场景规模最大的验证之一。

SynerGen:首个Decoder-Only统一框架

论文:Amazon Store Foundation AI [arx_2509.21777]

创新点

  • 首个完全基于decoder-only(类GPT)架构的统一框架,不再依赖encoder-decoder(T5/BART)
  • 时间感知RoPE(Rotary Positional Embeddings):建模用户行为序列中的时序动态
  • 引入task-specific attention mask矩阵:显式控制context token、retrieval token、ranking token之间的注意力计算

生成式推荐三层框架

综述[arx_2510.27157]将生成式推荐的研究归纳为三层框架

数据层——解决数据稀疏

方向核心方法代表工作
内容增强LLM生成用户/物品的自然语言描述LLM-Rec, KAR, SINGLE
行为增强用LLM生成冷启动用户的伪交互数据ColdLLM, LLM-FairRec
结构增强用LLM补全用户-物品交互图、知识图谱LLMRec, CORONA, COSMO
Agent模拟LLM Agent模拟用户行为用于离线训练Agent4Rec, AgentCF

模型层——核心推荐引擎

三条技术路线:

  1. LLM作为推荐骨干:将推荐问题转化为文本生成(P5, InstructRec)
  2. 大推荐模型(LRM):缩放传统推荐架构参数规模(参数达数十亿)
  3. Diffusion推荐:将推荐视为去噪过程,通过迭代细化生成用户偏好

任务层——高阶能力解锁

  • 对话式推荐:多轮交互中逐步澄清用户偏好
  • 可解释推荐:生成自然语言理由,而非输出特征重要性分数
  • 个性化内容生成:直接生成商品文案、旅行攻略、虚拟物品

GEMRec:开山之作的启示

论文:[arx_2308.02205] —— 首个将生成式建模思想系统性地用于推荐系统选择的工作

问题:某平台有数百个文生图模型(如Stable Diffusion变体),部署全部需要大量GPU资源。需要一个推荐系统来预测:给定用户prompt,哪个模型生成的图像最符合该用户的审美?

发现:抽象领域(插画、艺术风格)模型输出多样性强;具体物品(汽车、食物)模型输出趋于同质化。这说明生成式推荐需要针对领域特性做差异化设计。


挑战与未来方向

尚未解决的核心问题

  1. 幻觉与可控性:LLM可能生成语料库中不存在的物品标识符
  2. 语义-协作的深度融合:GenSAR的双标识符方案仍是"外挂式"拼接
  3. 推理效率:生成式推理比向量检索延迟高1-2个数量级
  4. 跨模态统一:当物品是视频、音乐、3D模型时,标识符设计需要重新思考
  5. 工业级验证:大多数工作停留在学术数据集,高德IntSR是重要例外

五大未来方向

方向核心问题潜在路径
多模态生成推荐物品不只有文本,还有图像、视频、3D模型视觉-语言模型作为骨干
对话式推荐智能体推荐从单轮排序→多轮交互式对话LLM Agent框架,记忆+推理+工具调用
可解释性推理链不仅推荐,还要生成因果推理链作为解释Chain-of-Thought prompting in recommendation
个性化内容生成推荐之后直接生成用户想要的变体/定制内容推荐→生成一体化
Scaling Law验证推荐系统的缩放规律是否与LLM一致?系统性地做参数量、数据量扩展曲线实验

总结

生成式搜索与推荐代表了信息检索领域自深度学习以来最根本的范式转变:从判别打分到序列生成。其核心价值在于:

  • 统一性:搜索与推荐在生成式框架下自然统一,不再是割裂的两套系统
  • 知识整合:LLM的世界知识和推理能力直接赋能信息检索
  • 端到端:不再需要多阶段pipeline(召回→粗排→精排),一个模型直接输出目标

然而,标识符设计仍是最核心的研究战场——如何设计兼具语义性、区分性、可更新性的物品表示,仍是开放问题。GenSAR的双码本方案高德IntSR的工业落地是2025年最重要的两个进展,分别从学术和工业两个维度推进了这一领域。

下一步的关键问题或许是:当模型能够直接生成"你可能喜欢的电影情节概要"而非"Top-10电影列表"时,搜索与推荐的边界是否会彻底消失?


本文基于以下6篇论文精读整理,论文列表及地址:

  • Li et al. — “A Survey of Generative Search and Recommendation in the Era of LLMs” (arXiv:2404.16924)
  • Shi et al. — “GenSAR: Unified Generative Search and Recommendation” (arXiv:2504.05730)
  • AMAP Team — “IntSR: An Integrated Generative Framework for Search and Recommendation” (arXiv:2509.21179)
  • Amazon Team — “SynerGen: Contextualized Generative Recommender for Unified Search and Recommendation” (arXiv:2509.21777)
  • MAPS Lab — “GEMRec: Towards Generative Model Recommendation” (arXiv:2308.02205)
  • Hou et al. — “A Survey on Generative Recommendation: Data, Model, and Tasks” (arXiv:2510.27157)