扫码阅读
手机扫码阅读
浅谈互联网搜索之召回

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。


一个数据人的自留地
扫码关注公众号
数据人学习平台上线
作者 @花花,曾在美团、腾讯、今日头条担任数据分析师,参与上百亿补贴资源评估,是“数据人创作者联盟”成员。
01 背景
上一期文章介绍了互联网搜索系统的流程与现状,指出搜索系统主要由召回和排序两大子系统组成。本期将重点介绍召回系统及其重要分支——语义召回,目的是为搜索行业工作者提供启发。
02 搜索系统召回方法
搜索系统在接收到query后,通过召回系统快速找回相关文本,关键在于速度和召回的轻准确性。召回方法可分为三类:
- 倒排索引召回:基于文档分词构建的k,v对,有效但受限于用户输入错误或同义词输入。
- 个性化召回:依据用户历史行为,不需精准term匹配即可召回相关文档,但可能引入不良体验。
- 语义召回:采用神经网络,计算query和文档间的语义匹配度,能够解决泛化问题,需后续质控。
03 语义召回
语义召回能够应对多样化的用户输入,包括汉字、拼音等,是搜索引擎发展的新趋势。主要方法:
- 传统语义召回:如DSSM双塔,利用深度学习将特征向量化,并通过余弦相似度计算匹配。
- 多源语义召回:结合多场景信息,如图像、知识图谱,提供丰富上下文辅助,针对语义不明确的query。
- 大模型预训练语义召回:使用大模型基础上进行fine-tune,利用海量数据提升检索效果。
04 总结与展望
文章总结了三种主要的召回方法,强调语义召回日渐成为搜索领域的新趋势,有潜力替代传统倒排索引。随着技术进步,搜索引擎将不断完善,需要业界共同努力。作者推荐书籍《数据产品经理修炼手册:从零基础到大数据产品实践》。
更多信息请访问 数据人学习平台。
想要了解更多内容?


一个数据人的自留地
扫码关注公众号
一个数据人的自留地的其他文章
关于应用唤起的那些事儿
通过深度链接 (即Deeplink) 技术,实现用户从外部渠道(微信、微博、短信、邮件、浏览器、搜索引擎、其他APP)到App内指定页面的一键跳转,已经成为各大互联网公司进行用户运营的必备手段。
你有“一秒变小白”的能力吗?产品经理3步锻炼用户视角
用户视角是什么意思呢?其实就是要知道常识。那么如何练习用户视角?
实用五步法教会你指标体系的设计与加工丨DTVision分析洞察篇
@muyan,数据产品经理,负责过智能标签、指标管理、算法平台、数据服务平台、数据分析平台、数据埋点采集等多款数据产品
58智能画像运营平台
场景化、闭环化、智能化、组织协同,构建一站式智能运营解决方案
【数据人读书会第二期】超级用户(一)
【数据人读书会第二期】超级用户
加入社区微信群
与行业大咖零距离交流学习


PMO实践白皮书
白皮书上线
白皮书上线