浅谈互联网搜索之召回
发布于 2024-10-24


版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。


一个数据人的自留地
扫码关注公众号
扫码阅读
手机扫码阅读
数据人学习平台上线
作者 @花花,曾在美团、腾讯、今日头条担任数据分析师,参与上百亿补贴资源评估,是“数据人创作者联盟”成员。
01 背景
上一期文章介绍了互联网搜索系统的流程与现状,指出搜索系统主要由召回和排序两大子系统组成。本期将重点介绍召回系统及其重要分支——语义召回,目的是为搜索行业工作者提供启发。
02 搜索系统召回方法
搜索系统在接收到query后,通过召回系统快速找回相关文本,关键在于速度和召回的轻准确性。召回方法可分为三类:
- 倒排索引召回:基于文档分词构建的k,v对,有效但受限于用户输入错误或同义词输入。
- 个性化召回:依据用户历史行为,不需精准term匹配即可召回相关文档,但可能引入不良体验。
- 语义召回:采用神经网络,计算query和文档间的语义匹配度,能够解决泛化问题,需后续质控。
03 语义召回
语义召回能够应对多样化的用户输入,包括汉字、拼音等,是搜索引擎发展的新趋势。主要方法:
- 传统语义召回:如DSSM双塔,利用深度学习将特征向量化,并通过余弦相似度计算匹配。
- 多源语义召回:结合多场景信息,如图像、知识图谱,提供丰富上下文辅助,针对语义不明确的query。
- 大模型预训练语义召回:使用大模型基础上进行fine-tune,利用海量数据提升检索效果。
04 总结与展望
文章总结了三种主要的召回方法,强调语义召回日渐成为搜索领域的新趋势,有潜力替代传统倒排索引。随着技术进步,搜索引擎将不断完善,需要业界共同努力。作者推荐书籍《数据产品经理修炼手册:从零基础到大数据产品实践》。
更多信息请访问 数据人学习平台。
一个数据人的自留地


一个数据人的自留地
扫码关注公众号
一个数据人的自留地的其他文章
读书会|产品心经(二)
闫荣老师:《产品心经:产品经理应该知道的72件事》书籍作者,资深产品专家,有超过15年的C端、B端和G端的产品与运营经验;李凯东老师:读书会领读人,某大厂数据总监,产研运全能,国内知名比赛获奖无数,有10年的连续创业经历;
【Talk 第1期】未来五年哪些行业比较有前景?(上)
数据人自留地第一期圆桌会议精彩回顾
【数据分析干货】如何高质量地交付数据分析报告
【数据分析干货】如何高质量地交付数据分析报告
浅谈AI给业务和数据带来的影响
数据人学习平台上线了:www.shujurenclub.com 作者介绍 @阿泱一个热爱数据产品的工
作为数据产品经理的一天
数据产品经理作为这两年大数据行业的热门职业,经常有小伙伴会问我数据产品经理是做什么的,给大家简单讲下作为数据产品经理的一天是怎么度过得,算是一篇记录文吧,看完或许大家对这个职业的了解会更深入一些。
加入社区微信群
与行业大咖零距离交流学习


PMO实践白皮书
白皮书上线
白皮书上线