扫码阅读
手机扫码阅读
浅谈互联网搜索之召回
22 2024-10-24
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
查看原文:浅谈互联网搜索之召回
文章来源:
一个数据人的自留地
扫码关注公众号
数据人学习平台上线
作者 @花花,曾在美团、腾讯、今日头条担任数据分析师,参与上百亿补贴资源评估,是“数据人创作者联盟”成员。
01 背景
上一期文章介绍了互联网搜索系统的流程与现状,指出搜索系统主要由召回和排序两大子系统组成。本期将重点介绍召回系统及其重要分支——语义召回,目的是为搜索行业工作者提供启发。
02 搜索系统召回方法
搜索系统在接收到query后,通过召回系统快速找回相关文本,关键在于速度和召回的轻准确性。召回方法可分为三类:
- 倒排索引召回:基于文档分词构建的k,v对,有效但受限于用户输入错误或同义词输入。
- 个性化召回:依据用户历史行为,不需精准term匹配即可召回相关文档,但可能引入不良体验。
- 语义召回:采用神经网络,计算query和文档间的语义匹配度,能够解决泛化问题,需后续质控。
03 语义召回
语义召回能够应对多样化的用户输入,包括汉字、拼音等,是搜索引擎发展的新趋势。主要方法:
- 传统语义召回:如DSSM双塔,利用深度学习将特征向量化,并通过余弦相似度计算匹配。
- 多源语义召回:结合多场景信息,如图像、知识图谱,提供丰富上下文辅助,针对语义不明确的query。
- 大模型预训练语义召回:使用大模型基础上进行fine-tune,利用海量数据提升检索效果。
04 总结与展望
文章总结了三种主要的召回方法,强调语义召回日渐成为搜索领域的新趋势,有潜力替代传统倒排索引。随着技术进步,搜索引擎将不断完善,需要业界共同努力。作者推荐书籍《数据产品经理修炼手册:从零基础到大数据产品实践》。
更多信息请访问 数据人学习平台。
想要了解更多内容?
查看原文:浅谈互联网搜索之召回
文章来源:
一个数据人的自留地
扫码关注公众号
一个数据人的自留地的其他文章
互联网金融行业中的业务逻辑与数据分析
本文将从互联网金融从业者的视角,为各位读者讲讲在该行业中,平台是如何获客并吸引、留住用户的。
浅谈互联网搜索
浅谈互联网搜索
算法模型与大数据
过往的数据大多数是给运营使用,数据使用效率较低。所有的信息本质上都可以转化为数据,如果把一堆数据按照一定的框架还原出来,输入固定信息,程序化的响应,数据使用效率将成倍提升。而输入固定信息,程序化响应的过程,笔主称之为算法模型。
【数据圈】数据人精彩问答(23年第5期)
本期数据人圈子问题有:“如何理解数据20条指导意见?如何量化策略效果?想往策略产品发展有什么建议?”快来看看大佬如何回答吧~
如何搭建一个智能客服(五):于业务中落地
想知道智能客服在不同的业务场景下的应用形式吗?快来看看这篇文章吧~
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线