扫码阅读
手机扫码阅读

浅谈互联网搜索之召回

57 2024-10-24

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:浅谈互联网搜索之召回
文章来源:
一个数据人的自留地
扫码关注公众号
文章摘要

数据人学习平台上线

作者 @花花,曾在美团、腾讯、今日头条担任数据分析师,参与上百亿补贴资源评估,是“数据人创作者联盟”成员。

01 背景

上一期文章介绍了互联网搜索系统的流程与现状,指出搜索系统主要由召回和排序两大子系统组成。本期将重点介绍召回系统及其重要分支——语义召回,目的是为搜索行业工作者提供启发。

02 搜索系统召回方法

搜索系统在接收到query后,通过召回系统快速找回相关文本,关键在于速度和召回的轻准确性。召回方法可分为三类:

  • 倒排索引召回:基于文档分词构建的k,v对,有效但受限于用户输入错误或同义词输入。
  • 个性化召回:依据用户历史行为,不需精准term匹配即可召回相关文档,但可能引入不良体验。
  • 语义召回:采用神经网络,计算query和文档间的语义匹配度,能够解决泛化问题,需后续质控。

03 语义召回

语义召回能够应对多样化的用户输入,包括汉字、拼音等,是搜索引擎发展的新趋势。主要方法:

  • 传统语义召回:如DSSM双塔,利用深度学习将特征向量化,并通过余弦相似度计算匹配。
  • 多源语义召回:结合多场景信息,如图像、知识图谱,提供丰富上下文辅助,针对语义不明确的query。
  • 大模型预训练语义召回:使用大模型基础上进行fine-tune,利用海量数据提升检索效果。

04 总结与展望

文章总结了三种主要的召回方法,强调语义召回日渐成为搜索领域的新趋势,有潜力替代传统倒排索引。随着技术进步,搜索引擎将不断完善,需要业界共同努力。作者推荐书籍《数据产品经理修炼手册:从零基础到大数据产品实践》。

更多信息请访问 数据人学习平台

想要了解更多内容?

查看原文:浅谈互联网搜索之召回
文章来源:
一个数据人的自留地
扫码关注公众号