扫码阅读
手机扫码阅读
浅谈互联网搜索之召回
104 2024-10-24
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
查看原文:浅谈互联网搜索之召回
文章来源:
一个数据人的自留地
扫码关注公众号
数据人学习平台上线
作者 @花花,曾在美团、腾讯、今日头条担任数据分析师,参与上百亿补贴资源评估,是“数据人创作者联盟”成员。
01 背景
上一期文章介绍了互联网搜索系统的流程与现状,指出搜索系统主要由召回和排序两大子系统组成。本期将重点介绍召回系统及其重要分支——语义召回,目的是为搜索行业工作者提供启发。
02 搜索系统召回方法
搜索系统在接收到query后,通过召回系统快速找回相关文本,关键在于速度和召回的轻准确性。召回方法可分为三类:
- 倒排索引召回:基于文档分词构建的k,v对,有效但受限于用户输入错误或同义词输入。
- 个性化召回:依据用户历史行为,不需精准term匹配即可召回相关文档,但可能引入不良体验。
- 语义召回:采用神经网络,计算query和文档间的语义匹配度,能够解决泛化问题,需后续质控。
03 语义召回
语义召回能够应对多样化的用户输入,包括汉字、拼音等,是搜索引擎发展的新趋势。主要方法:
- 传统语义召回:如DSSM双塔,利用深度学习将特征向量化,并通过余弦相似度计算匹配。
- 多源语义召回:结合多场景信息,如图像、知识图谱,提供丰富上下文辅助,针对语义不明确的query。
- 大模型预训练语义召回:使用大模型基础上进行fine-tune,利用海量数据提升检索效果。
04 总结与展望
文章总结了三种主要的召回方法,强调语义召回日渐成为搜索领域的新趋势,有潜力替代传统倒排索引。随着技术进步,搜索引擎将不断完善,需要业界共同努力。作者推荐书籍《数据产品经理修炼手册:从零基础到大数据产品实践》。
更多信息请访问 数据人学习平台。
想要了解更多内容?
查看原文:浅谈互联网搜索之召回
文章来源:
一个数据人的自留地
扫码关注公众号
一个数据人的自留地的其他文章
漫谈B端SaaS产品方法论
手把手教你理清思路做产品!!
数据分析师如何写一篇“有用”的分析报告
数据分析报告是一名数据分析综合能力最好的表现,大家一定要多拒绝业务方的无效需求,多花时间在有意义的事情上,这样你的工作成就感也会越高。业务方也会对你越发信任和依赖,尽情满足业务方所有需求从来不是他们真正想要的结果,并且也不会念你的好……
做产品,选择从0到1还是从1到N?
最近临近校招实习和秋招准备,很多毕业生会问一个问题,在互联网面试后期部门会让自己选方向,是去从0到1的新产品组还是已经成熟的1到N+的沉稳产品组呢?
【求职】数据分析师斩获大厂offer全攻略
市场真实情况如何?数分行情如何?简历怎么写?面试常见问题有哪些?如何谈薪?
职场人的必备技能—数据分析思维
职场人必备的五大数据分析思维:分类思维、漏斗思维、逻辑树思维、公式化思维、时间序列思维
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线