扫码阅读
手机扫码阅读
浅谈互联网搜索
127 2024-10-25
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
查看原文:浅谈互联网搜索
文章来源:
一个数据人的自留地
扫码关注公众号
数据人学习平台上线介绍
数据人学习平台已正式上线,网址为:www.shujurenclub.com。该平台创始人@花花是一位经验丰富的数据分析师,曾服务于美团、腾讯和今日头条,操盘过高达数百亿的资源评估,并是“数据人创作者联盟”的成员。
搜索在互联网行业的背景和重要性
搜索功能在互联网行业至关重要,用户通过输入查询词(query)来找到与其相关性最高的信息。与推荐系统不同,搜索需要用户有明确的查找目标。文章旨在为从事或即将从事搜索行业的人员提供关于搜索流程、发展和现状的启发。
搜索流程的五个维度
搜索系统可分为五个维度:离线数据建设、Query理解、召回、排序和展示。每个维度都至关重要,涉及不同团队的开发和维护工作。
- 离线数据建设:数据团队负责将非结构化数据处理成结构化数据,确保数据质量。
- Query理解:用户输入的查询词被分析和解析,为后续召回和排序提供信息。
- 召回:根据Query理解的信息,粗略筛选出候选集,减轻排序层的压力。
- 排序:涉及粗排、精排和重排三个阶段,直接影响用户体验。
- 展示:将数据以用户友好的方式呈现,前端同学负责开发和维护。
搜索技术应用:召回和排序
召回和排序是搜索引擎的核心。召回通常使用倒排索引和深度学习技术,如DSSM模型。排序从早期的人工规则演变到线性回归,再到树模型,最终演进为NN模型以提升性能。
总结与展望
文章概述了搜索的发展历程和流程,并指出搜索系统架构在业界较为稳定。然而,也指出了利用大数据训练大型模型(如Bert和Ernie)对搜索引擎进行端到端应用的新趋势。搜索领域仍有很多完善空间,需要业界共同努力。
附加信息
对数据知识感兴趣的读者可以参考《大数据实践之路:数据中台+数据分析+产品应用》一书,了解更多相关内容。
想要了解更多内容?
查看原文:浅谈互联网搜索
文章来源:
一个数据人的自留地
扫码关注公众号
一个数据人的自留地的其他文章
【数据圈】 C 端数据分析,如何向 B 端数据分析转型?
2023年第9期数据人圈子问题有:“ C 端的数据分析,如何向 B 端数据分析转型?草帽老师的用户画像和指标体系主题的书籍推荐;应该如何面对当前的就业形式,如何让提升自己可以更好的成为一个数据人呢?”快来看看大佬如何回答吧~
【干货】风控模型如何接入策略(三)
本文主要讲授信额度的计算、定价、总授信额度。
【大佬讲坛】360数据中台与数据工具建设(一)
李娇老师,现就职于 360 数据中台,负责产品规划和建设,擅长用户行为分析、数仓、用户画像、 AB 测试、智能风控等相关产品
【实操干货】如何搭建属于 “数据业务”的指标体系?
作为数据人,在支持业务部门“用数据说话”的同时,你和你所在的数据团队是否也在用数据说话呢?是否有明确可量化的KPI并持续PDCA呢?
互斥组-AB实验的关键技术
今天,和大家聊一聊AB实验中互斥组的概念,一起来看看~
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线