扫码阅读
手机扫码阅读
关联分析,究竟分析的是什么?
62 2024-09-23
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
查看原文:关联分析,究竟分析的是什么?
文章来源:
扫码关注公众号
菜鸟君介绍了关联分析的概念和在大数据时代的重要性。关联分析用于发现数据中不同项目之间的联系,例如在顾客购买数据中分析不同商品的购买习惯。这有助于零售商制定营销策略。
关联分析的核心概念包括:
- 事务:一条交易记录。
- 项(item):交易中的单个物品。
- 项集(itemset):包含一个或多个项的集合。
- k-项集:包含k个项的项集。
- 支持度计数:项集在所有事务中出现的次数。
- 支持度:项集出现的频率(占总事务的比例)。
- 频繁项集:支持度高于设定阈值的项集。
- 前件和后件:关联规则中的条件和结果。
- 置信度:规则可靠性的衡量,计算方式为规则支持度计数除以前件的支持度计数。
- 强关联规则:满足最小支持度和置信度阈值的规则。
找出强关联规则的过程包括两步:
- 找出所有频繁项集。
- 从频繁项集中产生并筛选出置信度高的规则。
Apriori算法是一种常用的算法,它的优点是产生较小的候选集,但缺点在于需要多次重复扫描数据库,适用于最大频繁项目集不大的数据集。
最后,菜鸟君提醒我们,关联规则不含因果关系,仅反映项目间的同时发生关系。明天菜鸟君将介绍如何使用R语言进行Apriori算法分析,并鼓励大家关注后续内容。
想要了解更多内容?
查看原文:关联分析,究竟分析的是什么?
文章来源:
扫码关注公众号
的其他文章
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线