扫码阅读
手机扫码阅读

关联分析,究竟分析的是什么?

106 2024-09-23

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:关联分析,究竟分析的是什么?
文章来源:
扫码关注公众号

菜鸟君介绍了关联分析的概念和在大数据时代的重要性。关联分析用于发现数据中不同项目之间的联系,例如在顾客购买数据中分析不同商品的购买习惯。这有助于零售商制定营销策略。

关联分析的核心概念包括:

  • 事务:一条交易记录。
  • 项(item):交易中的单个物品。
  • 项集(itemset):包含一个或多个项的集合。
  • k-项集:包含k个项的项集。
  • 支持度计数:项集在所有事务中出现的次数。
  • 支持度:项集出现的频率(占总事务的比例)。
  • 频繁项集:支持度高于设定阈值的项集。
  • 前件和后件:关联规则中的条件和结果。
  • 置信度:规则可靠性的衡量,计算方式为规则支持度计数除以前件的支持度计数。
  • 强关联规则:满足最小支持度和置信度阈值的规则。

找出强关联规则的过程包括两步:

  1. 找出所有频繁项集。
  2. 从频繁项集中产生并筛选出置信度高的规则。

Apriori算法是一种常用的算法,它的优点是产生较小的候选集,但缺点在于需要多次重复扫描数据库,适用于最大频繁项目集不大的数据集。

最后,菜鸟君提醒我们,关联规则不含因果关系,仅反映项目间的同时发生关系。明天菜鸟君将介绍如何使用R语言进行Apriori算法分析,并鼓励大家关注后续内容。

想要了解更多内容?

查看原文:关联分析,究竟分析的是什么?
文章来源:
扫码关注公众号