扫码阅读
手机扫码阅读
手把手教你用机器学习进行数据分析-聚类分析

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

一个数据人的自留地
扫码关注公众号
数据人学习平台上线摘要
作者介绍: Claire,数据分析师,美剧爱好者,数据人创作者联盟成员,分享有关Python Pandas及机器学习/数据分析的知识。
本文主要面向具有Python Pandas基础、对机器学习/数据分析感兴趣的读者。文中提及,如反响良好,作者会考虑出系列文章。
项目背景
本项目使用美国社区犯罪数据,共2215行,每行代表一个社区,包含人口特征、经济情况、执法数据和犯罪率。目的是通过机器学习的聚类算法对社区犯罪率进行分类,以便做出居住地选择或警力分配等决策。
解决方案
采用K-means clustering算法解决分类问题。面临的挑战包括维度诅咒、过拟合、计算复杂度增加和可解释性降低等。采取特征选择和特征降维技术应对这些挑战。
数据分析难点
- 处理147列中的缺失值和过多的特征问题。
- 选取聚类算法中最常用的K-means。
- 特征选择和降维以应对维度诅咒和减少计算复杂度。
数据清理
数据清理步骤包括处理缺失值、移除无关列、处理异常值和偏斜度以及标准化处理。
特征降维
利用主成分分析(PCA)进行降维,保留20个主成分以解释95%的数据方差,并为聚类算法做准备。
K-均值聚类
通过肘部方法确定最佳簇数为4。利用K-均值算法对社区进行划分,并通过轮廓分数评估聚类结果质量。各簇的特征分析显示了不同社区群体的特点,并通过可视化图表呈现。
文章结尾,作者鼓励读者点赞、收藏、转发和评论,并推荐书籍《数据产品经理修炼手册:从零基础到大数据产品实践》。
想要了解更多内容?

一个数据人的自留地
扫码关注公众号
一个数据人的自留地的其他文章
产品经理如何有效推动工作
很多想做产品经理的同学在准备转行时,会花很多时间准备产品经理相关的技能知识,实际工作中更多的是在处理很多琐碎的问题,而且很多时候会陷入扯皮背锅的情况里,所以比起硬实力掌握,比如产品经理该如何推动工作。
谈谈作为FineBI数据分析大赛评委的感想
有幸作为评委评审了帆软比赛的作品,看到了很多分析思路清晰、数据翔实、结论可落地有指导性的优秀作品,本篇文章和大家分享下评审的心得与体会。
【荐读】一个普本生北漂5年的沉浮(1)
人生如逆旅,我亦是行人
数据治理第5期 | 落地总结
数据人学习平台上线了:www.shujurenclub.com 作者介绍 @明明美团资深产品,Dat
带你了解什么是数仓宽表
@图图,BAT数据产品经理,专注数据产品、持续学习中
加入社区微信群
与行业大咖零距离交流学习


PMO实践白皮书
白皮书上线
白皮书上线