扫码阅读

手机扫码阅读

手把手教你用机器学习进行数据分析-聚类分析

327 2024-10-24

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：手把手教你用机器学习进行数据分析-聚类分析

文章来源：

一个数据人的自留地

扫码关注公众号

数据人学习平台上线摘要

作者介绍: Claire，数据分析师，美剧爱好者，数据人创作者联盟成员，分享有关Python Pandas及机器学习/数据分析的知识。

本文主要面向具有Python Pandas基础、对机器学习/数据分析感兴趣的读者。文中提及，如反响良好，作者会考虑出系列文章。

项目背景

本项目使用美国社区犯罪数据，共2215行，每行代表一个社区，包含人口特征、经济情况、执法数据和犯罪率。目的是通过机器学习的聚类算法对社区犯罪率进行分类，以便做出居住地选择或警力分配等决策。

解决方案

采用K-means clustering算法解决分类问题。面临的挑战包括维度诅咒、过拟合、计算复杂度增加和可解释性降低等。采取特征选择和特征降维技术应对这些挑战。

数据分析难点

处理147列中的缺失值和过多的特征问题。
选取聚类算法中最常用的K-means。
特征选择和降维以应对维度诅咒和减少计算复杂度。

数据清理

数据清理步骤包括处理缺失值、移除无关列、处理异常值和偏斜度以及标准化处理。

特征降维

利用主成分分析（PCA）进行降维，保留20个主成分以解释95%的数据方差，并为聚类算法做准备。

K-均值聚类

通过肘部方法确定最佳簇数为4。利用K-均值算法对社区进行划分，并通过轮廓分数评估聚类结果质量。各簇的特征分析显示了不同社区群体的特点，并通过可视化图表呈现。

文章结尾，作者鼓励读者点赞、收藏、转发和评论，并推荐书籍《数据产品经理修炼手册:从零基础到大数据产品实践》。

这个HTML内容提供了关于“数据人学习平台”文章的摘要，包括作者介绍、项目背景、解决方案、数据分析难点、数据清理、特征降维和K-均值聚类等关键部分。

想要了解更多内容？

查看原文：手把手教你用机器学习进行数据分析-聚类分析

文章来源：

一个数据人的自留地

扫码关注公众号

相关推荐

谈谈现代组织如何构建数据治理

498

数据数据集治理访问

一传统的数据治理策略不再有效随着现代数据堆栈的兴起，所有业务数据现在都集中到云数据湖和数据仓库中。这使得团

年终总结&晋升汇报避坑指南

430

产品业务用户工作汇报

你的年终总结做完了吗

交易策略与交易周期的时间匹配

588

策略一目均衡 15

交易系统的时间周期。

关于构建DLG系统可行性分析（一）

227

对于主数据的定义，目前在网络上主流的定义为三个?

职场人的必备技能—数据分析思维

183

职场人必备的五大数据分析思维：分类思维、漏斗思维、逻辑树思维、公式化思维、时间序列思维

Python 离群点检测算法 -- PCA

404

关注和星标『数据STUDIO』，和云朵君一起学习数据分析与挖掘！

一个数据人的自留地

数据人交流和学习的社区，关注我们，掌握专业数据知识、结识更多的数据小伙伴。

249 篇文章

浏览 67.5K

一个数据人的自留地的其他文章

【数据圈】数据人精彩问答（23年第4期）

本期数据人圈子问题有：“业务开发和数仓开发不在同一城市正常么？”等问题，快来看看大佬如何回答吧~

如何搭建一个智能客服（五）：于业务中落地

想知道智能客服在不同的业务场景下的应用形式吗？快来看看这篇文章吧～

数据治理第4期 | 质检监控中心

本期，我们来聊聊数据质量检测和监控的核心工具——DQC和SLA。

【求职】数据分析师斩获大厂offer全攻略

市场真实情况如何？数分行情如何？简历怎么写？面试常见问题有哪些？如何谈薪？

AI时代已来，教育场景会出现哪些新篇章？

数据人学习平台上线了：www.shujurenclub.com 作者介绍 @果酿8年产品经验+4年团

随机阅读

解读微信团队的七个价值观

案例：缺陷状态数据分析

使用Gompertz模型预测非典的趋势

项目级目标与组织级目标的差别

各阶段缺陷检出密度的统计分析案例

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线