熵、信息熵、信息增益的基本介绍

发布于 2024-10-28

443

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：熵、信息熵、信息增益的基本介绍

文章来源：

Python学习杂记

扫码关注公众号

扫码阅读

手机扫码阅读

在学习机器学习模型时，熵是一个关键概念，与信息熵、信息增益、决策树剪枝等密切相关。熵的理解有助于掌握决策树、XGBoost等模型。

1. 熵的基本概念

熵是由德国物理学家克劳修斯于1865年提出的，原本用于描述物质系统的能量退化状态。在热力学中有广泛应用，代表系统的“内在混乱程度”。日常生活中，熵衡量不确定性，熵值越高表示不确定性越大。

2. 信息熵

香农在1948年提出“信息熵”概念，用以量化信息的不确定性。例如选择集合[yes,yes,no,no,no]的信息熵为0.97（以2为底数计算）。

3. 信息增益

信息增益衡量数据集基于特征变量分类前后信息熵的减少程度。分类后信息熵减少表明分类是有意义的。例如，数据集[[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]按第一个变量拆分后，信息增益为0.42。

4. Python代码实现

通过Python代码可以实现对数据集的拆分、计算信息熵和信息增益。代码示例使用数学库计算熵，并定义函数来拆分数据集和选择最佳拆分特征。

熟悉熵、信息熵和信息增益的概念及其计算方法后，可以更深入地理解基于熵的机器学习模型，如决策树、随机森林和XGBoost，并通过树模型的剪枝提高模型预测效果。

Python学习杂记

查看原文：熵、信息熵、信息增益的基本介绍

文章来源：

Python学习杂记

扫码关注公众号

相关推荐

“软件工程3.0”之下软件开发范式

2164

本文针对软件工程1.0、2.0和3.0进行详细的对比分析，还给出了软件工程3.0的新形态。

2023年，总要干点不一样的事情

735

挺有意义的事情，我有毅力坚持和大家一道走向未来。

数据库｜SQL调优案例之TiFlash帮倒忙该怎么办？

1033

查询 SQL TiFlash 索引

轻松解决小问题~

数据库｜TiDB故障处理之让人迷惑的Region is Unavailable

469

region 报错节点 pd

一次有趣的故障排除☝

超实用！这可能是开源最好的电子发票识别系统

616

识别发票电子格式

一键快速识别PDF、OFD发票数据！

再见pip & conda！管理Python依赖关系的更好的选择：Poetry

650

关注和星标『数据STUDIO』，和云朵君一起学习数据分析与挖掘！

Python学习杂记

探索运筹优化、机器学习、AI 和数据可视化的奥秘及其落地应用

256 篇文章

浏览 102.7K

Python学习杂记的其他文章

定制Pandas导出数据表的式样

pandas是python中常用的数据处理库，但是其输出的数据样式比较粗糙，本文介绍如何定制pandas导出的式样。

分享一个上海交大人工智能班在github上的开源知识库

最近看到一个不错的开源机器学习、运筹学相关的知识库汇总项目，今天给大家分享一下这个项目。

Python制作gif动图

Python可以画各种各样的动态图，但是要插入到PPT中，gif动态图是最方便的。gif动态图可以直接插入到PPT中，很方便工作。

集成算法模型举例

前面有篇文章介绍了逻辑回归模型，用了一个违约率预测的案例，该模型的AUC值为0.816，本文用集成算法对数据进一步研究，进一步挖掘数据之间的关系，看能否提升模型的评估效果。

动态规划原理及案例介绍

动态规划是一种常用的优化技术，本文介绍动态规划基本原理及常见案例。

随机阅读

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

熵、信息熵、信息增益的基本介绍

版权声明

1. 熵的基本概念

2. 信息熵

3. 信息增益

4. Python代码实现

联系我们

融实践库

微信公众号

微信视频号

社区微信群

熵、信息熵、信息增益的基本介绍

版权声明

1. 熵的基本概念

2. 信息熵

3. 信息增益

4. Python代码实现

敏捷开发时代，彻底结束了

联系我们

融实践库

微信公众号

微信视频号

社区微信群