熵、信息熵、信息增益的基本介绍
发布于 2024-10-28


版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。


Python学习杂记
扫码关注公众号
扫码阅读
手机扫码阅读
在学习机器学习模型时,熵是一个关键概念,与信息熵、信息增益、决策树剪枝等密切相关。熵的理解有助于掌握决策树、XGBoost等模型。
1. 熵的基本概念
熵是由德国物理学家克劳修斯于1865年提出的,原本用于描述物质系统的能量退化状态。在热力学中有广泛应用,代表系统的“内在混乱程度”。日常生活中,熵衡量不确定性,熵值越高表示不确定性越大。
2. 信息熵
香农在1948年提出“信息熵”概念,用以量化信息的不确定性。例如选择集合[yes,yes,no,no,no]的信息熵为0.97(以2为底数计算)。
3. 信息增益
信息增益衡量数据集基于特征变量分类前后信息熵的减少程度。分类后信息熵减少表明分类是有意义的。例如,数据集[[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]按第一个变量拆分后,信息增益为0.42。
4. Python代码实现
通过Python代码可以实现对数据集的拆分、计算信息熵和信息增益。代码示例使用数学库计算熵,并定义函数来拆分数据集和选择最佳拆分特征。
熟悉熵、信息熵和信息增益的概念及其计算方法后,可以更深入地理解基于熵的机器学习模型,如决策树、随机森林和XGBoost,并通过树模型的剪枝提高模型预测效果。
Python学习杂记


Python学习杂记
扫码关注公众号
Python学习杂记的其他文章
定制Pandas导出数据表的式样
pandas是python中常用的数据处理库,但是其输出的数据样式比较粗糙,本文介绍如何定制pandas导出的式样。
分享一个上海交大人工智能班在github上的开源知识库
最近看到一个不错的开源机器学习、运筹学相关的知识库汇总项目,今天给大家分享一下这个项目。
Python制作gif动图
Python可以画各种各样的动态图,但是要插入到PPT中,gif动态图是最方便的。gif动态图可以直接插入到PPT中,很方便工作。
集成算法模型举例
前面有篇文章介绍了逻辑回归模型,用了一个违约率预测的案例,该模型的AUC值为0.816,本文用集成算法对数据进一步研究,进一步挖掘数据之间的关系,看能否提升模型的评估效果。
动态规划原理及案例介绍
动态规划是一种常用的优化技术,本文介绍动态规划基本原理及常见案例。
加入社区微信群
与行业大咖零距离交流学习


PMO实践白皮书
白皮书上线
白皮书上线