扫码阅读
手机扫码阅读
大数据&HDFS存储原理
90 2024-09-07
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
查看原文:大数据&HDFS存储原理
文章来源:
小南瓜开发平台
扫码关注公众号
摘要
一、HDFS的存储原理
HDFS采用基于块的分布式存储原理,大文件被切分成固定大小的块(通常为64MB或128MB),分布在多个DataNode上实现数据冗余和可靠性。块是存储的最小单位,大小可调。
二、HDFS冗余数据保存的问题
由于底层机器故障频发,HDFS通过冗余保存数据来提高可靠性,默认冗余因子为3。这增加了数据访问速率,便于检查数据错误,并确保数据可靠性。
三、HDFS数据保存策略问题
HDFS的数据保存策略考虑数据冗余和数据放置,支持节点宕机时的数据恢复,并根据数据块放置的存储类型列表进行优化。异构存储特性允许不同文件选择不同的存储介质,以最大化机器性能。
四、HDFS数据恢复的问题
HDFS在数据丢失或损坏时可通过冗余存储、心跳检测、副本选择和重平衡策略恢复数据。误删除文件时,可利用回收站机制恢复。
五、HDFS的数据读取
数据读取时,Client通过RPC与NameNode通信获取block位置信息,NameNode返回DataNode地址列表。Client选择最近的DataNode读取数据,完成后拼接所有block形成文件。
六、HDFS数据的错误与恢复
HDFS在数据错误和恢复中处理名称节点错误、数据节点错误和数据块错误。名称节点重启来保证系统运行,数据节点故障时进行副本恢复。数据块校验出错时,客户端会请求其他数据节点读取。删除的数据可在时间限制内从.Trash目录恢复。
总之,HDFS通过配合数据冗余、存储策略和恢复机制来确保数据可靠性,同时考虑到数据恢复的复杂性,建议设计和实施预防和灾备方案。
想要了解更多内容?
查看原文:大数据&HDFS存储原理
文章来源:
小南瓜开发平台
扫码关注公众号
小南瓜开发平台的其他文章
【10】three进阶——动画系统(Animation system)
three进阶——动画系统(Animation system)
【AI人工智能系列】1.环境搭建:阿里云服务器centos安装anaconda
Conda、Miniconda、Anaconda都是 Python 中非常常用的包管理器,它们各自有着不同的特点和优势,可以根据不同的需求来选择使用。
【AI人工智能系列】3.aconda安装百度飞浆智能平台
paddle百度飞浆环境安装。以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体,是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台。
【13】实战——添加坐标轴辅助器
实战——添加坐标轴辅助器
【33】three.js实战—法线贴图应用
贴图材质网:http://www.poliigon.com/textureshttps://3dtextur
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线