大数据测试入门 : 什么是大数据以及如何测试大数据?| 陈晓鹏
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
什么是大数据
01 大数据起源
大数据(Big Data)已经成为IT业界一个热门名词,与人工智能、区块链、云计算并称为“ABCD”四大新科技。大数据最早的提出者有不同说法,但2005年Roger Mougalas使用“大数据”一词指代大量数据是广泛认可的起点。谷歌公司的关键贡献在于其发表了关于大数据核心技术的学术论文,促进了Hadoop系统的诞生,标志着大数据革命的开始。我国自2014年开始重视大数据,其在“新基建”中占据重要地位。
02 大数据定义
大数据的定义业界没有统一标准。Gartner、麦肯锡全球研究所、亚马逊大数据科学家John Rauser及维基百科都提出了不同的定义。这些定义强调了大数据的速度、量、多样化等特点。大数据不仅仅是数据量大,还包含其他特征,传统数据库工具无法处理。
03 大数据5V特征
大数据的5V特征包括Volume(数量)、Velocity(速度)、Variety(多样性)、Value(价值)和Veracity(真实性)。这些特征描述了大数据的规模、增长速度、类型多样化、价值密度低以及数据的真实性和可信度。
04 大数据中的数据格式
大数据的数据格式包括结构化数据、半结构化数据和非结构化数据。这些数据类型的多样性和规模要求采用不同于传统关系型数据库的存储和处理方式。
07 大数据对业务带来的好处
大数据可以带来多方面的业务好处,例如提高生产力和效率、支持实时响应、数据驱动的洞察、跨越结构化和非结构化数据的总体视图、增强预测能力和模型、新商业服务创新等。
08 大数据框架Hadoop介绍
Hadoop是大数据项目中使用最广泛的框架之一,由Hadoop分布式文件系统(HDFS)和MapReduce技术构成。Hadoop具备可伸缩、可靠、经济和灵活等特点,但也存在技术复杂性、数据流变化、高技能人才依赖等挑战。
09 大数据应用程序数据流介绍
大数据测试工作的特点在于验证数据流,数据流可以从多种来源流入大数据系统,要确保数据的正确性和完整性。大数据应用程序处理后的数据需要存储在数据仓库中,并且通过商业智能工具进行分析和可视化。
10 大数据术语汇总
大数据领域中的关键术语包括Hadoop、HDFS、MapReduce、Hive、HiveQL、Pig Latin、商品服务器、Node、DataNode、NameNode、主节点、JobTracker、工作节点、客户节点和集群。
11 大数据对传统测试的挑战
大数据测试面临的挑战包括选择代表性测试数据集、理解数据及其业务影响、识别数据承载的情绪等。
想要了解更多内容?