大数据原理与技术摘要学习
最近买了本书,叫做《大数据原理和技术》,是华为HCIA认证的必学课本,所以就买了学习下,顺便将书中的内容做下记录,供自己日后温故知新。
大数据概述
1.大数据的基本概念
大数据是指需要用高效率和创新型的信息技术加以处理,以提升洞察能力、决策能力和优化流程能力的信息资产。—Cartner
大数据是指超出传统软件工具的采集、存储、管理和分析等能力的数据集,具有海量的数据(
Volume
)、快速的数据产生与处理(Velocity
)、多样的数据类型(
Variety
)和低价值密度(Value
)四大特征,简称4V
特征。—麦肯锡
海量的数据
- 信息时代,数据量的增长速度急剧加快
- 物联网领域引领新一轮信息化革命,人类进入
信息爆炸
时代
快速的数据产生与处理
大数据可以通过对海量数据进行实时分析,快速得出处理结果,从而保证处理结果的时效性。
- IDC预测,到2025年,全球年新增数据量将达到175ZB
- 数据量的急剧增长导致企业对数据处理效率的要求越来越高
- 某些应用需要数秒内对海量数据进行计算和分析,并给出计算结果,否则得到的处理结果就是过时和无效的
多样的数据类型
- 我们可以将数据类型简单的划分成:结构化数据、半结构化数据和非结构化数据
- 结构化数据:存储在关系数据库(如
MSSQL
、Oracle
、MySQL
)中的数据 - 非结构化数据:不方便用关系数据库二维逻辑表来表现的数据(图片、音频、视频、模型、连接信息、文档、位置信息、网络日志等)。非结构化数据类型越来越多,对于多类型的数据的处理能力提出了更高的要求
- 半结构化数据:具有一定的结构性,但数据的结构和内容混在一起,没有明显的区分(OEM是典型的半结构化数据模型)
- 结构化数据:存储在关系数据库(如
- 我们可以将数据类型简单的划分成:结构化数据、半结构化数据和非结构化数据
低价值密度
- 价值密度低是大数据的典型特征
- 大数据时代选取数据的理念是选择全体而非样本,会将所有数据纳入处理氛围
- 这些数据单独被拿出来,彼此之间相关性很低,只有从宏观角度对数据分析,才能获取有价值的结果
2.大数据的来源
大数据原理与技术摘要学习
https://gcoder5.com/2023/03/12/大数据原理与技术摘要学习/