大数据原理与技术摘要学习

最近买了本书,叫做《大数据原理和技术》,是华为HCIA认证的必学课本,所以就买了学习下,顺便将书中的内容做下记录,供自己日后温故知新。

大数据概述

1.大数据的基本概念

大数据是指需要用高效率和创新型的信息技术加以处理,以提升洞察能力、决策能力和优化流程能力的信息资产。—Cartner

大数据是指超出传统软件工具的采集、存储、管理和分析等能力的数据集,具有海量的数据Volume)、快速的数据产生与处理Velocity

多样的数据类型Variety)和低价值密度Value)四大特征,简称4V特征。—麦肯锡

  1. 海量的数据

    • 信息时代,数据量的增长速度急剧加快
    • 物联网领域引领新一轮信息化革命,人类进入信息爆炸时代
  2. 快速的数据产生与处理

    大数据可以通过对海量数据进行实时分析,快速得出处理结果,从而保证处理结果的时效性。

    • IDC预测,到2025年,全球年新增数据量将达到175ZB
    • 数据量的急剧增长导致企业对数据处理效率的要求越来越高
    • 某些应用需要数秒内对海量数据进行计算和分析,并给出计算结果,否则得到的处理结果就是过时和无效的
  3. 多样的数据类型

    • 我们可以将数据类型简单的划分成:结构化数据半结构化数据非结构化数据
      • 结构化数据:存储在关系数据库(如MSSQLOracleMySQL)中的数据
      • 非结构化数据:不方便用关系数据库二维逻辑表来表现的数据(图片、音频、视频、模型、连接信息、文档、位置信息、网络日志等)。非结构化数据类型越来越多,对于多类型的数据的处理能力提出了更高的要求
      • 半结构化数据:具有一定的结构性,但数据的结构和内容混在一起,没有明显的区分(OEM是典型的半结构化数据模型)
  4. 低价值密度

    • 价值密度低是大数据的典型特征
    • 大数据时代选取数据的理念是选择全体而非样本,会将所有数据纳入处理氛围
    • 这些数据单独被拿出来,彼此之间相关性很低,只有从宏观角度对数据分析,才能获取有价值的结果

2.大数据的来源


大数据原理与技术摘要学习
https://gcoder5.com/2023/03/12/大数据原理与技术摘要学习/
作者
Gcoder
发布于
2023年3月12日
许可协议