本书共8章,内容主要包括Spark概述及入门实战,Spark的作业调度和资源分配算法,SparkSQL、DataFrame、Dataset的原理和实战,深入理解Spark数据源,流式计算的原理和实战,亿级数据处理平台Spark性能调优,Spark机器学习库,Spark3.0的新特性和数据湖等。 本书适合Spark开发人
本书围绕大数据采集、汇聚、存储、计算、分析、挖掘、可视化等处理全过程,基于Flume、Kafka、HDFS、HBase、MapReduce、Spark、Hive、ECharts等主流软件全面介绍大数据的基础原理和核心技术,以及人工智能、云计算和物联网等大数据相关内容,并在此基础上进一步阐述政务、商业等行业大数据,以及文
本书基于Flink的稳定版本1.13,从Flink数据处理思想开始讲解,带领读者深入理解Flink的基本架构,进而由浅入深,结合具体案例,详细剖析了Flink中DataStreamAPI的使用,并对Flink中的时间语义、状态、容错机制等重要概念进行了详尽的阐述。另外,本书还对实际开发中常用的FlinkSQL、CEP等
本书以数据思维为主题,以数据分析全流程为主线,融合了与数据思维相关的编程语言、统计学基础及案例分析等内容,全书分为4篇,囊括了数据思维的概念和培养方法、数据来源及体系建设、数据分析三大思维方式及用户流失、用户转化实战等共11章的内容。本书囊括了数据分析中常用的分析方法,包括经典的海盗(AARRR)模型、麦肯锡的MECE
本书详细阐述了大数据领域数据采集与预处理的相关理论和技术。全书共8章,内容包括概述、大数据实验环境搭建、网络数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具Kettle、使用pandas进行数据清洗。本书在第3章至第8章中安排了丰富的实践操作,以便读者更好地学习和掌握数据采集
随着科学技术的迅猛发展,具有复杂分层结构的数据在现实生活中很普遍。能完全剖析这类数据,发觉该类数据表象下的潜在规律性对于统计学等科研领域很有意义。本书致力于介绍复杂分层数据分析前沿知识,侧重于分层分位回归理论、方法及其应用研究。内容主要包括三大块:分层数据建模、分位回归与分层-分位回归。主要涉及到线性分层分位回归模拟、
本书通过理论与实践相结合的方式,深入浅出地介绍了文件系统的概念、原理和具体实现。本书涵盖本地文件系统、网络文件系统、分布式文件系统和对象存储等内容,可以说涵盖了数据持久化文件系统的主要领域。为了使读者更加深入地理解文件系统的原理,本书不仅介绍了文件系统的原理和关键技术,还结合开源项目介绍了文件系统的实现细节。最后,本书
数据分析是指用适当的数学方法对收集来的大量数据进行分析,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究及概括总结的过程。数据分析的目的在于把隐藏在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来。 数据科学是高等学校非计算机专业本科学生必修的一门公共基础课程,
本书的编写以工作过程为指导,以典型项目为依托,以传感器被测量的不同划分学习项目,每个学习项目是以具体的工作任务为主线,通过任务分析、知识准备、任务实施和任务拓展等环节,全面介绍了常用传感器的基本原理、参数、检测方法、典型电路以及安装调试等。本书内容丰富、结构紧凑、图文并茂、通俗易懂,符合认知规律。任务的选择均来自生产实
本书介绍传感器的基本知识、传感器组成与分类、传感器的材料及特性、传感器标定与校准、传感检测技术的作用和发展,重点讲解位移、力学、温度、气敏、湿度、光电、视觉等方面的传感器的工作原理与应用方法,对传感器检测的输出信号处理、传感器与微机的接口、传感器网络进行详细叙述。本书还包含根据工学结合课程的教学安排编写的综合实训。本书