《数据工程之道:设计和构建健壮的数据系统》书籍摘要
《数据工程之道:设计和构建健壮的数据系统》是一本全面阐述数据工程相关知识的专业书籍。
一、书籍目录
-
前言
-
第一部分 基础和构建块
• 第1章 数据工程概述
• 1.1 什么是数据工程
• 1.2 数据工程技能和活动
• 1.3 组织的数据工程师
• 1.4 总结
• 1.5 补充资料
• 第2章 数据工程生命周期
• 2.1 什么是数据工程生命周期
• 2.2 数据工程生命周期中的主要底层设计
• 2.3 总结
• 2.4 补充资料
• 第3章 设计好的数据架构
• 3.1 什么是数据架构
• 3.2 好的数据架构的原则
• 3.3 主要架构概念
• 3.4 数据架构的示例和类型
• 3.5 谁参与了数据架构的设计
- 第二部分 深入数据工程生命周期
• 第5章 源系统中的数据生成
• 5.1 数据源:数据是如何产生的?
• 5.2 源系统:主要观点
• 5.3 源系统实际细节
• 5.4 协调和一起工作
• 5.5 数据底层设计及其对源系统的影响
• 5.6 总结
• 5.7 补充资料
• 第6章 存储
• 6.1 数据存储的原材料
• 6.2 数据存储系统
• 6.3 数据工程存储选项
• 第7章 获取
• 7.1 查询、建模和转换
• 7.2 构建和工作流
• 7.3 总结
• 7.4 补充资料
• 第8章 准备
• 8.1 清洗和标准化
• 8.2 验证和质量保证
• 8.3 总结
• 8.4 补充资料
• 第9章 为分析、机器学习和反向ETL提供数据服务
• 9.1 提供数据服务的常见关注点
• 9.2 分析
• 9.3 机器学习
• 9.4 数据工程师需要理解的机器学习知识
• 9.5 为分析和机器学习提供数据服务的方法
• 9.6 反向ETL
- 第三部分 安全、隐私和数据工程的未来
• 第10章 安全和隐私
• 10.1 人员
• 10.2 流程
• 10.3 技术
• 10.4 补充资料
• 第11章 数据工程的未来展望
• 11.1 数据工程角色的演变
• 11.2 数据工程的未来方向
-
附录A 序列化和压缩细节
-
附录B 云网络
二、核心内容
- 数据工程基础
• 第一部分介绍了数据工程的基础概念,包括数据工程的定义、数据工程师所需的技能、数据工程在组织中的角色等内容。同时阐述了数据工程生命周期和数据架构设计的重要性和基本原则。
- 数据工程生命周期
• 第二部分深入探讨了数据工程生命周期的各个环节,从源系统中的数据生成开始,涵盖了数据存储、获取、准备等流程,还包括如何为分析、机器学习等提供数据服务。每个环节都详细说明了其涉及的技术、操作和设计要点。
- 数据工程的保障与未来发展
• 第三部分关注数据工程中的安全和隐私问题,提出了保障数据安全和隐私的人员、流程和技术方面的措施。同时对数据工程的未来进行了展望,讨论了数据工程角色的演变和未来的发展方向。
三、总结
这本书为数据工程领域提供了一套全面且系统的知识体系,从基础概念到实践操作,再到未来发展方向,适合数据工程师、数据科学家以及相关专业人员阅读,能够帮助他们深入理解数据工程并在实际工作中构建健壮的数据系统。