读书摘要
《机器学习:大数据平台的构建、任务实现与数据治理——使用Azure、DevOps、MLOps》是一本全面介绍如何在Azure平台上利用DevOps和MLOps进行机器学习实践的书籍。
书中从基础知识入手,详细介绍了数据工程的相关概念,包括数据平台的构成、基础设施即代码等内容。接着阐述了在Azure平台上的数据存储,如跨多个数据织物存储数据、使用SSOT等。
在数据处理章节,讲解了数据建模技术、数据仓库等内容,帮助读者理解如何对数据进行处理和管理。编排部分则介绍了如何引入Azure Machine Learning,以及进行编排操作。
机器学习章节深入探讨了如何训练一个机器学习模型,包括使用scikit - learn训练模型、高消费者模型实现等。同时还涉及了数据质量的相关内容,如使用Azure Data Factory进行数据质量检查。
数据治理是书中的重要部分,包括合规性、数据分类、数据敏感度等内容,还讲解了如何通过Azure Purview进行数据治理。
数据共享与分析章节中,介绍了数据分发、构建数据API等内容,以及如何进行数据分析工作流程的设计。
此外,书中还涵盖了扩展数据测试、Azure Machine Learning的扩展规模等实践操作,以及如何使用Azure Monitor进行监控等内容。
总体而言,这本书适合想要深入了解在Azure平台上进行机器学习实践,包括数据处理、模型训练、数据治理和分析等操作的数据工程师和机器学习从业者阅读。
三级读书目录
第一部分:基础设施
• 第1章:简介
• 1.1什么是数据工程
• 1.2本书读者对象
• 1.3什么是数据平台
• 1.3.1数据平台的构成
• 1.3.2基础设施即代码,无代码基础设施
• 1.4使用云构建
• 1.4.1 IaaS、PaaS和SaaS
• 1.4.2网络、存储和计算
• 1.4.3如何使用Azure
• 1.4.4与Azure交互
• 1.5实现Azure数据平台
• 第2章:存储
• 2.1在数据平台中存储数据
• 2.1.1跨多个数据织物存储数据
• 2.1.2 SSOT
• 2.2 Azure Data Explorer
• 2.2.1简介
• 2.2.2部署Azure Data Explorer集群
• 第3章:DevOps
• 3.1什么是DevOps
• 3.2 Azure DevOps简介
• 3.3部署基础设施
• 3.3.1导出Azure Resource Manager模板
• 3.3.2创建Azure DevOps服务连接
• 3.3.3部署Azure Resource Manager模板
• 3.3.4理解Azure Pipelines
第二部分:数据处理与机器学习
• 第4章:编排
• 4.1引入Bing COVID - 19开放数据集
• 4.2 Azure Data Factory简介
• 4.2.1设置数据源
• 4.2.2设置数据接收器
• 4.2.3设置管道
• 4.2.4设置触发器
• 4.2.5使用Azure Data Factory进行编排
• 4.3 Azure Data Factory的DevOps
• 4.3.1从Git部署Azure Data Factory
• 4.3.2设置访问控制ID
• 4.4使用Azure Monitor进行监控
• 第5章:数据处理
• 5.1数据建模技术
• 5.1.1规范化和反规范化
• 5.1.2数据仓库
• 5.2数据仓库
• 第7章:机器学习
• 7.1训练一个机器学习模型
• 7.1.1使用scikit - learn训练模型
• 7.1.2高消费者模型实现
• 7.2引入Azure Machine Learning
• 7.2.1创建工作区
• 7.2.2创建Azure Machine Learning计算目标
• 7.2.3设置Azure Machine Learning存储
• 7.2.4在云中运行机器
• 7.3 MLOps
• 7.3.1从Git部署
• 7.3.2存储管道ID
• 第9章:数据质量
• 9.1数据测试概述
• 9.1.1可用性测试
• 9.1.2正确性测试
• 9.1.3完整性测试
• 9.1.4异常测试
• 9.2使用Azure Data Factory进行数据质量检查
第三部分:数据治理与分析
• 第8章:元数据
• 8.1理解大数据平台中元数据的需求
• 8.2介绍Azure Purview
• 8.3维护数据字典
• 8.3.1设置扫描
• 8.3.2浏览数据字典
• 8.4管理数据术语表
• 8.4.1添加新的术语
• 8.4.2审查术语
• 8.4.3自定义模板和批量导入
• 8.5了解Azure Purview的高级功能
• 8.5.1追踪数据血缘
• 8.5.2分类规则
• 8.5.3 REST API
• 第10章:合规
• 10.1数据分类
• 10.1.1特征描述
• 10.1.2遥测数据
• 10.1.3用户数据
• 10.1.4用户拥有的数据
• 10.1.5业务数据
• 10.2将敏感数据变得不那么敏感
• 10.2.1聚合
• 10.2.2匿名化
• 10.2.3伪匿名化
• 10.2.4数据掩码
• 10.3访问控制模型
• 10.3.1安全组
• 10.3.2保护Azure Data Explorer
• 第11章:数据分发
• 11.1数据分发概述
• 11.2构建数据API
• 11.2.1 Azure Cosmos DB简介
• 11.2.2填充Cosmos DB
• 11.2.3检索数据
• 第12章:数据共享
• 12.1机器模型如何对外提供服务
• 12.2共享数据进行批量复制
• 12.2.1分离计算资源
• 12.2.2 Azure Data Share简介
• 12.3数据共享的最佳实践
• 第13章:数据分析
• 13.1开发环境和生产环境分离
• 13.2将生产数据部分复制到开发环境
• 13.3在开发环境中提供生产数据的只读视图
• 13.4设计数据分析的工作流程
• 13.4.1原型
• 13.4.2开发和用户验收测试
• 13.4.3生产环境
• 第14章:机器学习大数据平台的构建、任务实现与数据治理
• 14.1使用Azure Data Factory进行测试
• 14.2执行
• 14.3扩展数据测试
• 14.3.1支持多个数据平台
• 14.3.2按计划运行测试和触发运行测试
• 14.3.3编写测试
• 14.3.4存储测试定义和结果
• 14.4 GDP和其他考虑因素
• 14.4.1数据处理
• 14.4.2数据主体请求
• 14.4.3其他考虑因素
• 附录A:Azure服务
• 附录B:KQL快速参考
• 附录C:运行代码示例