机器学习:大数据平台的构建、任务实现与数据治理——使用Azure、DevOps、MLOps


读书摘要

《机器学习:大数据平台的构建、任务实现与数据治理——使用Azure、DevOps、MLOps》是一本全面介绍如何在Azure平台上利用DevOps和MLOps进行机器学习实践的书籍。

书中从基础知识入手,详细介绍了数据工程的相关概念,包括数据平台的构成、基础设施即代码等内容。接着阐述了在Azure平台上的数据存储,如跨多个数据织物存储数据、使用SSOT等。

在数据处理章节,讲解了数据建模技术、数据仓库等内容,帮助读者理解如何对数据进行处理和管理。编排部分则介绍了如何引入Azure Machine Learning,以及进行编排操作。

机器学习章节深入探讨了如何训练一个机器学习模型,包括使用scikit - learn训练模型、高消费者模型实现等。同时还涉及了数据质量的相关内容,如使用Azure Data Factory进行数据质量检查。

数据治理是书中的重要部分,包括合规性、数据分类、数据敏感度等内容,还讲解了如何通过Azure Purview进行数据治理。

数据共享与分析章节中,介绍了数据分发、构建数据API等内容,以及如何进行数据分析工作流程的设计。

此外,书中还涵盖了扩展数据测试、Azure Machine Learning的扩展规模等实践操作,以及如何使用Azure Monitor进行监控等内容。

总体而言,这本书适合想要深入了解在Azure平台上进行机器学习实践,包括数据处理、模型训练、数据治理和分析等操作的数据工程师和机器学习从业者阅读。

三级读书目录

第一部分:基础设施

• 第1章:简介

• 1.1什么是数据工程

• 1.2本书读者对象

• 1.3什么是数据平台

• 1.3.1数据平台的构成

• 1.3.2基础设施即代码,无代码基础设施

• 1.4使用云构建

• 1.4.1 IaaS、PaaS和SaaS

• 1.4.2网络、存储和计算

• 1.4.3如何使用Azure

• 1.4.4与Azure交互

• 1.5实现Azure数据平台

• 第2章:存储

• 2.1在数据平台中存储数据

• 2.1.1跨多个数据织物存储数据

• 2.1.2 SSOT

• 2.2 Azure Data Explorer

• 2.2.1简介

• 2.2.2部署Azure Data Explorer集群

• 第3章:DevOps

• 3.1什么是DevOps

• 3.2 Azure DevOps简介

• 3.3部署基础设施

• 3.3.1导出Azure Resource Manager模板

• 3.3.2创建Azure DevOps服务连接

• 3.3.3部署Azure Resource Manager模板

• 3.3.4理解Azure Pipelines

第二部分:数据处理与机器学习

• 第4章:编排

• 4.1引入Bing COVID - 19开放数据集

• 4.2 Azure Data Factory简介

• 4.2.1设置数据源

• 4.2.2设置数据接收器

• 4.2.3设置管道

• 4.2.4设置触发器

• 4.2.5使用Azure Data Factory进行编排

• 4.3 Azure Data Factory的DevOps

• 4.3.1从Git部署Azure Data Factory

• 4.3.2设置访问控制ID

• 4.4使用Azure Monitor进行监控

• 第5章:数据处理

• 5.1数据建模技术

• 5.1.1规范化和反规范化

• 5.1.2数据仓库

• 5.2数据仓库

• 第7章:机器学习

• 7.1训练一个机器学习模型

• 7.1.1使用scikit - learn训练模型

• 7.1.2高消费者模型实现

• 7.2引入Azure Machine Learning

• 7.2.1创建工作区

• 7.2.2创建Azure Machine Learning计算目标

• 7.2.3设置Azure Machine Learning存储

• 7.2.4在云中运行机器

• 7.3 MLOps

• 7.3.1从Git部署

• 7.3.2存储管道ID

• 第9章:数据质量

• 9.1数据测试概述

• 9.1.1可用性测试

• 9.1.2正确性测试

• 9.1.3完整性测试

• 9.1.4异常测试

• 9.2使用Azure Data Factory进行数据质量检查

第三部分:数据治理与分析

• 第8章:元数据

• 8.1理解大数据平台中元数据的需求

• 8.2介绍Azure Purview

• 8.3维护数据字典

• 8.3.1设置扫描

• 8.3.2浏览数据字典

• 8.4管理数据术语表

• 8.4.1添加新的术语

• 8.4.2审查术语

• 8.4.3自定义模板和批量导入

• 8.5了解Azure Purview的高级功能

• 8.5.1追踪数据血缘

• 8.5.2分类规则

• 8.5.3 REST API

• 第10章:合规

• 10.1数据分类

• 10.1.1特征描述

• 10.1.2遥测数据

• 10.1.3用户数据

• 10.1.4用户拥有的数据

• 10.1.5业务数据

• 10.2将敏感数据变得不那么敏感

• 10.2.1聚合

• 10.2.2匿名化

• 10.2.3伪匿名化

• 10.2.4数据掩码

• 10.3访问控制模型

• 10.3.1安全组

• 10.3.2保护Azure Data Explorer

• 第11章:数据分发

• 11.1数据分发概述

• 11.2构建数据API

• 11.2.1 Azure Cosmos DB简介

• 11.2.2填充Cosmos DB

• 11.2.3检索数据

• 第12章:数据共享

• 12.1机器模型如何对外提供服务

• 12.2共享数据进行批量复制

• 12.2.1分离计算资源

• 12.2.2 Azure Data Share简介

• 12.3数据共享的最佳实践

• 第13章:数据分析

• 13.1开发环境和生产环境分离

• 13.2将生产数据部分复制到开发环境

• 13.3在开发环境中提供生产数据的只读视图

• 13.4设计数据分析的工作流程

• 13.4.1原型

• 13.4.2开发和用户验收测试

• 13.4.3生产环境

• 第14章:机器学习大数据平台的构建、任务实现与数据治理

• 14.1使用Azure Data Factory进行测试

• 14.2执行

• 14.3扩展数据测试

• 14.3.1支持多个数据平台

• 14.3.2按计划运行测试和触发运行测试

• 14.3.3编写测试

• 14.3.4存储测试定义和结果

• 14.4 GDP和其他考虑因素

• 14.4.1数据处理

• 14.4.2数据主体请求

• 14.4.3其他考虑因素

• 附录A:Azure服务

• 附录B:KQL快速参考

• 附录C:运行代码示例