分类目录归档:个人成长

一文读懂数据湖:大数据时代的宝藏仓库


数据湖:概念与起源

在大数据时代的浪潮下,数据如同企业的宝藏,蕴含着无尽的商业价值与洞察。数据湖,作为一种创新的数据管理架构,正逐渐崭露头角,成为众多企业处理海量数据的得力工具。那么,究竟什么是数据湖呢?

数据湖,简单来说,是一个集中式的存储库,允许企业以任意规模存储所有结构化和非结构化数据 。与传统的数据存储方式不同,数据湖中的数据无需预先进行结构化处理,可按原样存储。这意味着企业可以将来自不同数据源、不同格式的数据,如关系数据库中的结构化数据、日志文件中的半结构化数据、文档和图像中的非结构化数据等,都汇聚到这个 “数据的湖泊” 中。

数据湖的起源可以追溯到 2010 年,由 Pent...

Read more

数据治理核心体系构建:战略+标准+质量+安全


数据治理架构:企业数字化转型的基石

在数字化浪潮席卷全球的当下,企业数字化转型已不再是一道选择题,而是关乎生存与发展的必答题。数据,作为数字化时代的核心资产,如同企业的 “血液”,流淌在业务运营的每一个环节,支撑着决策、驱动着创新。然而,随着数据量的爆发式增长、数据来源的日益繁杂以及数据应用场景的不断拓展,数据管理面临着前所未有的挑战。数据碎片化、质量参差不齐、安全风险频发等问题,如同隐藏在暗处的礁石,随时可能让企业数字化转型的航船触礁搁浅。

数据治理架构应运而生,它是企业数字化转型的坚实基石,为企业提供了一套全面、系统的数据管理解决方案。通过构建科学合理的数据治理架构,企业能够对数据...

Read more

机器学习实战-基于Scikit-Learn,Keras和TensorFlow


机器学习的基础知识

机器学习概览

什么是机器学习

为什么要使用机器学习

应用示例

机器学习系统的类型

机器学习的主要挑战

测试和验证

端到端机器学习项目

使用真实数据

放眼大局

获取数据

探索和可视化数据以获得见解

为机器学习算法准备数据

选择和训练模型

微调模型

启动,监控和维护系统

分类

MNIST

训练二元分类器

性能测量

多类分类

错误分析

多标签分类

多输出分类

训练模型

线性回归

梯度下降

多项式回归

学习曲线

正则化线性模型

逻辑回归

支持向量机

线性SVM分类

非线性SVM分类

SVM回归

线性SVM 分类器的工作原理

对偶问题

决策树

训练和可视化决策树

做出预...

Read more