分类目录归档:个人成长

一文读懂数据湖:大数据时代的宝藏仓库


数据湖:概念与起源

在大数据时代的浪潮下,数据如同企业的宝藏,蕴含着无尽的商业价值与洞察。数据湖,作为一种创新的数据管理架构,正逐渐崭露头角,成为众多企业处理海量数据的得力工具。那么,究竟什么是数据湖呢?

数据湖,简单来说,是一个集中式的存储库,允许企业以任意规模存储所有结构化和非结构化数据 。与传统的数据存储方式不同,数据湖中的数据无需预先进行结构化处理,可按原样存储。这意味着企业可以将来自不同数据源、不同格式的数据,如关系数据库中的结构化数据、日志文件中的半结构化数据、文档和图像中的非结构化数据等,都汇聚到这个 “数据的湖泊” 中。

数据湖的起源可以追溯到 2010 年,由 Pent...

Read more

数据治理核心体系构建:战略+标准+质量+安全


数据治理架构:企业数字化转型的基石

在数字化浪潮席卷全球的当下,企业数字化转型已不再是一道选择题,而是关乎生存与发展的必答题。数据,作为数字化时代的核心资产,如同企业的 “血液”,流淌在业务运营的每一个环节,支撑着决策、驱动着创新。然而,随着数据量的爆发式增长、数据来源的日益繁杂以及数据应用场景的不断拓展,数据管理面临着前所未有的挑战。数据碎片化、质量参差不齐、安全风险频发等问题,如同隐藏在暗处的礁石,随时可能让企业数字化转型的航船触礁搁浅。

数据治理架构应运而生,它是企业数字化转型的坚实基石,为企业提供了一套全面、系统的数据管理解决方案。通过构建科学合理的数据治理架构,企业能够对数据...

Read more

机器学习实战-基于Scikit-Learn,Keras和TensorFlow


机器学习的基础知识

机器学习概览

什么是机器学习

为什么要使用机器学习

应用示例

机器学习系统的类型

机器学习的主要挑战

测试和验证

端到端机器学习项目

使用真实数据

放眼大局

获取数据

探索和可视化数据以获得见解

为机器学习算法准备数据

选择和训练模型

微调模型

启动,监控和维护系统

分类

MNIST

训练二元分类器

性能测量

多类分类

错误分析

多标签分类

多输出分类

训练模型

线性回归

梯度下降

多项式回归

学习曲线

正则化线性模型

逻辑回归

支持向量机

线性SVM分类

非线性SVM分类

SVM回归

线性SVM 分类器的工作原理

对偶问题

决策树

训练和可视化决策树

做出预...

Read more

构建机器学习应用-V2


让机器学习要找对方法

从产品目标到机器学习框架

制定方案

建成可用的流水线

搭建你的首条端到端流水线

获取初始数据集

模型迭代

训练和评估模型

调试机器学习模型

用分类器生成写作建议

部署与监控

部署模型的注意事项

选择部署方案

搭建模型防护罩

监控和更新模型

Read more

大数据平台架构分层概述


大数据时代,平台架构为何至关重要?

在信息技术飞速发展的当下,我们已然步入了大数据时代。随着互联网、物联网、移动互联网等技术的广泛普及,数据以前所未有的速度和规模不断涌现。社交媒体上的每一次点赞、评论与分享,电商平台上的每一笔交易记录,物联网设备源源不断传输的数据,都如同涓涓细流,汇聚成了浩瀚的数据海洋。据国际数据公司(IDC)预测,全球每年产生的数据量将从 2018 年的 33ZB 增长到 2025 年的 175ZB,数据量的增长可谓是呈指数级爆发。

这些海量的数据蕴含着巨大的价值,成为了企业在激烈市场竞争中脱颖而出的关键资源。通过对市场数据和消费者行为数据的深入分析,企业能够精准洞察...

Read more