作者文章归档:course

docker 删除None 镜像


要删除所有标签为 <none> 的 Docker 镜像(悬空镜像),可以使用以下命令:

推荐命令(安全高效):

docker image prune -f

命令详解:

  1. docker image prune:Docker 自带的清理命令,专门用于删除悬空镜像(未被任何容器引用的中间层镜像)。
  2. -f--force:跳过确认提示,直接删除。

备选方案(手动过滤删除):

如果仍需删除所有包含 <none> 标签的镜像(谨慎使用,可能误删依赖项):

docker rmi $(docker images -f "dangling=true"...

Read more

MongoShake同步两个MongoDB单实例的完整指南


使用MongoShake同步两个MongoDB单实例的完整指南

针对两个MongoDB单实例(非副本集)的同步场景,我将提供详细的配置和操作步骤。由于单实例默认不启用oplog,需要进行特殊配置。

前提条件

  1. 两个MongoDB单实例(假设IP分别为192.168.1.101192.168.1.102
  2. 确保两个实例的网络互通
  3. 每个实例需创建具有读写权限的用户

步骤1:配置源MongoDB实例启用oplog

  1. 编辑源MongoDB配置文件(通常位于/etc/mongod.conf):
storage:
  journal:
    enabled: true

systemLog:...

Read more

MongoDB单实例(A → B)之间实现自动同步方案-Cases


如果你需要在两个MongoDB单实例(A → B)之间实现自动同步,使用MongoShake是最成熟且灵活的开源方案。它通过抓取源库的Oplog实现数据复制,支持全量+增量同步。以下是完整操作指南:


🔧 一、工具选型:MongoShake核心优势

  • 适用场景:单实例→单实例、副本集→副本集、混合云同步。
  • 原理:读取源库(A)的Oplog,重放到目标库(B)。
  • 支持同步模式
  • all:全量+增量同步(推荐初次使用)。
  • incr:仅增量同步(适用于持续备份)。
  • full:仅全量同步。

⚙️ 二、同步前准备

1. 环境要求

  • 源库(A)与目标库(B)
  • 启用Oplog:单实例需初始化为副...

Read more

MongoShake-数据库同步工具


这个仓库是 MongoShake,由阿里云的 NoSQL 团队开发和维护,是一个基于 MongoDB 的 oplog 的通用平台,用于从源 MongoDB 数据库获取 oplog 并在目标 MongoDB 数据库中重放,或通过不同的隧道发送到其他端点。以下是对该仓库的详细介绍:

功能特性

  1. 数据同步:可以将数据从源 MongoDB 复制到另一个 MongoDB,构建冗余复制或双活复制。支持多种源类型,包括单节点 mongod、副本集和分片集群,目标可以是 mongod 或 mongos。
  2. 并行复制:提供三种并行复制选项(shad_key):__id__collection__au...

Read more

Addax-开源的 ETL


该仓库名为 Addax,是一个开源的 ETL(Extract, Transform, Load)工具,其设计初衷是支持多种 SQL 和 NoSQL 数据源,以下是对该仓库的详细介绍:

项目概述

Addax 是一个可扩展的 ETL 工具,它支持 20 多种 SQL/NoSQL 数据源,是在阿里巴巴的 DataX 基础上进行分叉和演进而来的。该工具提供了一个不断发展的插件生态系统,并为数据集成提供了易于遵循的配置方式。

主要特性

  • 多数据源支持:支持 20 多种 SQL 和 NoSQL 数据源,并且易于扩展以支持更多数据源。
  • 配置简单:通过基于简单 JSON 的作业描述进行配置。
  • 积极维护:...

Read more

DataX-离线数据同步工具


这个仓库是阿里云开源的离线数据同步工具DataX,其主要功能是实现各种异构数据源之间高效的数据同步。以下是对该仓库的详细介绍:

项目概述

DataX是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行6年之久,目前每天完成同步8w多道作业,每日传输数据量超过300TB。

主要功能

  • 数据同步:实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS、da...

Read more

Fivetran-自动化数据移动平台



一段话总结

Fivetran是一家自动化数据移动平台,致力于助力企业加速洞察、优化运营并推动数据驱动决策,其通过收购Census强化了Reverse ETL能力,能从700+来源(涵盖SaaS应用、数据库等)自动、可靠且安全地将数据迁移至数据仓库等目的地,像jetBlue借助其实现TB级数据实时复制,Autodesk为超1.3万名员工提供受管数据访问,Pitney Bowes用其追踪800M+包裹,平台每月同步超9.1PB数据,还具备SOC 1&2、GDPR等多项安全合规认证,支持自托管、混合和SaaS等部署方式,可通过REST API编程创建管道,提供Quickstart数据...

Read more

EDB Postgres AI-主权 AI 和数据平台



一段话总结

EDB Postgres AI 是全球首个主权 AI 和数据平台,可在混合和主权环境中轻松管理、观察和运营数据以支持智能代理 AI,其配置器能根据工作负载、云策略和部署偏好定制方案,涵盖开发者(0–100 核)、企业(100–1,000 核)、企业(1,000–10,000 核)等层级,且被美国海军等企业采用,还提供福布斯文章、客户成功案例、博客、气候保护项目等资源,以及安全信任中心、免费培训和演示视频,用户可注册账户获取免费试用等支持。


思维导图

## **平台定位**
- 全球首个主权AI和数据平台
- 适用于混合和主权环境
## **核心功能**
- EDB Pos...

Read more

git- 放弃本地的所有修改-退回初始状态


在Git中,若要自动删除本地新增的文件并放弃所有修改,可按以下步骤操作:

  1. 放弃工作区的所有修改 借助git checkout -- .命令,能将工作区里所有文件恢复到和暂存区一样的状态。
git checkout -- .
  1. 删除所有未被追踪的文件和目录 运用git clean -fd命令,可删除那些没有被Git追踪的文件和目录。其中,-f代表强制删除,-d表示同时删除未被追踪的目录。
git clean -fd
  1. 组合命令 你可以把上述两个命令组合起来执行,这样就能一次性完成放弃修改和删除未被追踪文件的操作。
git checkout -- . &am...

Read more

DataWorks-智能大数据开发治理平台-阿里云



一段话总结

DataWorks是一站式智能大数据开发治理平台,提供数据集成、Data+AI一体化开发、数据分析、数据资产治理与智能Copilot服务,具备功能齐全(覆盖数据开发治理全生命周期)、智能易用(Web IDE、全图形化界面、Copilot辅助)、降本增效(云原生全托管)、安全稳定(金融级数据安全)等优势,已广泛应用于政务、金融等众多行业,且在2023年IDC中国大数据平台及数据治理市场份额中均位居第一。


思维导图

## **产品定位**
- 一站式智能大数据开发治理平台
- 适配MaxCompute、EMR等数十种计算服务
## **核心功能**
- 数据集成:支持大模型A...

Read more