百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

开源利器DuckDB实测:把MongoDB全量数据导入MySQL

itomcoil 2025-02-24 16:48 22 浏览

作者介绍

贺春旸,dbaplus社群金牌专家,凡普金科和爱钱进DBA团队负责人,《MySQL管理之道:性能调优、高可用与监控》第一&二版、《MySQL运维进阶指南》作者,曾任职于中国移动飞信、安卓机锋网。五次荣获dbaplus年度MVP,致力于MariaDB、MongoDB等开源技术的研究,主要负责数据库性能调优、监控和架构设计。


一、DuckDB 是什么


2024 年 6 月 3 日,经过六年打磨,开源高性能分析型数据库 DuckDB 正式发布了 1.0.0 版本。


DuckDB 是一款功能强大的嵌入式分析型数据库,常被誉为 SQLite 的升级版。它不仅具备 SQLite 的轻量级、易用性,还支持更复杂的 SQL 查询和分析功能。


在数据迁移场景中,DuckDB 可以充当一个高效的 ETL 工具,帮助我们快速将 MongoDB 中的全量数据导入到 MySQL 数据库中。


二、DuckDB 的优势


  • 简单易用:DuckDB 无需繁琐的安装过程,仅需一个启动文件即可运行。
  • 灵活适配:支持直接映射 MySQL 数据库,实现本地读写 MySQL 表数据。
  • 数据兼容:支持读取本地 JSON 文件,方便处理各种格式的数据。
  • 高效处理:采用列式存储,擅长处理大规模数据集的分析查询。
  • 本地运行:无需设置端口号,降低了部署和管理的复杂性。


三、迁移步骤示例


1、导出 MongoDB 数据


使用 mongoexport 工具将 MongoDB 中的目标集合导出为 JSON 文件。

shell> mongoexport -u admin -p 123456 -h 192.168.137.131:27017 -d test -c students 
--authenticationDatabase admin 
-o /mnt/mongo_bak/student.json


student.json文件内容:

shell> jq  .  /mnt/mongo_bak/students.json
{
  "_id": {
    "$oid": "66cfd71e67a1f9c596bdae5e"
  },
  "id": 1,
  "name": "张伟",
  "age": 20,
  "courses": [
    {
      "course_id": "CS101",
      "course_name": "计算机基础",
      "credits": 3
    },
    {
      "course_id": "MATH202",
      "course_name": "高等数学",
      "credits": 4
    }
  ],
  "address": {
    "street": "北京市朝阳区幸福路123号",
    "city": "北京",
    "state": "北京市",
    "zip": "100000"
  }
}
{
  "_id": {
    "$oid": "66cfd71e67a1f9c596bdae5f"
  },
  "id": 2,
  "name": "李娜",
  "age": 22,
  "courses": [
    {
      "course_id": "BIO301",
      "course_name": "生物学基础",
      "credits": 3
    }
  ],
  "address": {
    "street": "上海市浦东新区花园路456号",
    "city": "上海",
    "state": "上海市",
    "zip": "200000"
  }
}


2、加载到 DuckDB

shell> 修改duckdb提示符
shell> cat prompt.sql
.prompt 'duckdb> '


shell> -- 连接到me数控库里,me.duckdb为数据文件       
shell> ./duckdb me.duckdb -init prompt.sql


使用 DuckDB 的 SQL 语句将导出的 JSON 文件加载到一个 DuckDB 表中。

duckdb> -- 转换为MySQL输出形式
duckdb> .mode table


duckdb> -- 安装扩展MySQL和JSON
duckdb> INSTALL json;
duckdb> INSTALL mysql;


duckdb> create table student as 
SELECT * FROM read_json('/mnt/mongo_bak/students.json', columns = {'id': 'INTEGER', 'name':'VARCHAR', 'age':'INTEGER',   'courses': 'JSON', 'address': 'JSON'});


3、得到 DuckDB 表结构

duckdb> WITH table_columns AS (
    SELECT 
        name,
        type,
        CASE WHEN "notnull" = 1 THEN 'NOT NULL' ELSE '' END AS not_null
    FROM pragma_table_info('student')
)
SELECT 
    'CREATE TABLE student (' || 
    string_agg(name || ' ' || type || ' ' || not_null, ', ') || 
    ');' AS create_table_sql
FROM table_columns;
+------------------------------------------------------------------------------------------------+
|                                        create_table_sql                                        |
+------------------------------------------------------------------------------------------------+
| CREATE TABLE student (id INTEGER , name VARCHAR , age INTEGER , courses JSON , address JSON ); |
+------------------------------------------------------------------------------------------------+


4、创建 MySQL 表


在 MySQL 中创建一个与 DuckDB 表结构相同的表。

CREATE TABLE student (
    id int,
    name VARCHAR(255),
    age int,
    courses JSON,
    address JSON
);


5、数据迁移


使用 DuckDB 的 SQL 语句将数据从 DuckDB 表中插入到 MySQL 表中。

duckdb> ATTACH 'host=192.168.137.131 user=admin password=123456 port=6666 database=test' AS mysql_test (TYPE mysql_scanner);
duckdb> insert into mysql_test.student SELECT * FROM me.student;


四、DuckDB 在迁移过程中的作用


  • 中间缓存:DuckDB 作为中间层,可以将 MongoDB 的数据加载到内存中,加速数据处理。
  • 数据清洗:在 DuckDB 中,可以对数据进行清洗、转换和筛选,以满足 MySQL 的导入要求。
  • 性能优化:DuckDB 的列式存储和高效查询引擎,可以显著提升数据迁移的性能。


五、总结


DuckDB 凭借其易用性、灵活性、高效性,为 MongoDB 到 MySQL 的数据迁移提供了便捷而强大的解决方案。通过合理利用 DuckDB,我们可以快速、准确地完成大规模数据的迁移任务。

相关推荐

python创建文件夹,轻松搞定,喝咖啡去了

最近经常在录视频课程,一个课程下面往往有许多小课,需要分多个文件夹来放视频、PPT和案例,这下可好了,一个一个手工创建,手酸了都做不完。别急,来段PYTHON代码,轻松搞定,喝咖啡去了!import...

如何编写第一个Python程序_pycharm写第一个python程序

一、第一个python程序[掌握]python:python解释器,将python代码解释成计算机认识的语言pycharm:IDE(集成开发环境),写代码的一个软件,集成了写代码,...

Python文件怎么打包为exe程序?_python3.8打包成exe文件

PyInstaller是一个Python应用程序打包工具,它可以将Python程序打包为单个独立可执行文件。要使用PyInstaller打包Python程序,需要在命令行中使用py...

官方的Python环境_python环境版本

Python是一种解释型编程开发语言,根据Python语法编写出来的程序,需要经过Python解释器来进行执行。打开Python官网(https://www.python.org),找到下载页面,选择...

[编程基础] Python配置文件读取库ConfigParser总结

PythonConfigParser教程显示了如何使用ConfigParser在Python中使用配置文件。文章目录1介绍1.1PythonConfigParser读取文件1.2Python...

Python打包exe软件,用这个库真的很容易

初学Python的人会觉得开发一个exe软件非常复杂,其实不然,从.py到.exe文件的过程很简单。你甚至可以在一天之内用Python开发一个能正常运行的exe软件,因为Python有专门exe打包库...

2025 PyInstaller 打包说明(中文指南),python 打包成exe 都在这里

点赞标记,明天就能用上这几个技巧!linux运维、shell、python、网络爬虫、数据采集等定定做,请私信。。。PyInstaller打包说明(中文指南)下面按准备→基本使用→常用...

Python自动化办公应用学习笔记40—文件路径2

4.特殊路径操作用户主目录·获取当前用户的主目录路径非常常用:frompathlibimportPathhome_dir=Path.home()#返回当前用户主目录的Path对象...

Python内置tempfile模块: 生成临时文件和目录详解

1.引言在Python开发中,临时文件和目录的创建和管理是一个常见的需求。Python提供了内置模块tempfile,用于生成临时文件和目录。本文将详细介绍tempfile模块的使用方法、原理及相关...

python代码实现读取文件并生成韦恩图

00、背景今天战略解码,有同学用韦恩图展示各个产品线的占比,效果不错。韦恩图(Venndiagram),是在集合论数学分支中,在不太严格的意义下用以表示集合的一种图解。它们用于展示在不同的事物群组之...

Python技术解放双手,一键搞定海量文件重命名,一周工作量秒搞定

摘要:想象一下,周五傍晚,办公室的同事们纷纷准备享受周末,而你,面对着堆积如山的文件,需要将它们的文件名从美国日期格式改为欧洲日期格式,这似乎注定了你将与加班为伍。但别担心,Python自动化办公来...

Python路径操作的一些基础方法_python路径文件

带你走进@机器人时代Discover点击上面蓝色文字,关注我们Python自动化操作文件避开不了路径操作方法,今天我们来学习一下路径操作的一些基础。Pathlib库模块提供的路径操作包括路径的...

Python爬取下载m3u8加密视频,原来这么简单

1.前言爬取视频的时候发现,现在的视频都是经过加密(m3u8),不再是mp4或者avi链接直接在网页显示,都是经过加密形成ts文件分段进行播放。今天就教大家如果通过python爬取下载m3u8加密视频...

探秘 shutil:Python 高级文件操作的得力助手

在Python的标准库中,shutil模块犹如一位技艺精湛的工匠,为我们处理文件和目录提供了一系列高级操作功能。无论是文件的复制、移动、删除,还是归档与解压缩,shutil都能以简洁高效的方式完成...

怎么把 Python + Flet 开发的程序,打包为 exe ?这个方法很简单!

前面用Python+Flet开发的“我的计算器v3”,怎么打包为exe文件呢?这样才能分发给他人,直接“双击”运行使用啊!今天我给大家分享一个简单的、可用的,把Flet开发的程序打包为...