百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

开源利器DuckDB实测:把MongoDB全量数据导入MySQL

itomcoil 2025-02-24 16:48 13 浏览

作者介绍

贺春旸,dbaplus社群金牌专家,凡普金科和爱钱进DBA团队负责人,《MySQL管理之道:性能调优、高可用与监控》第一&二版、《MySQL运维进阶指南》作者,曾任职于中国移动飞信、安卓机锋网。五次荣获dbaplus年度MVP,致力于MariaDB、MongoDB等开源技术的研究,主要负责数据库性能调优、监控和架构设计。


一、DuckDB 是什么


2024 年 6 月 3 日,经过六年打磨,开源高性能分析型数据库 DuckDB 正式发布了 1.0.0 版本。


DuckDB 是一款功能强大的嵌入式分析型数据库,常被誉为 SQLite 的升级版。它不仅具备 SQLite 的轻量级、易用性,还支持更复杂的 SQL 查询和分析功能。


在数据迁移场景中,DuckDB 可以充当一个高效的 ETL 工具,帮助我们快速将 MongoDB 中的全量数据导入到 MySQL 数据库中。


二、DuckDB 的优势


  • 简单易用:DuckDB 无需繁琐的安装过程,仅需一个启动文件即可运行。
  • 灵活适配:支持直接映射 MySQL 数据库,实现本地读写 MySQL 表数据。
  • 数据兼容:支持读取本地 JSON 文件,方便处理各种格式的数据。
  • 高效处理:采用列式存储,擅长处理大规模数据集的分析查询。
  • 本地运行:无需设置端口号,降低了部署和管理的复杂性。


三、迁移步骤示例


1、导出 MongoDB 数据


使用 mongoexport 工具将 MongoDB 中的目标集合导出为 JSON 文件。

shell> mongoexport -u admin -p 123456 -h 192.168.137.131:27017 -d test -c students 
--authenticationDatabase admin 
-o /mnt/mongo_bak/student.json


student.json文件内容:

shell> jq  .  /mnt/mongo_bak/students.json
{
  "_id": {
    "$oid": "66cfd71e67a1f9c596bdae5e"
  },
  "id": 1,
  "name": "张伟",
  "age": 20,
  "courses": [
    {
      "course_id": "CS101",
      "course_name": "计算机基础",
      "credits": 3
    },
    {
      "course_id": "MATH202",
      "course_name": "高等数学",
      "credits": 4
    }
  ],
  "address": {
    "street": "北京市朝阳区幸福路123号",
    "city": "北京",
    "state": "北京市",
    "zip": "100000"
  }
}
{
  "_id": {
    "$oid": "66cfd71e67a1f9c596bdae5f"
  },
  "id": 2,
  "name": "李娜",
  "age": 22,
  "courses": [
    {
      "course_id": "BIO301",
      "course_name": "生物学基础",
      "credits": 3
    }
  ],
  "address": {
    "street": "上海市浦东新区花园路456号",
    "city": "上海",
    "state": "上海市",
    "zip": "200000"
  }
}


2、加载到 DuckDB

shell> 修改duckdb提示符
shell> cat prompt.sql
.prompt 'duckdb> '


shell> -- 连接到me数控库里,me.duckdb为数据文件       
shell> ./duckdb me.duckdb -init prompt.sql


使用 DuckDB 的 SQL 语句将导出的 JSON 文件加载到一个 DuckDB 表中。

duckdb> -- 转换为MySQL输出形式
duckdb> .mode table


duckdb> -- 安装扩展MySQL和JSON
duckdb> INSTALL json;
duckdb> INSTALL mysql;


duckdb> create table student as 
SELECT * FROM read_json('/mnt/mongo_bak/students.json', columns = {'id': 'INTEGER', 'name':'VARCHAR', 'age':'INTEGER',   'courses': 'JSON', 'address': 'JSON'});


3、得到 DuckDB 表结构

duckdb> WITH table_columns AS (
    SELECT 
        name,
        type,
        CASE WHEN "notnull" = 1 THEN 'NOT NULL' ELSE '' END AS not_null
    FROM pragma_table_info('student')
)
SELECT 
    'CREATE TABLE student (' || 
    string_agg(name || ' ' || type || ' ' || not_null, ', ') || 
    ');' AS create_table_sql
FROM table_columns;
+------------------------------------------------------------------------------------------------+
|                                        create_table_sql                                        |
+------------------------------------------------------------------------------------------------+
| CREATE TABLE student (id INTEGER , name VARCHAR , age INTEGER , courses JSON , address JSON ); |
+------------------------------------------------------------------------------------------------+


4、创建 MySQL 表


在 MySQL 中创建一个与 DuckDB 表结构相同的表。

CREATE TABLE student (
    id int,
    name VARCHAR(255),
    age int,
    courses JSON,
    address JSON
);


5、数据迁移


使用 DuckDB 的 SQL 语句将数据从 DuckDB 表中插入到 MySQL 表中。

duckdb> ATTACH 'host=192.168.137.131 user=admin password=123456 port=6666 database=test' AS mysql_test (TYPE mysql_scanner);
duckdb> insert into mysql_test.student SELECT * FROM me.student;


四、DuckDB 在迁移过程中的作用


  • 中间缓存:DuckDB 作为中间层,可以将 MongoDB 的数据加载到内存中,加速数据处理。
  • 数据清洗:在 DuckDB 中,可以对数据进行清洗、转换和筛选,以满足 MySQL 的导入要求。
  • 性能优化:DuckDB 的列式存储和高效查询引擎,可以显著提升数据迁移的性能。


五、总结


DuckDB 凭借其易用性、灵活性、高效性,为 MongoDB 到 MySQL 的数据迁移提供了便捷而强大的解决方案。通过合理利用 DuckDB,我们可以快速、准确地完成大规模数据的迁移任务。

相关推荐

selenium(WEB自动化工具)

定义解释Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7,8,9,10,11),MozillaF...

开发利器丨如何使用ELK设计微服务中的日志收集方案?

【摘要】微服务各个组件的相关实践会涉及到工具,本文将会介绍微服务日常开发的一些利器,这些工具帮助我们构建更加健壮的微服务系统,并帮助排查解决微服务系统中的问题与性能瓶颈等。我们将重点介绍微服务架构中...

高并发系统设计:应对每秒数万QPS的架构策略

当面试官问及"如何应对每秒几万QPS(QueriesPerSecond)"时,大概率是想知道你对高并发系统设计的理解有多少。本文将深入探讨从基础设施到应用层面的解决方案。01、理解...

2025 年每个 JavaScript 开发者都应该了解的功能

大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发。1.Iteratorhelpers开发者...

JavaScript Array 对象

Array对象Array对象用于在变量中存储多个值:varcars=["Saab","Volvo","BMW"];第一个数组元素的索引值为0,第二个索引值为1,以此类推。更多有...

Gemini 2.5编程全球霸榜,谷歌重回AI王座,神秘模型曝光,奥特曼迎战

刚刚,Gemini2.5Pro编程登顶,6美元性价比碾压Claude3.7Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。谷歌,彻底打了一场漂亮的翻...

动力节点最新JavaScript教程(高级篇),深入学习JavaScript

JavaScript是一种运行在浏览器中的解释型编程语言,它的解释器被称为JavaScript引擎,是浏览器的一部分,JavaScript广泛用于浏览器客户端编程,通常JavaScript脚本是通过嵌...

一文看懂Kiro,其 Spec工作流秒杀Cursor,可移植至Claude Code

当Cursor的“即兴编程”开始拖累项目质量,AWS新晋IDEKiro以Spec工作流打出“先规范后编码”的系统工程思维:需求-设计-任务三件套一次生成,文档与代码同步落地,复杂项目不...

「晚安·好梦」努力只能及格,拼命才能优秀

欢迎光临,浏览之前点击上面的音乐放松一下心情吧!喜欢的话给小编一个关注呀!Effortscanonlypass,anddesperatelycanbeexcellent.努力只能及格...

JavaScript 中 some 与 every 方法的区别是什么?

大家好,很高兴又见面了,我是姜茶的编程笔记,我们一起学习前端相关领域技术,共同进步,也欢迎大家关注、点赞、收藏、转发,您的支持是我不断创作的动力在JavaScript中,Array.protot...

10个高效的Python爬虫框架,你用过几个?

小型爬虫需求,requests库+bs4库就能解决;大型爬虫数据,尤其涉及异步抓取、内容管理及后续扩展等功能时,就需要用到爬虫框架了。下面介绍了10个爬虫框架,大家可以学习使用!1.Scrapysc...

12个高效的Python爬虫框架,你用过几个?

实现爬虫技术的编程环境有很多种,Java、Python、C++等都可以用来爬虫。但很多人选择Python来写爬虫,为什么呢?因为Python确实很适合做爬虫,丰富的第三方库十分强大,简单几行代码便可实...

pip3 install pyspider报错问题解决

运行如下命令报错:>>>pip3installpyspider观察上面的报错问题,需要安装pycurl。是到这个网址:http://www.lfd.uci.edu/~gohlke...

PySpider框架的使用

PysiderPysider是一个国人用Python编写的、带有强大的WebUI的网络爬虫系统,它支持多种数据库、任务监控、项目管理、结果查看、URL去重等强大的功能。安装pip3inst...

「机器学习」神经网络的激活函数、并通过python实现激活函数

神经网络的激活函数、并通过python实现whatis激活函数感知机的网络结构如下:左图中,偏置b没有被画出来,如果要表示出b,可以像右图那样做。用数学式来表示感知机:上面这个数学式子可以被改写:...