发现一个不错的库推荐给大家:DuckDB + Python + Pandas 量化研究利器
itomcoil 2025-09-04 07:56 5 浏览
大家好,我是花姐。
最近折腾数据处理的时候,发现了一个宝藏库——DuckDB,配合 Python 和 Pandas 简直不要太香!今天我就聊聊它到底有多好用,特别适合我们搞量化研究的同学。
1. DuckDB 是什么?
DuckDB 是一款嵌入式的 OLAP 数据库,目标就是把复杂 SQL 的计算能力直接带到 Python 里。
和传统数据库不一样:
- 无需安装服务器,pip 一行命令搞定
- 完全运行在本地进程里,数据交互无延迟
- SQL 查询可以直接对 Pandas DataFrame、CSV、Parquet 等各种数据源执行
一句话:像写 SQL 一样处理数据,比 Pandas 更快,内存占用更低,还能跨格式操作。
2. 安装方式超级简单
只需要一行命令:
pip install duckdb
装完后就能在 Jupyter / VSCode 里直接用,不用连数据库、不用部署服务。
3. 数据处理的核心优势
3.1 直接读文件
CSV、Parquet、JSON 等文件,可以直接用 DuckDB 的 SQL 读取:
import duckdb
# 读 CSV
duckdb.read_csv('daily.csv')
# 读 parquet
duckdb.read_parquet('data/*.parquet')
# 或直接 SQL
duckdb.sql("SELECT * FROM 'data/daily.csv'")
无需手动用 pandas 先读,DuckDB 自带高效的文件读取引擎。
3.2 SQL 直接跑在 Pandas DataFrame 上
这个特性对量化研究太友好了!
import pandas as pd
import duckdb
df = pd.read_csv('daily.csv')
res = duckdb.sql("""
SELECT symbol, AVG(close) AS avg_close
FROM df
WHERE date >= '2024-01-01'
GROUP BY symbol
""").df()
不用注册、不用额外配置,DuckDB 会自动识别 Python 里的 DataFrame,当成表来查。
3.3 支持 Arrow、Polars、云端数据
如果数据是 Arrow/Polars 格式,DuckDB 也能直接使用;
文件路径支持 HTTP/HTTPS/S3,云上的数据能直接查询,非常灵活。
4. 量化研究的高频应用场景
4.1 直接查询超大 CSV
行情或分钟数据很大时,用 pandas 直接读常常爆内存,用 DuckDB 一条 SQL 就能过滤聚合:
duckdb.sql("""
SELECT date, symbol, close
FROM read_csv('daily.csv')
WHERE symbol IN ('000001.SZ','600000.SH')
""").df()
4.2 多表 join 超方便
因子表、行情表、行业表,多表合并一条 SQL 解决:
duckdb.sql("""
SELECT p.date, p.symbol, p.close, f.pb, f.pe
FROM read_parquet('price.parquet') p
JOIN read_parquet('factor.parquet') f
ON p.symbol = f.symbol AND p.date = f.date
""").df()
4.3 窗口函数秒算指标
像滚动均线、动量指标,用 SQL 的窗口函数一行就搞定:
duckdb.sql("""
SELECT symbol, date,
AVG(close) OVER(PARTITION BY symbol ORDER BY date ROWS 19 PRECEDING) AS ma20
FROM read_parquet('price.parquet')
""").df()
5. 为什么强烈推荐?
- 简单省心:免部署,不用维护数据库
- 性能强:比 pandas 快很多,join/聚合/窗口函数都快
- 无缝衔接:对 Pandas DataFrame 和 Parquet 文件支持非常顺滑
- 代码优雅:用 SQL 代替繁琐的链式 pandas 代码,逻辑清晰
对我们搞量化的来说,这就是一把开箱即用的数据分析利器。
花姐小结
DuckDB + Python + Pandas,这套组合简直就是量化研究的新神器,特别适合处理日线、分钟线、财务因子这些大数据。
如果你也经常被 pandas 的慢和内存瓶颈搞得焦头烂额,不妨试试它!
相关推荐
- NAS下搭建FastGpt,一个基于 LLM 大语言模型的知识库问答系统
-
本内容来源于@什么值得买APP,观点仅代表作者本人|作者:熊猫不是猫QAQ前言FastGPT是一个基于LLM大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。同时可以通过Flow可...
- MongoDB入门实操《二》_mongodb从入门到商业实战
-
常规命令使用首先我们来了解几个概念,虽然MongoDB入门实操《上篇》这篇文章已经提到过,这里再次加深印象:集合:Mongo中的集合就是mysql的表的表现形式文档:文档的数据结构和JSON基本...
- Go语言零到一:数据库交互_go语言数据库连接池
-
引言Go语言的database/sql包为开发者提供了一个抽象层,使得与MySQL数据库的交互变得更加容易。1.安装MySQL驱动为了能够与MySQL数据库通信,我们需要安装go...
- Java中使用MongoDB数据库_java操作mongo
-
一、Java实现对MongDB的操作1、前提条件除了通过启动mongo进程进如Shell环境访问数据库外,MongoDB还提供了其他基于编程语言的访问数据库方法。MongoDB官方提...
- Spring Boot 集成 MongoDB:从入门到生产实践
-
1、MongoDB简介MongoDB是一个开源的、面向文档的NoSQL数据库,旨在提供高性能、高可用性和易扩展性。它与传统的关系型数据库(如MySQL)有着根本性的区别。面向文档(Docum...
- 发现一个不错的库推荐给大家:DuckDB + Python + Pandas 量化研究利器
-
大家好,我是花姐。最近折腾数据处理的时候,发现了一个宝藏库——DuckDB,配合Python和Pandas简直不要太香!今天我就聊聊它到底有多好用,特别适合我们搞量化研究的同学。1.Duck...
- SpringBoot 自研「轻量级 API 防火墙」:单机内嵌,支持在线配置
-
1.背景与痛点在做后端开发时,我们常常会遇到这样的困境:接口被恶意刷流量:比如某个查询接口被短时间大量调用,数据库连接数打满,最终拖垮整个服务。缺少细粒度防护能力:很多系统只有粗糙的全局限流,但某些...
- 福建新画卷,把福建成绩“画”给你看
-
·x-_p-_o-[U2FsdGVkX1/DHR1fwp5qMkbHvRjusk9BgvDHM/8zbH+7Z+bZnW0jD3Vk67FnKGbJHp2L4vKFqg7ryQ7Zadr0+p+82E...
- [续]江西话汉语赣方言之叠词_江西话什么意思
-
一、赣语耒阳话每次去湖南耒阳,老俵听到我是江西人,都分外亲切:“我们祖上是从江西迁过来的!”在得知明朝初年湖广因战乱赤地千里,耒阳人祖上大都从江西永新迁来后,我就特别留意耒阳方言:耒阳话不仅保留了老...
- SpringBoot 在线依赖包漏洞扫描仪,一键发现潜在安全漏洞
-
在日常项目开发中,依赖第三方库几乎是不可避免的。从spring-boot-starter到MyBatis、Log4j,再到各种工具类库,几乎每个应用都需要几十甚至上百个依赖。然而,这些依赖并非完...
- 一文学会Python的变量命名规则!_简述python变量命名规则
-
目录1.变量的命名原则3.内置函数尽量不要做变量4.删除变量和垃圾回收机制5.结语1.变量的命名原则①由英文字母、_(下划线)、或中文开头②变量名称只能由英文字母、数字、下画线或中文字所组成。③英文字...
- Python中8种Functools使用方法_python functools.partial
-
在本文中,我们来看看functools标准库模块以及您可以用它做的6件很酷的事情1.缓存可以使用@cache装饰器(以前称为@lru_cache)作为“简单的轻量级无界函数缓存”。典型的例子是...
- 每天5分钟,python 速成(59)_python速成视频教程
-
首先明确学习目标,今天的目标是python中模块学习模块模块就好比是工具包,要想使用这个工具包中的工具(就好比函数),就需要导入这个模块importrandomimportmath#数学相...
- 珍藏版-11款爱心的免费公布的数学方程式和可视化-python版
-
一,图:1直角坐标系(9款):2追加一款:直角坐标系:3极坐标系(1款):二,爱心的数学方程式:1直角坐标系:1.1方程式1:Love-1进行转换:python代码中需要进行修改为:x=...
- 12种不同方法教你用Python性能优化!(建议收藏)
-
前言:今天为大家带来的内容是12种不同方法教你用Python性能优化!希望通过本文的内容能够帮助到各位!(代码块是用图片的方式呈现出来)1.减少冗余数据如用上三角或下三角的方式去保存一个大的对称矩阵。...
- 一周热门
- 最近发表
-
- NAS下搭建FastGpt,一个基于 LLM 大语言模型的知识库问答系统
- MongoDB入门实操《二》_mongodb从入门到商业实战
- Go语言零到一:数据库交互_go语言数据库连接池
- Java中使用MongoDB数据库_java操作mongo
- Spring Boot 集成 MongoDB:从入门到生产实践
- 发现一个不错的库推荐给大家:DuckDB + Python + Pandas 量化研究利器
- SpringBoot 自研「轻量级 API 防火墙」:单机内嵌,支持在线配置
- 福建新画卷,把福建成绩“画”给你看
- [续]江西话汉语赣方言之叠词_江西话什么意思
- SpringBoot 在线依赖包漏洞扫描仪,一键发现潜在安全漏洞
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)