百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Vanna轻松实现本地化AI部署,轻松实现AI帮你写SQL

itomcoil 2025-05-09 19:19 2 浏览

Vanna 的工作原理

Vanna 的核心是一个 Python 软件包,它使用检索增强来帮助您使用 LLM 为数据库生成准确的 SQL 查询。

Vanna 通过两个简单的步骤工作 - 在您的数据上训练 RAG“模型”,然后提出问题,这些问题将返回 SQL 查询,这些查询可以设置为在您的数据库上自动运行。

  1. 在您的数据上训练 RAG“模型”。
  2. 提出问题

如果您不知道 RAG 是什么,请不要担心 - 您无需知道它在后台是如何工作的即可使用它。你只需要知道你 “训练” 了一个模型,该模型存储了一些元数据,然后用它来 “提出” 问题。


安装

pip install vanna

有许多可选软件包可以安装,因此请参阅文档了解更多详细信息。

进口

如果要自定义 LLM 或向量数据库,请参阅文档。

# The import statement will vary depending on your LLM and vector database. This is an example for OpenAI + ChromaDB

from vanna.openai.openai_chat import OpenAI_Chat
from vanna.chromadb.chromadb_vector import ChromaDB_VectorStore

class MyVanna(ChromaDB_VectorStore, OpenAI_Chat):
    def __init__(self, config=None):
        ChromaDB_VectorStore.__init__(self, config=config)
        OpenAI_Chat.__init__(self, config=config)

vn = MyVanna(config={'api_key': 'sk-...', 'model': 'gpt-4-...'})

# See the documentation for other options

训练

根据您的使用案例,您可能需要也可能不需要运行这些命令。有关更多详细信息,请参阅文档。vn.train

显示这些语句是为了让您了解其工作原理。

使用 DDL 语句进行训练

DDL 语句包含有关数据库中的表名、列、数据类型和关系的信息。

vn.train(ddl="""
    CREATE TABLE IF NOT EXISTS my-table (
        id INT PRIMARY KEY,
        name VARCHAR(100),
        age INT
    )
""")

使用文档进行训练

有时,您可能希望添加有关您的业务术语或定义的文档。

vn.train(documentation="Our business defines XYZ as ...")

使用 SQL 进行训练

您还可以将 SQL 查询添加到训练数据中。如果您已经有一些查询,这将非常有用。您只需从编辑器中复制并粘贴这些内容即可开始生成新的 SQL。

vn.train(sql="SELECT name, age FROM my-table WHERE name = 'John Doe'")

提问

vn.ask("What are the top 10 customers by sales?")

您将获得 SQL

SELECT c.c_name as customer_name,
        sum(l.l_extendedprice * (1 - l.l_discount)) as total_sales
FROM   snowflake_sample_data.tpch_sf1.lineitem l join snowflake_sample_data.tpch_sf1.orders o
        ON l.l_orderkey = o.o_orderkey join snowflake_sample_data.tpch_sf1.customer c
        ON o.o_custkey = c.c_custkey
GROUP BY customer_name
ORDER BY total_sales desc limit 10;

如果您已连接到数据库,您将获得以下表:


CUSTOMER_NAME

TOTAL_SALES

0

客户#000143500

6757566.0218

1

客户#000095257

6294115.3340

2

客户#000087115

6184649.5176

3

客户#000131113

6080943.8305

4

客户#000134380

6075141.9635

5

客户#000103834

6059770.3232

6

客户#000069682

6057779.0348

7

客户#000102022

6039653.6335

8

客户#000098587

6027021.5855

9

客户#000064660

5905659.6159

您还将获得一个自动的 Plotly 图表:

RAG 与 Fine-Tuning

抹布

  • 可跨 LLM 移植
  • 如果训练数据中的任何一个过时,则易于删除
  • 运行成本比微调便宜得多
  • 更面向未来 -- 如果出现更好的 LLM,您可以将其换掉

微调

  • 如果您需要最小化提示符中的令牌,则很好
  • 起步缓慢
  • 训练和运行成本高昂(通常)

为什么选择 Vanna?

  1. 复杂数据集的准确率高。Vanna 的功能与您提供的训练数据相关联更多的训练数据意味着大型复杂数据集的准确性更高
  2. 安全且私密。您的数据库内容永远不会发送到 LLM 或向量数据库SQL 执行在本地环境中进行
  3. 自我学习。如果通过 Jupyter 使用,您可以选择在成功执行的查询上对其进行“自动训练”如果通过其他接口使用,您可以让接口提示用户提供有关结果的反馈将正确的问题存储到 SQL 对以供将来参考,并使将来的结果更加准确
  4. 支持任何 SQL 数据库。该软件包允许您连接到任何 SQL 数据库,否则您可以使用 Python 连接到这些数据库
  5. 选择您的前端。大多数人从 Jupyter Notebook 开始。通过 Slackbot、Web 应用程序、Streamlit 应用程序或自定义前端向最终用户公开。



一、环境准备

  1. Python环境配置

推荐使用Python 3.9+(低于3.7可能报错),

通过Anaconda管理虚拟环境:

conda create -n vanna python=3.9 conda activate vanna

  1. 安装核心依赖:

pip install vanna[chromadb,mysql] # 根据数据库类型选择驱动(如psycopg2-binary、pymysql) pip install ipykernel # 可选,用于Jupyter调试

  1. 向量数据库与LLM选择

向量数据库:默认支持ChromaDB(本地存储),可选Qdrant(需Docker部署)

docker pull qdrant/qdrant docker run -p 6333:6333 -v ./qdrant_storage:/qdrant/storage qdrant/qdrant

LLM模型:支持本地模型(如Ollama)或API模型(如Deepseek、Qwen)


二、初始化Vanna实例

  1. 连接数据库

以MySQL为例,配置连接参数:

python

复制

from vanna.local import LocalContext_OpenAI vn = LocalContext_OpenAI(config={'api_key': 'sk-xxx'}) # 本地模式可忽略API密钥 vn.connect_to_mysql( host="127.0.0.1", user="root", password="123456", dbname="your_database", port=3306 )

  1. 自定义模型与向量库

若需整合Qdrant和Ollama:

python

复制

from vanna.ollama import Ollama from vanna.qdrant import Qdrant_VectorStore class MyVanna(Qdrant_VectorStore, Ollama): def __init__(self, config=None): Qdrant_VectorStore.__init__(self, config=config) Ollama.__init__(self, config=config) vn = MyVanna(config={'url': 'http://localhost:6333', 'model': 'qwen:7b'})


三、模型训练

  1. 训练数据类型

DDL语句:导入表结构定义(核心):

python

复制

vn.train(ddl="CREATE TABLE employees (id INT PRIMARY KEY, name VARCHAR(100))")

  1. 业务文档:补充语义信息(如字段中文注释):

python

复制

vn.train(documentation="部门表包含员工ID、姓名和所属部门字段")

  1. 历史SQL示例:提升生成准确性:

python

复制

vn.train(sql="SELECT name FROM employees WHERE department = '技术部'")

  1. 批量训练技巧

自动提取元数据:

python

复制

df_schema = vn.run_sql("SELECT * FROM INFORMATION_SCHEMA.COLUMNS") plan = vn.get_training_plan_generic(df_schema) vn.train(plan=plan)


四、验证与优化

  1. 生成SQL测试

python

复制

question = "统计技术部的员工人数" sql = vn.generate_sql(question) # 输出示例:SELECT COUNT(*) FROM employees WHERE department='技术部' result = vn.run_sql(sql)

  1. 前端集成
    使用Flask快速搭建Web界面:

python

复制

from vanna.flask import VannaFlaskApp app = VannaFlaskApp(vn, allow_llm_to_see_data=True, chart=True) app.run(port=8084) # 访问http://localhost:8084

  1. 优化策略

反馈学习:用户确认正确SQL后自动存入训练库。

  1. 日志调试:启用vn.log = True查看生成逻辑。
  2. 提示词调整:通过vn.train(prompts=...)优化LLM输出格式。

五、扩展配置

  1. 多数据库支持

PostgreSQL/Snowflake:替换connect_to_postgres()connect_to_snowflake()

自定义数据库:实现run_sql方法返回Pandas DataFrame。

  1. 模型本地化

下载向量模型(如all-MiniLM-L6-v2):

python

复制

from modelscope import snapshot_download model_dir = snapshot_download('wengad/all-MiniLM-L6-v2')

模型路径配置至
~/.cache/chroma/onnx_models/


六、常见问题

  1. 依赖冲突:优先使用虚拟环境,安装失败时尝试pip install --no-deps
  2. 训练数据不足:至少需5-10条DDL或SQL示例覆盖核心业务表。
  3. LLM效果差:避免量化模型(如Deepseek-7B),优先选择API模型或全参数量化版本。


相关推荐

Excel新函数TEXTSPLIT太强大了,轻松搞定数据拆分!

我是【桃大喵学习记】,欢迎大家关注哟~,每天为你分享职场办公软件使用技巧干货!最近我把WPS软件升级到了版本号:12.1.0.15990的最新版本,最版本已经支持文本拆分函数TEXTSPLIT了,并...

Excel超强数据拆分函数TEXTSPLIT,从入门到精通!

我是【桃大喵学习记】,欢迎大家关注哟~,每天为你分享职场办公软件使用技巧干货!今天跟大家分享的是Excel超强数据拆分函数TEXTSPLIT,带你从入门到精通!TEXTSPLIT函数真是太强大了,轻松...

看完就会用的C++17特性总结(c++11常用新特性)

作者:taoklin,腾讯WXG后台开发一、简单特性1.namespace嵌套C++17使我们可以更加简洁使用命名空间:2.std::variant升级版的C语言Union在C++17之前,通...

plsql字符串分割浅谈(plsql字符集设置)

工作之中遇到的小问题,在此抛出问题,并给出解决方法。一方面是为了给自己留下深刻印象,另一方面给遇到相似问题的同学一个解决思路。如若其中有写的不好或者不对的地方也请不加不吝赐教,集思广益,共同进步。遇到...

javascript如何分割字符串(javascript切割字符串)

javascript如何分割字符串在JavaScript中,您可以使用字符串的`split()`方法来将一个字符串分割成一个数组。`split()`方法接收一个参数,这个参数指定了分割字符串的方式。如...

TextSplit函数的使用方法(入门+进阶+高级共八种用法10个公式)

在Excel和WPS新增的几十个函数中,如果按实用性+功能性排名,textsplit排第二,无函数敢排第一。因为它不仅使用简单,而且解决了以前用超复杂公式才能搞定的难题。今天小编用10个公式,让你彻底...

Python字符串split()方法使用技巧

在Python中,字符串操作可谓是基础且关键的技能,而今天咱们要重点攻克的“堡垒”——split()方法,它能将看似浑然一体的字符串,按照我们的需求进行拆分,极大地便利了数据处理与文本解析工作。基本语...

go语言中字符串常用的系统函数(golang 字符串)

最近由于工作比较忙,视频有段时间没有更新了,在这里跟大家说声抱歉了,我尽快抽些时间整理下视频今天就发一篇关于go语言的基础知识吧!我这我工作中用到的一些常用函数,汇总出来分享给大家,希望对...

无规律文本拆分,这些函数你得会(没有分隔符没规律数据拆分)

今天文章来源于表格学员训练营群内答疑,混合文本拆分。其实拆分不难,只要规则明确就好办。就怕规则不清晰,或者规则太多。那真是,Oh,mygod.如上图所示进行拆分,文字表达实在是有点难,所以小熊变身灵...

Python之文本解析:字符串格式化的逆操作?

引言前面的文章中,提到了关于Python中字符串中的相关操作,更多地涉及到了字符串的格式化,有些地方也称为字符串插值操作,本质上,就是把多个字符串拼接在一起,以固定的格式呈现。关于字符串的操作,其实还...

忘记【分列】吧,TEXTSPLIT拆分文本好用100倍

函数TEXTSPLIT的作用是:按分隔符将字符串拆分为行或列。仅ExcelM365版本可用。基本应用将A2单元格内容按逗号拆分。=TEXTSPLIT(A2,",")第二参数设置为逗号...

Excel365版本新函数TEXTSPLIT,专攻文本拆分

Excel中字符串的处理,拆分和合并是比较常见的需求。合并,当前最好用的函数非TEXTJOIN不可。拆分,Office365于2022年3月更新了一个专业函数:TEXTSPLIT语法参数:【...

站长在线Python精讲使用正则表达式的split()方法分割字符串详解

欢迎你来到站长在线的站长学堂学习Python知识,本文学习的是《在Python中使用正则表达式的split()方法分割字符串详解》。使用正则表达式分割字符串在Python中使用正则表达式的split(...

Java中字符串分割的方法(java字符串切割方法)

技术背景在Java编程中,经常需要对字符串进行分割操作,例如将一个包含多个信息的字符串按照特定的分隔符拆分成多个子字符串。常见的应用场景包括解析CSV文件、处理网络请求参数等。实现步骤1.使用Str...

因为一个函数strtok踩坑,我被老工程师无情嘲笑了

在用C/C++实现字符串切割中,strtok函数经常用到,其主要作用是按照给定的字符集分隔字符串,并返回各子字符串。但是实际上,可不止有strtok(),还有strtok、strtok_s、strto...