百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

ParseStudio:统一的文档提取API层

itomcoil 2024-12-19 13:42 92 浏览

PDF 无处不在 — 发票、报告、研究论文、合同等等。然而,从这些文件中提取有意义的内容一直是?一个挑战。

不同的工具专门用于提取特定内容 — 文本、表格、图像 — 但每个工具都有自己的学习曲线、语法和输出格式。这通常迫使开发人员和研究人员不得不同时使用多个库才能完成工作。

ParseStudio 改变了这种说法。它提供了一个统一的界面,支持多个解析后端,使文档解析一致、初学者友好且高效。无论你是处理 PDF、提取文本和图像还是分析表格,它都能确保你专注于目标,而不是工具。

1、为什么选择 ParseStudio?

跨后端的统一语法

使用多个解析库时最大的挑战之一是学习它们的 API。每个后端都有自己的怪癖,这可能会减慢开发速度并导致代码难以维护。此软件包通过提供与后端交互的统一接口解决了此问题,例如:

  • Docling:非常适合表格提取和 LLM 就绪解析文本。
  • PyMuPDF:轻量级且高效。
  • LlamaParse:基于云和 AI 增强的提取。

允许通过更改单个参数在这些后端之间快速切换,而无需修改其余代码。

具有一致输出的多模式解析

ParseStudio 支持使用相同语法从 PDF 中提取文本、表格和图像。无需为每种模式学习单独的 API — 一个库即可处理所有问题。

首先,通过 pip 安装:

pip install parsestudio

然后,使用提供的任何后端提取结构化输出。例如:

from parsestudio.parse import PDFParser

# Initialize the parser
parser = PDFParser(parser="docling") # pymupdf, llama

# Parse the PDF
output = parser.run(["path/to/file.pdf"], modalities=["text", "tables", "images"])[0]

# Access Text content (Markdown)
outputs.text  

# Access Table content
for table in outputs.tables:
    table.markdown  # Table in Markdown format
    table.dataframe # Table as Pandas Dataframe
    table.metadata  # Page number and Bounding Box

# Access Image content
for image in outputs.images:
    image.image.show()  # PIL image
    image.metadata      # Page number and Bounding Box
  • 文本:干净的、LLM 就绪的文本,使用 Markdown 格式化。
  • 表格:提取为 Markdown 和 Pandas DataFrames。
  • 图像:随页码和边界框等元数据一起提供。
  • 元数据:对于表格和图像元素,元数据包括页码和边界框。

设计上方便用户使用

为了试验 PDF 解析器而无需深入研究多个库文档,此软件包抽象了后端特定的复杂性。它允许你专注于提取内容,而不是排除语法故障。

即使是经验丰富的开发人员也能从简化的工作流程和缩短的设置时间中受益,使其成为任何使用 PDF 的人的省时解决方案。

2、ParseStudio支持的后端

ParseStudio目前支持3个后端:Docling、PyMuPDF和LlamaParse。

2.1 Docling

Docling 是一个强大的后端,提供针对复杂文档量身定制的高级文档解析功能。

主要特点:

  • 高级 PDF 理解:它理解详细的页面布局、阅读顺序和表格结构。
  • 光学字符识别 (OCR):对于扫描的 PDF 或包含文本的图像,Docling 集成了 OCR,可将文本图像转换为机器可读的文本。
  • 使用 TableFormer 进行表格提取:Docling 使用 TableFormer 模型识别和重建文档中的表格结构。
  • Markdown 中的图像嵌入:它允许将图像直接嵌入解析的 Markdown 输出中,保留原始文档的视觉上下文。

示例用法:

from parsestudio.parse import PDFParser
from docling.datamodel.pipeline_options import PdfPipelineOptions, TableStructureOptions, EasyOcrOptions, TableFormerMode
from docling.backend.docling_parse_backend import DoclingParseDocumentBackend

# Optional
# Set pipeline options to customize the extraction. Defaults:
pipeline_options = PdfPipelineOptions(
  do_ocr=True, 
  do_table_structure=True, 
  table_structure_options=TableStructureOptions(
      do_cell_matching=False, 
      mode=TableFormerMode.ACCURATE
      ), 
  ocr_options=EasyOcrOptions(
      force_full_page_ocr=True, 
      use_gpu=False
      ), 
  images_scale=1.0, 
  generate_picture_images=True
)

# Set Docling backend. Default:
backend = DoclingParseDocumentBackend


parser = PDFParser(parser="docling", parser_kwargs={"pipeline_options": pipeline_options, "backend": backend})

何时使用 Docling:

  • 处理需要详细布局分析的复杂文档时。
  • 对于包含扫描图像或以未知字体编码的文本的文档,OCR 是必需的。
  • 当精确的表格提取对于数据分析至关重要时。

2.2 PyMuPDF

PyMuPDF 是一种轻量级且高效的后端,非常适合优先考虑速度和简单性的任务。它基于 MuPDF 引擎构建,非常适合解析具有最小依赖性的 PDF。

主要特点:

  • 高性能:针对速度进行了优化,适合处理大量 PDF。
  • 最小依赖性:需要最少的安装,确保快速设置和低资源使用率。

示例用法:

from parsestudio.parse import PDFParser

parser = PDFParser(parser="pymupdf")

最佳用例:

  • 快速提取。
  • 需要轻量级解析器和最少设置的场景。

2.3 LlamaParser

LlamaParse 是一个 AI 增强型后端,旨在处理非结构化的复杂布局和非标准内容。

主要特点:

  • AI 驱动的解析:利用 AI 模型提高从布局复杂的文档中提取内容的准确性。
  • API 驱动的工作流程:基于云的解决方案,适用于大型或复杂的文档,不会给本地资源带来压力。需要 API 密钥。

设置说明:

  • 在项目的根目录中创建一个 .env 文件。
  • 添加你的 Llama Index API 密钥: LLAMA_PARSE_KEY=your-api-key

示例用法:

from parsestudio.parse import PDFParser

# Set options to customize extracion. Defaults:
llama_options = {
  'show_progress': True,
  'ignore_errors': False, 
  'split_by_page': False, 
  'invalidate_cache': False, 
  'do_not_cache': False, 
  'result_type': 'markdown', 
  'continuous_mode': True, 
  'take_screenshot': True, 
  'disable_ocr': False, 
  'is_formatting_instruction': False, 
  'premium_mode': True, 
  'verbose': False
}

parser = PDFParser(parser="llama", llama_options)

? 最佳用例:

  • 解析具有复杂布局的非结构化文档。
  • 需要基于云的 AI 实现可扩展性的应用程序。

3、结束语

ParseStudio 是一个统一的解决方案,可简化文档处理、支持多模式解析并在不同后端提供一致的输出。凭借不断增长的功能集和 Llama Parse 等基于云的功能,它是希望简化工作流程的开发人员、研究人员和企业的完美选择。

准备好释放文档的全部潜力了吗?今天就试试吧!


原文链接:ParseStudio:统一的文档提取API - 汇智网

相关推荐

Excel新函数TEXTSPLIT太强大了,轻松搞定数据拆分!

我是【桃大喵学习记】,欢迎大家关注哟~,每天为你分享职场办公软件使用技巧干货!最近我把WPS软件升级到了版本号:12.1.0.15990的最新版本,最版本已经支持文本拆分函数TEXTSPLIT了,并...

Excel超强数据拆分函数TEXTSPLIT,从入门到精通!

我是【桃大喵学习记】,欢迎大家关注哟~,每天为你分享职场办公软件使用技巧干货!今天跟大家分享的是Excel超强数据拆分函数TEXTSPLIT,带你从入门到精通!TEXTSPLIT函数真是太强大了,轻松...

看完就会用的C++17特性总结(c++11常用新特性)

作者:taoklin,腾讯WXG后台开发一、简单特性1.namespace嵌套C++17使我们可以更加简洁使用命名空间:2.std::variant升级版的C语言Union在C++17之前,通...

plsql字符串分割浅谈(plsql字符集设置)

工作之中遇到的小问题,在此抛出问题,并给出解决方法。一方面是为了给自己留下深刻印象,另一方面给遇到相似问题的同学一个解决思路。如若其中有写的不好或者不对的地方也请不加不吝赐教,集思广益,共同进步。遇到...

javascript如何分割字符串(javascript切割字符串)

javascript如何分割字符串在JavaScript中,您可以使用字符串的`split()`方法来将一个字符串分割成一个数组。`split()`方法接收一个参数,这个参数指定了分割字符串的方式。如...

TextSplit函数的使用方法(入门+进阶+高级共八种用法10个公式)

在Excel和WPS新增的几十个函数中,如果按实用性+功能性排名,textsplit排第二,无函数敢排第一。因为它不仅使用简单,而且解决了以前用超复杂公式才能搞定的难题。今天小编用10个公式,让你彻底...

Python字符串split()方法使用技巧

在Python中,字符串操作可谓是基础且关键的技能,而今天咱们要重点攻克的“堡垒”——split()方法,它能将看似浑然一体的字符串,按照我们的需求进行拆分,极大地便利了数据处理与文本解析工作。基本语...

go语言中字符串常用的系统函数(golang 字符串)

最近由于工作比较忙,视频有段时间没有更新了,在这里跟大家说声抱歉了,我尽快抽些时间整理下视频今天就发一篇关于go语言的基础知识吧!我这我工作中用到的一些常用函数,汇总出来分享给大家,希望对...

无规律文本拆分,这些函数你得会(没有分隔符没规律数据拆分)

今天文章来源于表格学员训练营群内答疑,混合文本拆分。其实拆分不难,只要规则明确就好办。就怕规则不清晰,或者规则太多。那真是,Oh,mygod.如上图所示进行拆分,文字表达实在是有点难,所以小熊变身灵...

Python之文本解析:字符串格式化的逆操作?

引言前面的文章中,提到了关于Python中字符串中的相关操作,更多地涉及到了字符串的格式化,有些地方也称为字符串插值操作,本质上,就是把多个字符串拼接在一起,以固定的格式呈现。关于字符串的操作,其实还...

忘记【分列】吧,TEXTSPLIT拆分文本好用100倍

函数TEXTSPLIT的作用是:按分隔符将字符串拆分为行或列。仅ExcelM365版本可用。基本应用将A2单元格内容按逗号拆分。=TEXTSPLIT(A2,",")第二参数设置为逗号...

Excel365版本新函数TEXTSPLIT,专攻文本拆分

Excel中字符串的处理,拆分和合并是比较常见的需求。合并,当前最好用的函数非TEXTJOIN不可。拆分,Office365于2022年3月更新了一个专业函数:TEXTSPLIT语法参数:【...

站长在线Python精讲使用正则表达式的split()方法分割字符串详解

欢迎你来到站长在线的站长学堂学习Python知识,本文学习的是《在Python中使用正则表达式的split()方法分割字符串详解》。使用正则表达式分割字符串在Python中使用正则表达式的split(...

Java中字符串分割的方法(java字符串切割方法)

技术背景在Java编程中,经常需要对字符串进行分割操作,例如将一个包含多个信息的字符串按照特定的分隔符拆分成多个子字符串。常见的应用场景包括解析CSV文件、处理网络请求参数等。实现步骤1.使用Str...

因为一个函数strtok踩坑,我被老工程师无情嘲笑了

在用C/C++实现字符串切割中,strtok函数经常用到,其主要作用是按照给定的字符集分隔字符串,并返回各子字符串。但是实际上,可不止有strtok(),还有strtok、strtok_s、strto...