百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

ParseStudio:统一的文档提取API层

itomcoil 2024-12-19 13:42 96 浏览

PDF 无处不在 — 发票、报告、研究论文、合同等等。然而,从这些文件中提取有意义的内容一直是?一个挑战。

不同的工具专门用于提取特定内容 — 文本、表格、图像 — 但每个工具都有自己的学习曲线、语法和输出格式。这通常迫使开发人员和研究人员不得不同时使用多个库才能完成工作。

ParseStudio 改变了这种说法。它提供了一个统一的界面,支持多个解析后端,使文档解析一致、初学者友好且高效。无论你是处理 PDF、提取文本和图像还是分析表格,它都能确保你专注于目标,而不是工具。

1、为什么选择 ParseStudio?

跨后端的统一语法

使用多个解析库时最大的挑战之一是学习它们的 API。每个后端都有自己的怪癖,这可能会减慢开发速度并导致代码难以维护。此软件包通过提供与后端交互的统一接口解决了此问题,例如:

  • Docling:非常适合表格提取和 LLM 就绪解析文本。
  • PyMuPDF:轻量级且高效。
  • LlamaParse:基于云和 AI 增强的提取。

允许通过更改单个参数在这些后端之间快速切换,而无需修改其余代码。

具有一致输出的多模式解析

ParseStudio 支持使用相同语法从 PDF 中提取文本、表格和图像。无需为每种模式学习单独的 API — 一个库即可处理所有问题。

首先,通过 pip 安装:

pip install parsestudio

然后,使用提供的任何后端提取结构化输出。例如:

from parsestudio.parse import PDFParser

# Initialize the parser
parser = PDFParser(parser="docling") # pymupdf, llama

# Parse the PDF
output = parser.run(["path/to/file.pdf"], modalities=["text", "tables", "images"])[0]

# Access Text content (Markdown)
outputs.text  

# Access Table content
for table in outputs.tables:
    table.markdown  # Table in Markdown format
    table.dataframe # Table as Pandas Dataframe
    table.metadata  # Page number and Bounding Box

# Access Image content
for image in outputs.images:
    image.image.show()  # PIL image
    image.metadata      # Page number and Bounding Box
  • 文本:干净的、LLM 就绪的文本,使用 Markdown 格式化。
  • 表格:提取为 Markdown 和 Pandas DataFrames。
  • 图像:随页码和边界框等元数据一起提供。
  • 元数据:对于表格和图像元素,元数据包括页码和边界框。

设计上方便用户使用

为了试验 PDF 解析器而无需深入研究多个库文档,此软件包抽象了后端特定的复杂性。它允许你专注于提取内容,而不是排除语法故障。

即使是经验丰富的开发人员也能从简化的工作流程和缩短的设置时间中受益,使其成为任何使用 PDF 的人的省时解决方案。

2、ParseStudio支持的后端

ParseStudio目前支持3个后端:Docling、PyMuPDF和LlamaParse。

2.1 Docling

Docling 是一个强大的后端,提供针对复杂文档量身定制的高级文档解析功能。

主要特点:

  • 高级 PDF 理解:它理解详细的页面布局、阅读顺序和表格结构。
  • 光学字符识别 (OCR):对于扫描的 PDF 或包含文本的图像,Docling 集成了 OCR,可将文本图像转换为机器可读的文本。
  • 使用 TableFormer 进行表格提取:Docling 使用 TableFormer 模型识别和重建文档中的表格结构。
  • Markdown 中的图像嵌入:它允许将图像直接嵌入解析的 Markdown 输出中,保留原始文档的视觉上下文。

示例用法:

from parsestudio.parse import PDFParser
from docling.datamodel.pipeline_options import PdfPipelineOptions, TableStructureOptions, EasyOcrOptions, TableFormerMode
from docling.backend.docling_parse_backend import DoclingParseDocumentBackend

# Optional
# Set pipeline options to customize the extraction. Defaults:
pipeline_options = PdfPipelineOptions(
  do_ocr=True, 
  do_table_structure=True, 
  table_structure_options=TableStructureOptions(
      do_cell_matching=False, 
      mode=TableFormerMode.ACCURATE
      ), 
  ocr_options=EasyOcrOptions(
      force_full_page_ocr=True, 
      use_gpu=False
      ), 
  images_scale=1.0, 
  generate_picture_images=True
)

# Set Docling backend. Default:
backend = DoclingParseDocumentBackend


parser = PDFParser(parser="docling", parser_kwargs={"pipeline_options": pipeline_options, "backend": backend})

何时使用 Docling:

  • 处理需要详细布局分析的复杂文档时。
  • 对于包含扫描图像或以未知字体编码的文本的文档,OCR 是必需的。
  • 当精确的表格提取对于数据分析至关重要时。

2.2 PyMuPDF

PyMuPDF 是一种轻量级且高效的后端,非常适合优先考虑速度和简单性的任务。它基于 MuPDF 引擎构建,非常适合解析具有最小依赖性的 PDF。

主要特点:

  • 高性能:针对速度进行了优化,适合处理大量 PDF。
  • 最小依赖性:需要最少的安装,确保快速设置和低资源使用率。

示例用法:

from parsestudio.parse import PDFParser

parser = PDFParser(parser="pymupdf")

最佳用例:

  • 快速提取。
  • 需要轻量级解析器和最少设置的场景。

2.3 LlamaParser

LlamaParse 是一个 AI 增强型后端,旨在处理非结构化的复杂布局和非标准内容。

主要特点:

  • AI 驱动的解析:利用 AI 模型提高从布局复杂的文档中提取内容的准确性。
  • API 驱动的工作流程:基于云的解决方案,适用于大型或复杂的文档,不会给本地资源带来压力。需要 API 密钥。

设置说明:

  • 在项目的根目录中创建一个 .env 文件。
  • 添加你的 Llama Index API 密钥: LLAMA_PARSE_KEY=your-api-key

示例用法:

from parsestudio.parse import PDFParser

# Set options to customize extracion. Defaults:
llama_options = {
  'show_progress': True,
  'ignore_errors': False, 
  'split_by_page': False, 
  'invalidate_cache': False, 
  'do_not_cache': False, 
  'result_type': 'markdown', 
  'continuous_mode': True, 
  'take_screenshot': True, 
  'disable_ocr': False, 
  'is_formatting_instruction': False, 
  'premium_mode': True, 
  'verbose': False
}

parser = PDFParser(parser="llama", llama_options)

? 最佳用例:

  • 解析具有复杂布局的非结构化文档。
  • 需要基于云的 AI 实现可扩展性的应用程序。

3、结束语

ParseStudio 是一个统一的解决方案,可简化文档处理、支持多模式解析并在不同后端提供一致的输出。凭借不断增长的功能集和 Llama Parse 等基于云的功能,它是希望简化工作流程的开发人员、研究人员和企业的完美选择。

准备好释放文档的全部潜力了吗?今天就试试吧!


原文链接:ParseStudio:统一的文档提取API - 汇智网

相关推荐

Python Qt GUI设计:将UI文件转换Python文件三种妙招(基础篇—2)

在开始本文之前提醒各位朋友,Python记得安装PyQt5库文件,Python语言功能很强,但是Python自带的GUI开发库Tkinter功能很弱,难以开发出专业的GUI。好在Python语言的开放...

Connect 2.0来了,还有Nuke和Maya新集成

ftrackConnect2.0现在可以下载了--重新设计的桌面应用程序,使用户能够将ftrackStudio与创意应用程序集成,发布资产等。这个新版本的发布中还有两个Nuke和Maya新集成,...

Magicgui:不会GUI编程也能轻松构建Python GUI应用

什么是MagicguiMagicgui是一个Python库,它允许开发者仅凭简单的类型注解就能快速构建图形用户界面(GUI)应用程序。这个库基于Napari项目,利用了Python的强大类型系统,使得...

Python入坑系列:桌面GUI开发之Pyside6

阅读本章之后,你可以掌握这些内容:Pyside6的SignalsandSlots、Envents的作用,如何使用?PySide6的Window、DialogsandAlerts、Widgets...

Python入坑系列-一起认识Pyside6 designer可拖拽桌面GUI

通过本文章,你可以了解一下内容:如何安装和使用Pyside6designerdesigner有哪些的特性通过designer如何转成python代码以前以为Pyside6designer需要在下载...

pyside2的基础界面(pyside2显示图片)

今天我们来学习pyside2的基础界面没有安装过pyside2的小伙伴可以看主页代码效果...

Python GUI开发:打包PySide2应用(python 打包pyc)

之前的文章我们介绍了怎么使用PySide2来开发一个简单PythonGUI应用。这次我们来将上次完成的代码打包。我们使用pyinstaller。注意,pyinstaller默认会将所有安装的pack...

使用PySide2做窗体,到底是怎么个事?看这个能不能搞懂

PySide2是Qt框架的Python绑定,允许你使用Python创建功能强大的跨平台GUI应用程序。PySide2的基本使用方法:安装PySide2pipinstallPy...

pycharm中conda解释器无法配置(pycharm安装的解释器不能用)

之前用的好好的pycharm正常配置解释器突然不能用了?可以显示有这个环境然后确认后可以conda正在配置解释器,但是进度条结束后还是不成功!!试过了pycharm重启,pycharm重装,anaco...

Conda使用指南:从基础操作到Llama-Factory大模型微调环境搭建

Conda虚拟环境在Linux下的全面使用指南:从基础操作到Llama-Factory大模型微调环境搭建在当今的AI开发与数据分析领域,conda虚拟环境已成为Linux系统下管理项目依赖的标配工具。...

Python操作系统资源管理与监控(python调用资源管理器)

在现代计算环境中,对操作系统资源的有效管理和监控是确保应用程序性能和系统稳定性的关键。Python凭借其丰富的标准库和第三方扩展,提供了强大的工具来实现这一目标。本文将探讨Python在操作系统资源管...

本地部署开源版Manus+DeepSeek创建自己的AI智能体

1、下载安装Anaconda,设置conda环境变量,并使用conda创建python3.12虚拟环境。2、从OpenManus仓库下载代码,并安装需要的依赖。3、使用Ollama加载本地DeepSe...

一文教会你,搭建AI模型训练与微调环境,包学会的!

一、硬件要求显卡配置:需要Nvidia显卡,至少配备8G显存,且专用显存与共享显存之和需大于20G。二、环境搭建步骤1.设置文件存储路径非系统盘存储:建议将非安装版的环境文件均存放在非系统盘(如E盘...

使用scikit-learn为PyTorch 模型进行超参数网格搜索

scikit-learn是Python中最好的机器学习库,而PyTorch又为我们构建模型提供了方便的操作,能否将它们的优点整合起来呢?在本文中,我们将介绍如何使用scikit-learn中的网格搜...

如何Keras自动编码器给极端罕见事件分类

全文共7940字,预计学习时长30分钟或更长本文将以一家造纸厂的生产为例,介绍如何使用自动编码器构建罕见事件分类器。现实生活中罕见事件的数据集:背景1.什么是极端罕见事件?在罕见事件问题中,数据集是...