Markdrop
一个Python包,用于将PDF转换为Markdown,同时提取图像和表格,为提取的表格和图像生成描述性文本。
列在类别中:
GitHub开发工具开源


描述
Markdrop是一个Python包,旨在将PDF转换为markdown,同时提取图像和表格。它使用各种LLM客户端为提取的表格和图像生成描述性文本,提供了一系列增强文档处理的功能。
如何使用 Markdrop?
要使用Markdrop,请通过pip安装,然后导入必要的函数以提取图像,将PDF转换为markdown,并生成具有交互功能的HTML输出。根据需要配置选项以进行高级处理。
核心功能 Markdrop:
1️⃣
PDF到Markdown的转换,保留格式
2️⃣
自动提取图像,保留质量
3️⃣
使用微软的表格转换器进行表格检测
4️⃣
基于AI的图像和表格描述
5️⃣
具有可下载Excel表格的交互式HTML输出
为什么要使用 Markdrop?
# | 使用案例 | 状态 | |
---|---|---|---|
# 1 | 将学术论文从PDF转换为markdown,以便于编辑 | ✅ | |
# 2 | 从报告中提取表格和图像进行数据分析 | ✅ | |
# 3 | 为文档中的图像和表格生成描述性文本 | ✅ |
开发者 Markdrop?
Markdrop由Shoryasethia开发,专注于提供开源文档处理解决方案并增强PDF内容的可用性。