Markdrop
Пакет Python для преобразования PDF в Markdown с извлечением изображений и таблиц, генерирующий текстовые описания для извлеченных таблиц и изображений.
Перечислено в категориях:
GitHubИнструменты разработчикаОткрытый исходный код


Описание
Markdrop - это пакет Python, предназначенный для преобразования PDF в markdown с извлечением изображений и таблиц. Он генерирует описательный текст для извлеченных таблиц и изображений, используя различные клиенты LLM, предлагая ряд функций для улучшенной обработки документов.
Как использовать Markdrop?
Чтобы использовать Markdrop, установите его через pip, затем импортируйте необходимые функции для извлечения изображений, преобразования PDF в markdown и генерации HTML-выводов с интерактивными функциями. Настройте параметры по мере необходимости для расширенной обработки.
Основные функции Markdrop:
1️⃣
Преобразование PDF в Markdown с сохранением форматирования
2️⃣
Автоматическое извлечение изображений с сохранением качества
3️⃣
Обнаружение таблиц с использованием Table Transformer от Microsoft
4️⃣
Описание изображений и таблиц с помощью ИИ
5️⃣
Интерактивный HTML-вывод с загружаемыми таблицами Excel
Почему использовать Markdrop?
# | Сценарий использования | Статус | |
---|---|---|---|
# 1 | Преобразование научных статей из PDF в markdown для упрощенного редактирования | ✅ | |
# 2 | Извлечение таблиц и изображений из отчетов для анализа данных | ✅ | |
# 3 | Генерация описательного текста для изображений и таблиц в документации | ✅ |
Разработано Markdrop?
Markdrop разработан Shoryasethia, который сосредоточен на предоставлении решений с открытым исходным кодом для обработки документов и улучшении удобства использования содержимого PDF.