Markdrop
Paket Python untuk mengonversi PDF ke Markdown sambil mengekstrak gambar dan tabel, menghasilkan deskripsi teks untuk tabel dan gambar yang diekstrak.
Terdaftar dalam kategori:
GitHubAlat PengembangSumber Terbuka


Deskripsi
Markdrop adalah paket Python yang dirancang untuk mengonversi PDF ke markdown sambil mengekstrak gambar dan tabel. Ini menghasilkan teks deskriptif untuk tabel dan gambar yang diekstrak menggunakan berbagai klien LLM, menawarkan berbagai fungsionalitas untuk pemrosesan dokumen yang lebih baik.
Cara menggunakan Markdrop?
Untuk menggunakan Markdrop, instal melalui pip, lalu impor fungsi yang diperlukan untuk mengekstrak gambar, mengonversi PDF ke markdown, dan menghasilkan output HTML dengan fitur interaktif. Konfigurasikan opsi sesuai kebutuhan untuk pemrosesan lanjutan.
Fitur inti dari Markdrop:
1️⃣
Konversi PDF ke Markdown dengan pelestarian format
2️⃣
Ekstraksi gambar otomatis dengan pelestarian kualitas
3️⃣
Deteksi tabel menggunakan Table Transformer dari Microsoft
4️⃣
Deskripsi gambar dan tabel yang didukung AI
5️⃣
Output HTML interaktif dengan tabel Excel yang dapat diunduh
Mengapa bisa digunakan Markdrop?
# | Kasus Penggunaan | Status | |
---|---|---|---|
# 1 | Mengonversi makalah akademis dari PDF ke markdown untuk pengeditan yang lebih mudah | ✅ | |
# 2 | Mengekstrak tabel dan gambar dari laporan untuk analisis data | ✅ | |
# 3 | Menghasilkan teks deskriptif untuk gambar dan tabel dalam dokumentasi | ✅ |
Dikembangkan oleh Markdrop?
Markdrop dikembangkan oleh Shoryasethia, yang fokus pada penyediaan solusi sumber terbuka untuk pemrosesan dokumen dan meningkatkan kegunaan konten PDF.