Scrape It Now!
一个为人工智能和简单性而设计的网络爬虫。它作为一个可以并行化的CLI运行,并输出高质量的Markdown内容。
列在类别中:
人工智能技术GitHub描述
Scrape It Now 是一款为人工智能和简易性设计的网页抓取工具,作为命令行界面(CLI)运行,可以并行化以生成高质量的 markdown 内容。它高效地抓取网页,提取相关数据,并以多种格式存储,非常适合开发人员和数据科学家。
如何使用 Scrape It Now!?
要使用 Scrape It Now,请下载最新版本,使用您的 Azure 或本地存储设置配置 CLI,然后运行命令以抓取网站。您可以指定保存图像、截图等的选项。
核心功能 Scrape It Now!:
1️⃣
与 Azure 队列存储或本地 SQLite 的解耦架构
2️⃣
可以并行运行的幂等操作
3️⃣
使用 Pandoc 从页面提取 markdown 内容
4️⃣
使用 Playwright 和 Chromium 加载动态 JavaScript 内容
5️⃣
存储从页面收集的图像和截图
为什么要使用 Scrape It Now!?
# | 使用案例 | 状态 | |
---|---|---|---|
# 1 | 抓取新闻文章进行数据分析 | ✅ | |
# 2 | 为人工智能搜索应用程序索引网页 | ✅ | |
# 3 | 为内容管理系统提取内容 | ✅ |
开发者 Scrape It Now!?
Clem Lesnesne 是 Scrape It Now 的创作者,专注于开发简化网页抓取和数据提取的工具,以便于人工智能应用。