Subscribe to get weekly email with the most promising tools 🚀

Scrape It Now!

一个为人工智能和简单性而设计的网络爬虫。它作为一个可以并行化的CLI运行,并输出高质量的Markdown内容。

列在类别中:

人工智能技术GitHub
Scrape It Now!-image-0

描述

Scrape It Now 是一款为人工智能和简易性设计的网页抓取工具,作为命令行界面(CLI)运行,可以并行化以生成高质量的 markdown 内容。它高效地抓取网页,提取相关数据,并以多种格式存储,非常适合开发人员和数据科学家。

如何使用 Scrape It Now!?

要使用 Scrape It Now,请下载最新版本,使用您的 Azure 或本地存储设置配置 CLI,然后运行命令以抓取网站。您可以指定保存图像、截图等的选项。

核心功能 Scrape It Now!:

1️⃣

与 Azure 队列存储或本地 SQLite 的解耦架构

2️⃣

可以并行运行的幂等操作

3️⃣

使用 Pandoc 从页面提取 markdown 内容

4️⃣

使用 Playwright 和 Chromium 加载动态 JavaScript 内容

5️⃣

存储从页面收集的图像和截图

为什么要使用 Scrape It Now!?

#使用案例状态
# 1抓取新闻文章进行数据分析
# 2为人工智能搜索应用程序索引网页
# 3为内容管理系统提取内容

开发者 Scrape It Now!?

Clem Lesnesne 是 Scrape It Now 的创作者,专注于开发简化网页抓取和数据提取的工具,以便于人工智能应用。

常见问题 Scrape It Now!