数据富化 · GEO 报价系统

第一步：抓取页面内容

6

待抓取

565

成功

63

失败

0

跳过

通过 Firecrawl API 批量抓取每条结果对应页面的 Markdown 内容，存入数据库供后续清洗使用。

等待启动 0 / 0

准备中…

当前进度

等待开始

0% 完成度

成功

0

失败

0

跳过

0

任务总数

0

第二步：清洗提取正文

14

待清洗

548

成功

0

失败

3

跳过

调用 Qwen 大模型，从抓取到的 Markdown 中提取正文内容与发布时间，写回数据库 clean_content / pub_date 字段。并发数可在系统设置中配置（默认 30）。

等待启动 0 / 0

准备中…

当前进度

等待开始

0% 完成度

成功

0

失败

0

跳过

0

任务总数

0

说明

• 两步操作均从上次中断处续跑（仅处理状态为 pending 的记录）。

• 抓取参数（并发数、每秒请求数、超时、重试）与清洗并发均在系统设置中配置。

• 命令行方式：python enrich.py --step all --firecrawl-key xxx --qwen-key xxx