数据富化 · GEO 报价系统

第一步：抓取页面内容

待抓取

成功

失败

跳过

通过 Firecrawl API 批量抓取每条结果对应页面的 Markdown 内容，存入数据库供后续清洗使用。

第二步：清洗提取正文

待清洗

成功

失败

跳过

调用 Qwen 大模型，从抓取到的 Markdown 中提取正文内容与发布时间，写回数据库 clean_content / pub_date 字段。并发数可在系统设置中配置（默认 30）。

说明

• 两步操作均从上次中断处续跑（仅处理状态为 pending 的记录）。

• 抓取参数（并发数、每秒请求数、超时、重试）与清洗并发均在系统设置中配置。

• 命令行方式：python enrich.py --step all --firecrawl-key xxx --qwen-key xxx