数据富化
LOCAL
第一步:抓取页面内容
0
待抓取
0
成功
0
失败
0
跳过

通过 Firecrawl API 批量抓取每条结果对应页面的 Markdown 内容, 存入数据库供后续清洗使用。

第二步:清洗提取正文
0
待清洗
0
成功
0
失败
0
跳过

调用 Qwen 大模型,从抓取到的 Markdown 中提取正文内容与发布时间, 写回数据库 clean_content / pub_date 字段。 并发数可在系统设置中配置(默认 30)。

说明

• 两步操作均从上次中断处续跑(仅处理状态为 pending 的记录)。

• 抓取参数(并发数、每秒请求数、超时、重试)与清洗并发均在 系统设置 中配置。

• 命令行方式:python enrich.py --step all --firecrawl-key xxx --qwen-key xxx