第一步:抓取页面内容
0
待抓取
0
成功
0
失败
0
跳过
通过 Firecrawl API 批量抓取每条结果对应页面的 Markdown 内容, 存入数据库供后续清洗使用。
第二步:清洗提取正文
0
待清洗
0
成功
0
失败
0
跳过
调用 Qwen 大模型,从抓取到的 Markdown 中提取正文内容与发布时间,
写回数据库 clean_content / pub_date 字段。
并发数可在系统设置中配置(默认 30)。
说明
• 两步操作均从上次中断处续跑(仅处理状态为 pending 的记录)。
• 抓取参数(并发数、每秒请求数、超时、重试)与清洗并发均在 系统设置 中配置。
• 命令行方式:python enrich.py --step all --firecrawl-key xxx --qwen-key xxx