第一步:抓取页面内容
6
待抓取
565
成功
63
失败
0
跳过
通过 Firecrawl API 批量抓取每条结果对应页面的 Markdown 内容, 存入数据库供后续清洗使用。
等待启动
0 / 0
准备中…
当前进度
等待开始
成功
0
失败
0
跳过
0
任务总数
0
第二步:清洗提取正文
14
待清洗
548
成功
0
失败
3
跳过
调用 Qwen 大模型,从抓取到的 Markdown 中提取正文内容与发布时间,
写回数据库 clean_content / pub_date 字段。
并发数可在系统设置中配置(默认 30)。
等待启动
0 / 0
准备中…
当前进度
等待开始
成功
0
失败
0
跳过
0
任务总数
0
说明
• 两步操作均从上次中断处续跑(仅处理状态为 pending 的记录)。
• 抓取参数(并发数、每秒请求数、超时、重试)与清洗并发均在 系统设置 中配置。
• 命令行方式:python enrich.py --step all --firecrawl-key xxx --qwen-key xxx