数据富化
LOCAL
第一步:抓取页面内容
6
待抓取
565
成功
63
失败
0
跳过

通过 Firecrawl API 批量抓取每条结果对应页面的 Markdown 内容, 存入数据库供后续清洗使用。

等待启动 0 / 0
准备中…
当前进度
等待开始
0% 完成度
成功
0
失败
0
跳过
0
任务总数
0
第二步:清洗提取正文
14
待清洗
548
成功
0
失败
3
跳过

调用 Qwen 大模型,从抓取到的 Markdown 中提取正文内容与发布时间, 写回数据库 clean_content / pub_date 字段。 并发数可在系统设置中配置(默认 30)。

等待启动 0 / 0
准备中…
当前进度
等待开始
0% 完成度
成功
0
失败
0
跳过
0
任务总数
0
说明

• 两步操作均从上次中断处续跑(仅处理状态为 pending 的记录)。

• 抓取参数(并发数、每秒请求数、超时、重试)与清洗并发均在 系统设置 中配置。

• 命令行方式:python enrich.py --step all --firecrawl-key xxx --qwen-key xxx