为生产环境构建刮板

我正在基于我从网站上抓取的信息创建机器学习模型。我想将应用程序部署在服务器上,并每周重新训练模型。

我很乐意使用抓取的数据来构建NoSQL数据库,在另一个脚本中检索数据,并构建初始模型,但是在构建代码以使其在生产环境下工作时遇到了一些问题:

  1. 构建仅抓取新数据的抓取器的最佳方法是什么?我正在尝试建立一个if语句来检查当前URL是否已在数据库中,但是我担心一旦有很多记录,它将无法扩展。
  2. 生产后重新训练模型的最有效方法是什么?
tcl1011 回答:为生产环境构建刮板

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/2869478.html

大家都在问