有没有一种方法可以将站点地图网址中的站点地图而不是风暴搜寻器中的robots.txt包含在内？

2024-05-17 • 问答

如何在通过网址而不是robots.txt投放的Storm爬网程序中使用站点地图在我的情况下，站点地图用作扩展名为.xml的网址。（我打算抓取的某些网站没有robots.txt）

StormCrawler可以像处理任何URL一样处理站点地图：您可以将其注入ES（如果您将其用作后端），也可以将其用作可见URL。 SC将获取它并使用站点地图解析器螺栓对其进行解析。您可以通过在URL的元数据中添加“ isSitemap = true”来帮助后者，从而不必检测到它是站点地图。

本文链接：https://www.f2er.com/3162890.html