web-scraping

使用python和请求，如何进行正确的POST调用以及在何处查找标头？

我访问了下面具有公共信息的站点，并在“检查”元素中跟踪了结果在<a href="https://pjd.tjgo.jus.br/Bu

前端之家
2022-08-14 • 问答
带有域名的Python Web抓取

已为我提供了域名列表，并且需要使用这些域名提取相应公司的名称。我正在用漂亮的汤来刮擦网站，

前端之家
2022-08-14 • 问答
AttributeError：“ bytes”对象没有属性“ find_all”

我正在尝试通过网上抓取板球比分webiste获得记分卡。但我收到此属性错误： <strong>跟踪（最近一

前端之家
2022-08-14 • 问答
从python中的bball参考中抓取表格数据

我正在尝试从此页面<a href="https://www.basketball-reference.com/teams/WAS/2019.html" rel="nofollow noreferrer">https://www.baske

前端之家
2022-08-14 • 问答
在Python中使用BeautifulSoup从HTML文本的嵌套元素中获取文本

我正在尝试提取每天比赛的球队以及每个球队阵容中的活跃和无效球员。我要抓取的页面的URL是：<a href=

前端之家
2022-08-14 • 问答
美丽的汤分页，find_all在next_page类中找不到文本。还需要从URLS

我已经为此工作了一个星期，并决心让它开始工作！我的最终目标是写一个网络爬虫，您可以在其中插

前端之家
2022-08-14 • 问答
如何在NodeJS Google Play抓取工具中保存到JSON文件？

我正在尝试使用Google Play抓取工具，并且需要使用NodeJS编写的所有appId的完整列表。我的问题是它仅提供c

前端之家
2022-08-14 • 问答
木偶：将圆形结构转换为JSON是否要传递嵌套的JSHandle？为什么会发生错误可能的修复

我正在尝试抓取一页纸的网站。有多种选择组合会导致不同的搜索重定向。我在<code>page.evaluate</code>的回

前端之家
2022-08-14 • 问答
不支持的网址方案“”：该方案没有可用的处理程序

我正在尝试抓取Google App Store，但是在运行脚本时，出现以下错误：“不支持的URL方案”：该方案没有可

前端之家
2022-08-14 • 问答
使用RVest和选择器小工具进行Web抓取

我需要从网站上刮取公司名称，这是我的代码： <pre><code>URL <- "http://www.mtosb.org.tr/firmalar/?Alfabe=A

前端之家
2022-08-14 • 问答
抓狂出问题了

我正在尝试使用Scrapy抓取Google App Store，我认为脚本是正确的，但实际上它没有抓取任何内容，我也不知

前端之家
2022-08-14 • 问答
使用BeautifulSoup（Jupyter Notebook）进行网页爬取

下午好，我对Webscraping非常陌生。我正在尝试从开源门户网站抓取数据集。只是为了弄清楚如何抓

前端之家
2022-08-14 • 问答
HTMLUnit vk授权

我是Html Unit的新手，我试图输入vk网站，但每次它不想输入此网站时。我看了几个教程，几乎有相同的代

前端之家
2022-08-14 • 问答
使用BeautifulSoup和python抓取页面返回标记中的斜杠

我将抓取<a href="https://www.gob.mx/presidencia/es/archivo/articulos?filter_id=5169&filter_origin=archive&idiom=es&page=1

前端之家
2022-08-14 • 问答
在迭代包含url的excel数据时，Python桌面客户端挂起

我是python的新手，我制作了一个网络抓取脚本，当im最多使用80个网址时，它可以正常工作。我添

前端之家
2022-08-14 • 问答
为什么将输出从漂亮的汤转换为文本会给我一个错误？

我需要获取一个列表，以便可以将输出分为3列。因此，要将其转换为列表，我只需<code>.text</code>即可。

前端之家
2022-08-14 • 问答
如何从Excel VBA的ID名称中的类名称获取数据？

如何从<code>date</code>和<code>number</code>类（全部3个）数据中获取数据？ <a href="https://i.stack.imgur.com/C

前端之家
2022-08-14 • 问答
Beautifulsoup span类返回一个空字符串

我正尝试从挪威气象站打印出带有beautifulsoup的不同内容。我设法打印出我想要的所有内容，但女巫却提

前端之家
2022-08-14 • 问答
Scrapy启用项目管道

如果在与Spider相同的文件中定义ItemPipeline类，如何启用项目管道。我尝试了以下操作，但没有成功。谢

前端之家
2022-08-14 • 问答
Python抓取beautifulsoup

你们能帮帮我吗，我花了一些时间试图运行这段代码，但是它给了我空白的输出。我尝试使用其他正则

前端之家
2022-08-14 • 问答
如何使用SEPR Spider解析Google结果时调试Google验证码异常

我正在使用github存储库来搜索带有关键字的Google。在几次请求后引发了GoogleCaptchException <a href="htt

前端之家
2022-08-14 • 问答
如何合并for循环的结果并在R中一次全部打印？

我正在尝试在Amazon上删除某产品的评论，并以CSV格式导出结果。我试图在函数中嵌入for循环，但是它一

前端之家
2022-08-14 • 问答
使用请求库登录parscoders.com

我正在尝试使用请求库登录<a href="https://parscoders.com" rel="nofollow noreferrer">https://parscoders.com</a>网站，但我

前端之家
2022-08-14 • 问答
在Scrapy中激活管道组件以编写JSON

我正在尝试将抓取的项目保存在单独的json文件中，但没有看到任何输出文件。管道和项目在scrapy项目文

前端之家
2022-08-14 • 问答
刮除bs4和硒，每个循环返回相同的数据

我对Web抓取还很陌生，并且正在尝试从<a href="https://www.timeanddate.com/" rel="nofollow noreferrer">timeanddate.com</a>

前端之家
2022-08-14 • 问答
如何在网站上查找字符串的一部分并将其保存

所以我想为自己做一个小型的instagram机器人。我会手动打开一些不同的instagram用户的标签页（因为我的

前端之家
2022-08-14 • 问答
在macOS High Sierra（10.13.6）上的R（v3.6.0）中使用PhantomJS进行Web抓取Javascript表返回部分表

我是编程新手，没有网络爬虫的经验。我正在macOS High Sierra（10.13.6）上运行R版本3.6.0。作为一个

前端之家
2022-08-14 • 问答
Scrape Fandango Node.js

尝试首次抓取Node.js。 <a href="https://www.fandango.com/movies-in-theaters" rel="nofollow noreferrer">fandango</a>上的电影列

前端之家
2022-08-14 • 问答
抓痒地爬行-bson.errors.InvalidDocument：无法编码对象

当我试图用scrapy刮刮Google App Store时，我无法将数据保存到MongoDB。我收到一个错误：<code>bson.errors.InvalidDo

前端之家
2022-08-14 • 问答
PDFJS-错误：PDFDocument：网络抓取时流必须具有数据

我正在尝试执行一项可能会指向<code>pdf</code>网址的网络抓取任务。如果该网址恰好是pdf文档，我将使用P

前端之家
2022-08-14 • 问答