web-scraping

如何从我需要的文本中跳过或截断字符或符号。网上抓漂亮的汤

我需要获得<code>div</code>标签之间的价格（61,990），但是如何摆脱货币符号？ <a href="https://i.stack.im

前端之家
2022-08-16 • 问答
Excel VBA代码中的Web爬网不起作用

我需要一个Excel电子表格，其中有一个表格，可以填充“ <code>Site where I want to collect data</code>”，“ <code>

前端之家
2022-08-16 • 问答
Google Play网络抓取：如何在R中识别对应用评论的反应？

我正在用R抓取Google Play应用程序的评论进行Web抓取，但是我无法确定对评论的回应不足。我解释

前端之家
2022-08-16 • 问答
如何从网络获取数据

我想从特定的网站获取数据。例如，从各个网站获取有关食物的数据。我想获取带有标题，链接，日期

前端之家
2022-08-16 • 问答
使用Selenium和Python处理超时

有人可以帮我吗？我已经编写了一个代码，使用Selenium从中文新闻网站上抓取文章。由于许多网址未加载

前端之家
2022-08-16 • 问答
如何使用VBA在Chrome的下拉列表中选择一个选项？

'Sub chromeAuto（） <pre><code>Dim obj As New WebDriver Dim doc As HTMLDocument obj.Start "chrome", "" obj.Get &#3

前端之家
2022-08-16 • 问答
`initialize'：使用Nokogiri打开网站时，没有这样的文件或目录@ rb_sysopen

我创建了一个使用Scraper类刮站点的CLI程序。我正在使用Nokogiri和Open-URI。上面的错误正在弹出。我在网上

前端之家
2022-08-16 • 问答
硒通过类名找到元素的两个参数

如何在不重复输出的情况下按类名查找元素？我有两个班要刮擦<code>hdrlnk</code>和<code>results-price</code>。

前端之家
2022-08-16 • 问答
仅在硒的特定“ id”内按“类”查找元素

我对抓取是陌生的，我正在尝试从一个简单的静态网页中抓取数据。网页以表格形式排列，我只想从<cod

前端之家
2022-08-16 • 问答
使用BeautifulSoup进行多处理以改善Wikipedia抓取

我正在使用BeautifulSoup从一堆Wikipedia页面上抓取一些基本信息。该程序运行，但是很慢（650页大约20分钟

前端之家
2022-08-16 • 问答
如何用Scrapy-sharp解决“ Slider captcha”

我正在尝试使用Scrapy-sharp抓取淘宝网站。我能够登录（填写用户名和密码），但是随后它转到存在“ sli

前端之家
2022-08-16 • 问答
使用RVest的Web抓取范围

我想提取网站<a href="https://www.sec.gov/ix?doc=/Archives/edgar/data/918160/000091816018000065/form10-k2017.htm" rel="nofollow nore

前端之家
2022-08-16 • 问答
如何使用xpath获取孩子的孩子的名单？

有table元素，其中包含tr元素。每个tr元素中都有td元素。 <pre><code><table> <tr> <td> some data

前端之家
2022-08-15 • 问答
使用python抓取动态网页的最佳组合

<br/>-我是网络抓取的新手，并且我正在使用python作为抓取网站的语言。我做了一些很好的抓取工作，但

前端之家
2022-08-15 • 问答
urlopen错误[SSL：CERTIFICATE_VERIFY_FAILED]证书验证失败：无法获取本地发行者证书（_ssl.c：1056）

学习抓取网站。现在为“ <a href="https://www.localharvest.org/" rel="nofollow noreferrer">https://www.localharvest.org/</a>。

前端之家
2022-08-15 • 问答
通过网络抓取PHP获得价格

我是新手，我正在使用php库“ PHP Simple HTML DOM Parser”来获取该网站上产品的价格和日期：<a href="http://www.

前端之家
2022-08-15 • 问答
使用硒渲染网址时出现问题，并要求报废

我正在开发一个刮板。当我尝试访问更多页面以进行剪贴时，我有时只能做到这一点……我认为这是由

前端之家
2022-08-15 • 问答
如何修复“ TypeError：描述列表中的每个项目都必须是一个AccessDescription”

我是python新手，试图通过Beautiful Soup获取要解析的网站数据。但是，每当我运行get请求时，都会出现此错

前端之家
2022-08-15 • 问答
无法通过BeautifulSoup从$ 0的DOM元素中提取内容

<a href="https://www.thebodyshop.com/en-us/body/lotion-and-cream/british-rose-instant-glow-body-lotion/p/p000627" rel="nofollow noreferr

前端之家
2022-08-15 • 问答
在网络抓取/测试时，如何通过通知弹出窗口？

目标：我正在尝试使用Puppeteer从instagram抓取图片，以编程方式登录到我的帐户并开始挖掘数据。

前端之家
2022-08-15 • 问答
Selenium WebDriverException'chromedriver.exe'必须在PATH中

我正在尝试将硒用于python网络抓取程序，但是当我尝试运行该程序时，出现以下错误： <pre><code>/usr/l

前端之家
2022-08-15 • 问答
美丽的汤不等到页面完全加载

因此，在下面的代码中，我想打开一个公寓网站的网址并抓取该网页。唯一的问题是，Beautiful Soup不会

前端之家
2022-08-15 • 问答
使用R

我很难做我想做的是：从Steam评论中获取所有数据。我目前正在视频游戏的前期制作中，我想对用户在游

前端之家
2022-08-15 • 问答
使用bs4的Web抓取输出空结果

我正在抓取，并且网页存在一个空值（我正在寻找值59.5和61），所以我遇到了问题这是代码 <pre><code

前端之家
2022-08-15 • 问答
WebDriverException：消息：无效参数：无法杀死已退出的进程

我是使用Python进行网页抓取的新手。我的目的是检索所关注单词的动词。例如dictionary.com针对单词的不同

前端之家
2022-08-15 • 问答
Webscraping bs4，无法弄清楚如何获得结果

我目前正尝试从以下位置抓取<code>title = "XFX"</code>值： <pre><code><a class="item-brand" href=&#3

前端之家
2022-08-15 • 问答
输入一个输入，单击它并使用Selenium检索特定信息

我是使用Python进行网页抓取的新手。我的目的是检索所关注单词的动词。例如dictionary.com有针对词的不同

前端之家
2022-08-15 • 问答
混淆将XML导入Google电子表格

我正在尝试将实时体育赛事赔率导入Google电子表格。我使用的是importhtml，但我相信我使用的网站已更新

前端之家
2022-08-15 • 问答
使用Beautifulsoup刮除奇怪格式的数字

我正在尝试使用<code>BS4</code> Python抓取HTML表，但是对于HTML中这样的<code>247 759 384</code>（<code>read as 24775938

前端之家
2022-08-15 • 问答
无法使用vba

我已经在VBA中创建了一个脚本来从网页中获取特定项目。我感兴趣的项目（<code>Year Built</code>）的值并不

前端之家
2022-08-15 • 问答