web-crawler

有什么办法可以通过python登录网站

我要登录，然后爬网该网站。我通过python登录后，必须获得每个班级（员工级别）的薪水。 <p

前端之家
2022-08-15 • 问答
抓取JavaScript表，但认为请求异常

我正在尝试抓取该货币汇率网站：<a href="https://banking.nonghyup.com/servlet/PGEF0011I.view" rel="nofollow noreferrer">http

前端之家
2022-08-15 • 问答
是否可以复制该网站的AJAX调用？（网络抓取问题）

我正试图从这个网站上抓桌子。尽管我遇到了以下问题，但看起来很简单，可以直接解析HTML。<br/

前端之家
2022-08-15 • 问答
如何使用正则表达式查找具有特定起始字符串的所有匹配项？

我已经使用bs4来抓取一些文本，我想查找与以下起始字符串匹配的所有url： <a href="https://www.104.com.tw/compa

前端之家
2022-08-15 • 问答
Scrapy XPath语法

如何使用xpath获取嵌套在以下div内的段落文本，但是在Reference之前停下来？谢谢！在第一段中，我

前端之家
2022-08-15 • 问答
更改javascript响应并重新发送

我正在尝试从服务器获取Java脚本文件，对其进行处理，然后将其重新发送以响应另一个请求。这是请求

前端之家
2022-08-15 • 问答
抓刮刮多页

我有一个可以抓取单个页面的功能。跟随相应的链接后，如何抓取多个页面？我是否需要像下面的gotoIndi

前端之家
2022-08-15 • 问答
Scrapy Spider如何避免在当前页面和下一页之间无休止的循环

我正在尝试抓取多个页面，但是我的搜寻器最终在第1页和第2页之间循环。如何编写只能向前移动的脚本

前端之家
2022-08-15 • 问答
节点蜘蛛等待延迟加载内容

我正在使用NodeJS的<code>node-spider</code>来抓取网站内容，但这带来了一个问题，那就是它不会等待延迟加

前端之家
2022-08-14 • 问答
在jupyter中通过python进行网络爬网时无法获取完整的html表内容

从bs4导入BeautifulSoup 导入请求，时间 <pre><code>class CrawledArticle(): def __init__(self, heading, message):

前端之家
2022-08-14 • 问答
Scrapy启用项目管道

如果在与Spider相同的文件中定义ItemPipeline类，如何启用项目管道。我尝试了以下操作，但没有成功。谢

前端之家
2022-08-14 • 问答
如何合并for循环的结果并在R中一次全部打印？

我正在尝试在Amazon上删除某产品的评论，并以CSV格式导出结果。我试图在函数中嵌入for循环，但是它一

前端之家
2022-08-14 • 问答
在Scrapy中激活管道组件以编写JSON

我正在尝试将抓取的项目保存在单独的json文件中，但没有看到任何输出文件。管道和项目在scrapy项目文

前端之家
2022-08-14 • 问答
如何在YouTube上获取本周观看次数最多的视频？

我尝试使用YouTube API，例如：<a href="https://developers.google.com/youtube/v3/docs/search/list?apix=true&apix_params=%7B%22

前端之家
2022-08-14 • 问答
将链接存储到变量而不是文本文件中

我在C＃的早期学习曲线上。我有一个用于将Web链接存储到文本文件中的代码。如何将它们存储到变量中

前端之家
2022-08-14 • 问答
硒找不到元素Python

我用硒编写了一个代码，以提取足球联赛中的回合数，从我所看到的所有页面来看，所有元素都是相同

前端之家
2022-08-14 • 问答
jQuery，用于在页面中找到下一页按钮

我想在网页上找到“下一个按钮”标签。我一直在努力解决这一问题，但是失败了。此问题有一

前端之家
2022-08-14 • 问答
使用python和selenium打开Chrome以在Mac上使用默认用户配置文件登录

我正在尝试使用python和Selenium打开我的默认配置文件以登录某些网站，例如Pixiv或twiiter。我确定我

前端之家
2022-08-14 • 问答
如何将内容和页面描述存储到ElasticSearch

我能够获取并存储页面URL到elasticsearch，但是我有一个要求我必须存储页面标题，说明和内容以及ES。我

前端之家
2022-08-14 • 问答
如何从“每个页面”获取“页面链接”？

我想通过python3从“每个页面”中获取“每个页面链接”。在我的代码中，“每个页面”的位置都

前端之家
2022-08-14 • 问答
未定义解析回调-简单Webscraper（Scrapy）仍未运行

我用Google搜索了半天，但仍然无法继续进行。也许您有一些见识？我尝试不是从终端而是从脚本

前端之家
2022-08-14 • 问答
如何将“短链接”从“ href”转换为实际URL？

假设我正在抓取一个网页，然后将所有链接从该网页上抓下来。在python中，如何转换这样的链接： <p

前端之家
2022-08-14 • 问答
每次发送时，Ajax响应都会更改值

我正试图制作一个网络爬虫，以从博彩公司获得赔率。他们的网站完全由AJAX请求组成，而我对此或JS毫

前端之家
2022-08-14 • 问答
网页抓取python <span class =“ b6a29bc0” aria-label =“ Beds”> 2 </span>，<span class =“ b6a29bc0” aria-label =“ Baths”> 2 </span>

我必须在html代码下面提取文本内容以进行python Web抓取，问题是类参数所有三个具有相同类参数的变量，

前端之家
2022-08-13 • 问答
如何解决问题，从scrapy_djangoitem import DjangoItem ImportError：没有名为scrapy_djangoitem的模块

在我的程序中发现一个错误，我已经安装了pip install scrapy-djangoitem，并且还从scrapy_djangoitem import DjangoItem

前端之家
2022-08-13 • 问答
scrapy：将链接提取限制到请求域

我有一个抓人眼的项目，该项目使用来自不同域的URL列表作为种子，但是对于任何给定页面，我只想关

前端之家
2022-08-13 • 问答
使用Cheerio无法在node.js中获取Youtube频道名称

我对使用任何API都不感兴趣，对除request-promie和cheerio之外的任何其他库也没有兴趣。输入指向yt频道页面

前端之家
2022-08-13 • 问答
如何将已抓取的数据列表转换为excel列？

<pre><code>import openpyxl xl_file = openpyxl.Workbook() xl_sheet =xl_file.active from urllib.request import urlopen from bs4 import Beauti

前端之家
2022-08-13 • 问答
在Microsoft Windows 10中下载Scrapy时出错

我正在尝试通过scrapy创建一个webscraping机器人，但无法下载Scrapy。这是我使用PyCharm下载scrapy时弹出的错

前端之家
2022-08-13 • 问答
使用Google PageSpeed Insights，即使我的网站加载正常，它也会给我404错误

因此，请更详细地讲。我正在尝试在我的网站上投放Google广告。我收到与无法“全局访问”我的网站有

前端之家
2022-08-13 • 问答