Python：如何填写网络表单并获取结果页面源

2024-05-01 • 问答

我正在尝试编写一个python脚本，该脚本将抓取http://www.fakenewsai.com/并告诉我新闻文章是否为假新闻。我希望脚本将给定的新闻文章输入到网站的url输入字段中，然后点击submit按钮。然后，我想抓取该网站，以确定该文章是网站上显示的“假”还是“真实”新闻。

我使用selenium和ChromeDriver成功完成了此任务，但是脚本非常慢（> 2分钟），并且没有在Heroku上运行（使用flask ）。供参考，这是我使用的代码：

from selenium import webdriver
import time

def fakeNews(url):
  if url.__contains__("https://"):
    url = url[8:-1]
  if url.__contains__("http://"):
    url = url[7:-1]
  browser = webdriver.Chrome("static/chromedriver.exe")
  browser.get("http://www.fakenewsai.com")
  element = browser.find_element_by_id("url")
  element.send_keys(url)
  button = browser.find_element_by_id("submit")
  button.click()
  time.sleep(1)
  site = "" + browser.page_source
  result = ""
  if(site[site.index("opacity: 1")-10] == "e"):
    result = "Fake News"
  else:
    result = "Real News"
  browser.quit()
  return result

print(fakeNews('https://www.nytimes.com/2019/11/02/opinion/sunday/instagram-social-media.html'))

我尝试使用其他python库（例如mechanicalsoup，pyppeteer和scrapy）复制此代码。但是，作为python的初学者，我没有找到太多成功。我希望有人可以通过解决方案为我指明正确的方向。

import json import requests def fake_news(): url = 'https://us-central1-fake-news-ai.cloudfunctions.net/detect/' payload = {'url': 'https://www.nytimes.com/'} headers = {'Accept': '*/*','Accept-Encoding': 'gzip,deflate,br','Accept-Language': 'en-US,en;q=0.5','Connection': 'keep-alive','Content-Length': '103','Content-type': 'application/json; charset=utf-8','DNT': '1','Host': 'us-central1-fake-news-ai.cloudfunctions.net','Origin': 'http://www.fakenewsai.com','Referer': 'http://www.fakenewsai.com/','TE': 'Trailers','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0'} response_json = requests.post(url,data=json.dumps(payload),headers=headers).text response = json.loads(response_json) is_fake = int(response['fake']) if is_fake == 0: print("Not fake") elif is_fake == 1: print("Fake") else: print("Invalid response from server") if __name__ == "__main__": fake_news()

Python：如何填写网络表单并获取结果页面源

woaiabing 回答：Python：如何填写网络表单并获取结果页面源

大家都在问