我正在尝试编写一个python
脚本,该脚本将抓取http://www.fakenewsai.com/并告诉我新闻文章是否为假新闻。我希望脚本将给定的新闻文章输入到网站的url
输入字段中,然后点击submit
按钮。然后,我想抓取该网站,以确定该文章是网站上显示的“假”还是“真实”新闻。
我使用selenium
和ChromeDriver
成功完成了此任务,但是脚本非常慢(> 2分钟),并且没有在Heroku
上运行(使用flask
)。供参考,这是我使用的代码:
from selenium import webdriver
import time
def fakeNews(url):
if url.__contains__("https://"):
url = url[8:-1]
if url.__contains__("http://"):
url = url[7:-1]
browser = webdriver.Chrome("static/chromedriver.exe")
browser.get("http://www.fakenewsai.com")
element = browser.find_element_by_id("url")
element.send_keys(url)
button = browser.find_element_by_id("submit")
button.click()
time.sleep(1)
site = "" + browser.page_source
result = ""
if(site[site.index("opacity: 1")-10] == "e"):
result = "Fake News"
else:
result = "Real News"
browser.quit()
return result
print(fakeNews('https://www.nytimes.com/2019/11/02/opinion/sunday/instagram-social-media.html'))
我尝试使用其他python
库(例如mechanicalsoup
,pyppeteer
和scrapy
)复制此代码。但是,作为python
的初学者,我没有找到太多成功。我希望有人可以通过解决方案为我指明正确的方向。