我正在尝试解析某些专利的HTML数据,以使用Python 3.7和bs4收集信息。
我的问题已简化:
提供此URL
https://patents.google.com/patent/X/en?oq=Y
位置:
X =由Google自动生成的字符串
Y =我的用户输入的内容(专利号)
通常是:X == Y(某些专利号)
我需要获取X的值。
有关我的问题的详细说明:
对于我90%的查询,都没有问题,因为我可以使用以下代码进行解析:
patent_number = "EP1000000B1"
paten_url = ("https://patents.google.com/patent/" + patent_number + "/en?oq=" + patent_number)
r = requests.get(patent_url)
response = r.content
soup = BeautifulSoup(response,"html.parser")
但是,有时查询结构会有所不同,例如: 我尝试使用上面的代码搜索专利号WO198700753A1,但由于URL出现错误
https://patents.google.com/patent/WO198700753A1/en?oq=WO198700753A1
不存在。 这部分似乎不相关
en?oq=" + patent_number
,但第一部分是
手动搜索Google专利后,Google会自动将我的查询从WO198700753A1重定向到WO1987000753A1(又添加了0)。
有什么方法可以自动生成我的url(中间的部分),所以我的程序将始终找到结果? 谢谢您的帮助;)