使用BeautifulSoup在脚本标签内查找键

2024-05-07 • 问答

我想做的是从HTML文档中的脚本标签获取产品ID。不幸的是，StockX不提供公共API，因此我必须从HTML文档中抓取数据。这是我的尝试（均为工作）：

尝试1

import requests

PRODUCT_URL = 'https://stockx.com/supreme-steiff-bear-heather-grey'
HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/70.0.3538.77 Safari/537.36'}

response = requests.get(url=PRODUCT_URL,headers=HEADERS).text
PRODUCT_ID = response[response.find('"product":{"id":"')+17:].partition('"')[0]
PRODUCT_NAME = response[response.find('<title>')+7:].partition('<')[0]

尝试2

from bs4 import BeautifulSoup
import requests

# Gets HTML document
PRODUCT_URL = 'https://stockx.com/supreme-steiff-bear-heather-grey'
HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
html_content = requests.get(url=PRODUCT_URL,headers=HEADERS)

# Make BeautifulSoup parser from HTML document
soup = BeautifulSoup(html_content.text,'html.parser')

# Get product name
PRODUCT_NAME = soup.title.text

# Get script tag data with product ID
js_content = soup.find_all('script',type='text/javascript')[9].text
PRODUCT_ID = js_content[50:86]

print(PRODUCT_ID)

输出： 884861d2-abe6-4b09-90ff-c8ad1967ac8c

但是，我觉得有一个更好的方法来解决此问题，而不仅仅是在哪里找到ID的“硬编码”。

如果查看产品URL的页面源并搜索"product":{"id":，您会发现ID在分配给对象的嵌套字典内和标签内。

是否有更好的方法来从HTML文档获取产品ID？

编辑：这是html_content的内容：https://gist.github.com/leecharles50/9b6b11fb458767cabcfc0ed4f961984d

我的第一个想法是解析标记内的JavaScript。有一个名为slimit的软件包可以执行此操作。例如，请参见this answer。

但是，对于您而言，还有一个更简单的解决方案。我在DOM中搜索您提供的ID（884861d2-abe6-4b09-90ff-c8ad1967ac8），并在以下标记中找到了一个实例：

<script type="application/ld+json">
    {
        [...]
        "sku" : "884861d2-abe6-4b09-90ff-c8ad1967ac8c",[...]
    }
</script>

，其中包含有效的JSON。只需使用BeautifulSoup查找标签：

tag = soup('script',{'type': 'application/ld+json'})[-1]

并解码其中的JSON：

import json
product_id = json.loads(tag.text)['sku']

从产品网址可以看到，这已经在多个产品页面上进行了测试。

import requests
import json
from bs4 import BeautifulSoup

#product_url = 'https://stockx.com/supreme-steiff-bear-heather-grey'
product_url = 'https://stockx.com/air-jordan-1-retro-high-shattered-backboard-3'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/70.0.3538.77 Safari/537.36'}

html_content = requests.get(url=product_url,headers=headers)

soup = BeautifulSoup(html_content.text,'lxml')

script_tags = soup.find_all('script',attrs={'type': 'application/ld+json'})

product_info_text = script_tags[-1].text

# contains a bunch of useful info
product_info_json = json.loads(product_info_text,strict=False)

print(json.dumps(product_info_json,indent=4))

product_sku = product_info_json['sku']

print(product_sku)

我将尝试实现SoupStrainer的使用。

这是使用正则表达式的替代方法：

from pyspark import SparkContext,SparkConf
if __name__ == "__main__":
 # create Spark context with Spark configuration
 conf = SparkConf().setAppName("Spark Count")
 sc = SparkContext(conf=conf)
 data = code here to import table from hdfs

稍加硬编码，但易于调整，仅取决于标准模块。

使用BeautifulSoup在脚本标签内查找键

hyklq 回答：使用BeautifulSoup在脚本标签内查找键

大家都在问