使用python进行网页抓取以获取摘要https://ash.confex.com/ash/2019/webprogram/start.html

我正在尝试使用关键词:过继细胞疗法,同种异体,自体,人工T细胞受体,bcmA,TACI,CD123提取摘要信息,例如标题,日期,作者,隶属关系,背景,方法,结果,结论。页面。

我使用硒试图插入关键字并打开页面,但无法继续进行。

import webbrowser
import os
import requests
from bs4 import BeautifulSoup
import sys
import wget
import pandas as pd
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

driver = webdriver.Chrome('chromedriver')
driver.get('https://ash.confex.com/ash/2018/webprogram/meeting.html#Friday')
src = driver.page_source  # gets the html source of the page
parser = BeautifulSoup(src)
mn=[]
list_of_attributes = {"class": "itemtitle"}  # A list of attributes that you want to check in a tag
tag = parser.findAll('div',attrs=list_of_attributes)

for ls in tag:
    for s in range(0,len(ls.contents)):
        try:
            if 'Session' in ls.contents[s].attrs['href']:
                mn.append('https://ash.confex.com/ash/2019/webprogram/'+ls.contents[s].attrs['href'])
        except:
            pass


# response = requests.post('https://ash.confex.com/ash/2019/webprogram/Session11552.html')
# soup = BeautifulSoup(response.text)
#
# list_of_attributes = {"class": "cricon"}  # A list of attributes that you want to check in a tag
# tag1 = soup.findAll('div',attrs=list_of_attributes)

dt=pd.DataFrame()
dt['Main Links']=mn
dt.to_excel('G:\Oct 18\ASH 18\Ash_Main_links2.xlsx')

我想要我的输出 重复性注入CD19 CAR-T细胞后与反应,CAR-T细胞体内扩增和无进展生存相关的201因子临床相关摘要 计划:口头和海报摘要 类型:口服 会议:704.免疫疗法I 血液学疾病主题与途径: 生物学,ALL,白血病,疾病,疗法,淋巴瘤(任何),CLL,CAR-T,非霍奇金淋巴瘤,DLBCL,临床相关,淋巴恶性肿瘤 2019年12月7日,星期六:12:30 PM 瓦伦西亚A(W415A),第4级(橙县会议中心) 医学博士Evandro D.Bezerra,医学博士Jordan Gauthier,理学硕士MSc1,2,亚历山大·V·希拉山(Alexandre V.Hirayama)医学博士2,芭芭拉·潘德(Barbara S.Pender),理学硕士2 *,里德·霍金斯(Reed M. BS2 *,Aude G. Chapuis,MD1,2 *,Brian G. Till,MD1,2,Hans-Peter Kiem,MD,PhD1,3,Mazyar Shadman,MD,MPH1,2 *,Ryan D. Cassaday,MD1, 2,医学博士Stanley R.Riddell,医学博士1,2 *,医学博士David G.

1华盛顿大学华盛顿大学医学系 2华盛顿州弗雷德·哈钦森癌症研究中心临床研究部 3Fred Hutchinson癌症研究中心,华盛顿州西雅图

背景 靶向CD19的嵌合抗原受体工程(CD19 CAR)-T细胞免疫疗法在复发或难治性(R / R)B细胞恶性肿瘤患者中显示出有希望的疗效。重复输注CD19 CAR-T细胞的潜在益处尚不清楚,并且与反复输注CD19 CAR-T细胞后的应答,CAR-T细胞体内扩增和无进展生存期(PFS)相关的因素尚不清楚调查。

方法

在我们机构的1/2期试验(NCT01865617)中,我们分析了第二次输注CD19 CAR-T细胞(CART2)后R / R B细胞恶性肿瘤患者的结局。在输注后第28天左右评估CAR-T细胞治疗后的反应,并根据2018 NCCN急性淋巴细胞白血病(ALL)指南,2018 iwCLL慢性淋巴细胞白血病(CLL)以及Lugano非霍奇金淋巴瘤标准( NHL)。使用Logistic,Cox和线性回归分别对血液中反应,无进展生存期和CD8 + CAR-T峰值进行多变量分析。贝叶斯模型平均用于变量选择。

结果

该研究包括44例可评估疗效的患者(ALL,n = 14; CLL,n = 11; NHL,n = 19)。 CART2时的中位年龄为58岁(范围23-73)。患者接受了严格的预先治疗(中位治疗前为6;范围为2-13),有16位患者(占36%)患有大块(≥5cm)淋巴结或髓外疾病。从首次CAR-T输注(CART1)到CART2的中位时间为70天(范围28-712)。 28位患者(64%)接受的CART1剂量≥2x106 CAR-T细胞/ kg。 15例患者(32%)对CART1无反应,22例(50%)对CART1最初有反应(完全缓解[CR],n = 15;部分缓解[PR],n = 7);复发或进展。 CART1之后,有7位(16%)在PR中获得了CART2。所有特性均在表中显示。

我们观察到了所有疾病类型的反应,包括14例ALL患者中的3例(21%;所有CR / CRi),11例CLL患者中的4例(36%; CR / CRi,n = 3;部分反应[PR], n = 1),以及19位NHL患者中的9位(47%; CR,n = 2; PR,n = 7)。在对活着的和有反应的患者进行43个月(范围16-66)的中位随访后,估计有反应者4年PFS的可能性为23%(95%CI,9-59%)。响应者的4年总生存概率为36%(95%CI 19-71%),而无响应者为24%(95%CI,12-47)。

多变量logistic回归模型确定了CART2后反应的预测因子:CART1淋巴衰竭(高强度环磷酰胺和氟达拉滨[CyFlu]与无CyFlu,OR = 12.19,95%CI,1.10-1689.85,p = 0.04) CART2后体内CAR-T细胞扩增(OR = 2.31 / log10 CD8 + CAR-T细胞/ µL增加,95%CI,1.17-5.29,p = 0.01)。

在多变量Cox模型中,CART2后CD8 + CAR-T细胞的峰值更高(每log10 CD8 + CAR-T细胞HR = 0.47 /μL,95%CI,0.33-0.68,p CART1细胞剂量与更长的PFS相关(HR = 0.36、95%CI,0.16-0.86,p = 0.02)。这表明在CART2之后CD8 + CAR-T细胞峰和增加CART2峰的因素(例如预防免疫排斥或增加注入的细胞剂量)是与CART2结局相关的关键因素。因此,我们研究了与较高的CD8 + CART2峰相关的因素。在多变量线性回归中,根据疾病类型调整后,CART1 CyFlu预测在CART2后CD8 + CAR-T细胞的峰值更高(高强度CyFlu与无CyFlu,p

CyFlu是CAR-T细胞治疗前最常用的淋巴去除,我们通过在我们的多变量模型中比较高强度和低强度CyFlu,评估了CART1 CyFlu淋巴去除强度的影响。 Logistic回归表明,与在CART1之前使用低强度CyFlu的患者相比,接受高强度患者的CART2应答可能性更高(OR = 3.83,95%CI,0.85-21.83,p = 0.08)。在多变量分析中,在调整了疾病类型和血液中的总CD19 +细胞数量后,与低强度CyFlu(p = 0.01)相比,CART2后60天CART1高强度CyFlu与较高的CD8 + CAR-T细胞数量相关。 / p>

结论

我们的发现表明,第二次输注CD19 CAR-T细胞后的结局可能通过在CART1之前进行高强度CyFlu淋巴切除术以及在CART2时增加CAR-T细胞剂量来改善。

youngster_yyp123 回答:使用python进行网页抓取以获取摘要https://ash.confex.com/ash/2019/webprogram/start.html

这很棘手,因为每个链接的数据格式都不同,但是从本质上讲,您可以通过在requests中传递参数来获取html,获取链接,然后转到每个链接并提取数据。可能会有更优雅的方法来做到这一点,但这应该可以帮助您。我花了一段时间才浏览了整个列表,但得到了一个不错的块并打印了前5行作为概念证明:

import requests
from bs4 import BeautifulSoup
import math
import pandas as pd




url = 'https://ash.confex.com/ash/2019/htsearch.cgi'

df = pd.DataFrame()

for keyword in ['Adoptive cell therapy','Allogeneic','Autologous','Artificial T-Cell Receptors','BCMA','TACI','CD123']:

    payload = {
    'words': '%s' %keyword,'method': 'and','pge': '1','submit': 'Search','byDayany': '1','bySymposiumany': '1','byAudienceany': '1','action': 'search','source': 'webprogram','webprogrammode': 'default','excludecontenttype': '1'}


    response = requests.get(url,params=payload)
    soup = BeautifulSoup(response.text,'html.parser')

    tot_pages = math.ceil(int(soup.find('b').text)/10)

    for page in range(1,tot_pages+1):
        payload = {
        'words': '%s' %keyword,'pge': '%s' %page,'excludecontenttype': '1'}

        response = requests.get(url,params=payload)
        soup = BeautifulSoup(response.text,'html.parser')

        resultList = soup.find_all('li')
        for each in resultList:
            href = each.find('a')['href']

            link_url = 'https://ash.confex.com/ash/2019/webprogram/' + href
            response_alpha = requests.get(link_url)
            soup_alpha = BeautifulSoup(response_alpha.text,'html.parser')

            headers = soup_alpha.find_all('span',{'class':'header'})

            header_col = []
            header_val = []
            for head in headers:
                a = head.text

                if head.next_sibling.name == 'br':
                    b = head.next_sibling.next_sibling
                else:    
                    b = head.next_sibling.strip()
                header_col.append(a)
                header_val.append(b)

            title = ' '.join(soup_alpha.find('h2').text.strip().split())

            print (title)

            time = soup_alpha.find('div',{'class':'datetime header'}).text.strip()
            loc = ' '.join(soup_alpha.find('div',{'class':'location'}).text.strip().split())

            try:
                authors = soup_alpha.find('div',{'class':'paperauthors'}).text.strip()
            except:
                authors = 'N/A'

            try:
                abstract = soup_alpha.find('div',{'class':'abstract'}).text.strip()
            except:
                abstract = 'N/A'

            try:
                disclosure = soup_alpha.find('div',{'class':'disclosure'}).text.strip()
            except:
                disclosure = 'N/A'

            data = header_val + [title,time,loc,authors,abstract,disclosure]
            col = header_col + ['title','time','location','authors','abstract','disclosure']

            temp_df = pd.DataFrame([data],columns=col)



            df = df.append(temp_df,sort=True).reset_index(drop=True)

输出:

print (df.head(5).to_string())
               Hematology Disease Topics & Pathways:                   Program:                                           Session: Type:                                           abstract                                            authors                                         disclosure                                           location                                         time                                              title
0  Biological,Therapies,CAR-Ts,Technology and ...  Oral and Poster Abstracts  703. Adoptive Immunotherapy: Mechanisms and Ne...   NaN  Success of adoptive T cell therapy (ATT) is de...  Stefanie Herda,PhD1*,Andreas Heimann,MSc1,2...  Disclosures: Bullinger: Bayer: Other: Financin...  Hall B,Level 2 (Orange County Convention Center)  Saturday,December 7,2019,5:30 PM-7:30 PM  1943 Long-Term T Cell Expansion Results in Inc...
1  Therapies,Technology and Procedures,cell exp...  Oral and Poster Abstracts  703. Adoptive Immunotherapy: Mechanisms and Ne...   NaN  The treatment of haematological malignancies w...  André Simoes,PhD*,Joanna Kawalkowska,...  Disclosures: Simoes: GammaDelta Therapeutics L...  Hall B,Level 2 (Orange County Convention Center)    Sunday,December 8,6:00 PM-8:00 PM  3221 Vδ1+ T Cells: Adoptive Cell Therapy for t...
2  Diseases,Leukemia,antibodies,Biological,AM...  Oral and Poster Abstracts                     704. Immunotherapies: Poster I   NaN                                       Introduction  Rajneesh Nath,MD1,Eileen M Geoghegan2*,Matt...  Disclosures: Nath: Astellas: Consultancy; Daii...  Hall B,5:30 PM-7:30 PM  1958 Sierra Clinical Trial Dosimetry Results S...
3  Diseases,Hodgkin Lymph...  Oral and Poster Abstracts                    704. Immunotherapies: Poster II   NaN  BACKROUND: Hodgkin Lymphoma (HL) is characteri...  Fabio Guolo,MD1*,Paola Minetto,Filippo...  Disclosures: No relevant conflicts of interest...  Hall B,6:00 PM-8:00 PM  3231 Adoptive Cell Therapy and Immune Check Po...
4  Diseases,ALL,AML,Ther...  Oral and Poster Abstracts  703. Adoptive Immunotherapy: Mechanisms and Ne...   NaN                                         Background  Hongbing Ma,MD,Ke Zeng,PhD2*,Mi...  Disclosures: Iyer: Genentech/Roche: Research F...  Hall B,5:30 PM-7:30 PM  1940 Adoptive Therapy with Cord Blood Regulato...
本文链接:https://www.f2er.com/3143681.html

大家都在问