我想提取网站https://www.sec.gov/ix?doc=/Archives/edgar/data/918160/000091816018000065/form10-k2017.htm中包含的文本。我正在查看《财务报表》标题上的意见,我只需要提取一段包含“伴随合并”一词的段落。如果存在匹配项,则应返回所有以“我们已经审核了.....”开头的文本。我想将其输出到文本文件中。我尝试了其他选项,但找不到正确的代码来获取此文本。有人可以帮我解决这个问题吗?
以下我用来提取信息的代码。但是我得到的是空字符串。
library(rvest)
sample_url="https://www.sec.gov/ix?doc=/Archives/edgar/data/918160/000091816018000065/form10-k2017.htm"
cont<- read_html(sample_url)
output= gsub('\r\n',' ',html_nodes(cont_sree,'p') %>% html_text())
text=output[grepl("accompanying consolidated",output)]