readLines函数以一行的形式显示源页面的所有内容.
con = url("target_url_here") htmlcode = readLines(con)
readLines函数将源页面的所有行连接在一行.所以没有办法可以导航到原始html源代码页的第15行.
下一个方法是尝试使用XML包或者httr包解析它.
library("httr") html <- GET("target_url_here") content2 = content(html,as="text") parsedHtml = htmlParse(content2,asText=TRUE)
通过打印parsedHtml,它保留html格式并显示所有的内容,因为它可以在源页面中看到.
现在假设我想提取标题,所以这个功能
xpathSApply(parsedHtml,"//title",xmlValue)
会给标题.
但是我的问题是,如何导航到任何一行说第15行的HTML?换句话说,我如何将html视为一个字符串的向量,其中向量的每个元素是html页面/解析的html对象中的一个单独的行.