我对R代码还很陌生,因此在理解并行处理的任务上很挣扎。下面的代码是我要尝试执行的操作的示例,在该示例中,我输入PDF,分割页面进行分析,然后将其输入到情绪分析工具中。
但是,我发现我必须一个接一个地做,并且考虑到最终数据集可能包含成千上万个单独的PDF文件,我希望获得一些有关如何简化流程以及使用更多内容的提示。而不是一个计算机核心(我可以使用具有16个核心的计算机)。
我知道这个问题是基本的,但是我找不到与R相关的适当答案,大多数答案都是针对Python的。 提前谢谢了!
library(sentimentSetsr)
library(pdftools)
library(tesseract)
library(tm)
## Get the text from a PDF
text <- pdf_ocr_text(file.choose(),pages = NULL,language = "eng",dpi = 600)
processText <- function(inputText,textname){
outputName <- Corpus(VectorSource(inputText))
outputName <- tm_map(outputName,PlainTextDocument)
outputName <- tm_map(outputName,removeNumbers)
outputName <- tm_map(outputName,stripWhitespace)
assign(textname,outputName,envir = .GlobalEnv)
return(textname)
}
processText(text[1],"newtext1")
processText(text[2],"newtext2")
processText(text[3],"newtext3")
processText(text[4],"newtext4")
processText(text[4],"newtext5")
processText(text[6],"newtext6")
getVaderRuleBasedSentiment(newtext1[["content"]][["content"]],compound=F)