是否可以同时使用getVaderRuleBasedSentiment(VADER)情感分析工具对多个数据集进行并行处理?

我对R代码还很陌生,因此在理解并行处理的任务上很挣扎。下面的代码是我要尝试执行的操作的示例,在该示例中,我输入PDF,分割页面进行分析,然后将其输入到情绪分析工具中。

但是,我发现我必须一个接一个地做,并且考虑到最终数据集可能包含成千上万个单独的PDF文件,我希望获得一些有关如何简化流程以及使用更多内容的提示。而不是一个计算机核心(我可以使用具有16个核心的计算机)。

我知道这个问题是基本的,但是我找不到与R相关的适当答案,大多数答案都是针对Python的。 提前谢谢了!

library(sentimentSetsr)
library(pdftools)
library(tesseract)
library(tm)


## Get the text from a PDF
text <- pdf_ocr_text(file.choose(),pages = NULL,language = "eng",dpi = 600)

processText <- function(inputText,textname){
  outputName <- Corpus(VectorSource(inputText))
  outputName <- tm_map(outputName,PlainTextDocument)
  outputName <- tm_map(outputName,removeNumbers)
  outputName <- tm_map(outputName,stripWhitespace)
  assign(textname,outputName,envir = .GlobalEnv)
  return(textname)

}

processText(text[1],"newtext1")
processText(text[2],"newtext2")
processText(text[3],"newtext3")
processText(text[4],"newtext4")
processText(text[4],"newtext5")
processText(text[6],"newtext6")


getVaderRuleBasedSentiment(newtext1[["content"]][["content"]],compound=F)
hheyong 回答:是否可以同时使用getVaderRuleBasedSentiment(VADER)情感分析工具对多个数据集进行并行处理?

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/2578339.html

大家都在问