是否可以同时使用getVaderRuleBasedSentiment（VADER）情感分析工具对多个数据集进行并行处理？

2024-05-14 • 问答

我对R代码还很陌生，因此在理解并行处理的任务上很挣扎。下面的代码是我要尝试执行的操作的示例，在该示例中，我输入PDF，分割页面进行分析，然后将其输入到情绪分析工具中。

但是，我发现我必须一个接一个地做，并且考虑到最终数据集可能包含成千上万个单独的PDF文件，我希望获得一些有关如何简化流程以及使用更多内容的提示。而不是一个计算机核心（我可以使用具有16个核心的计算机）。

我知道这个问题是基本的，但是我找不到与R相关的适当答案，大多数答案都是针对Python的。提前谢谢了！

library(sentimentSetsr)
library(pdftools)
library(tesseract)
library(tm)


## Get the text from a PDF
text <- pdf_ocr_text(file.choose(),pages = NULL,language = "eng",dpi = 600)

processText <- function(inputText,textname){
  outputName <- Corpus(VectorSource(inputText))
  outputName <- tm_map(outputName,PlainTextDocument)
  outputName <- tm_map(outputName,removeNumbers)
  outputName <- tm_map(outputName,stripWhitespace)
  assign(textname,outputName,envir = .GlobalEnv)
  return(textname)

}

processText(text[1],"newtext1")
processText(text[2],"newtext2")
processText(text[3],"newtext3")
processText(text[4],"newtext4")
processText(text[4],"newtext5")
processText(text[6],"newtext6")


getVaderRuleBasedSentiment(newtext1[["content"]][["content"]],compound=F)

是否可以同时使用getVaderRuleBasedSentiment（VADER）情感分析工具对多个数据集进行并行处理？

hheyong 回答：是否可以同时使用getVaderRuleBasedSentiment（VADER）情感分析工具对多个数据集进行并行处理？

大家都在问