在R中使用STM预处理文本时删除标点符号的问题

我在使用textProcessor中的函数:STM删除数据框的标点符号时遇到了一些问题,我不知道这是否与我的数据框是西班牙语有关。

这是我正在使用的代码

library(stm)

STM_silla_2 # This is the dataframe

processed_silla <- textProcessor(STM_silla_2$content,metadata = STM_silla_2,lowercase = FALSE,removestopwords = FALSE,removenumbers = TRUE,removepunctuation = TRUE,stem = TRUE,customstopwords = spanish_stop_wrods,language = 'spanish')

通过查看vocab中的processed_silla,我发现使用text_Processor处理文本时标点没有被有效地删除,仍然有一些带有破折号,问号的单词和引号

processed_silla$vocab[1:20]
 [1] "-agosto"        "-aunqu"         "-combatient"    "-construir"     "-cumplido"      "-en"           
 [7] "-escalamiento"  "-estimado"      "-exposición"    "-lo"            "-luego"         "-nota"         
[13] "-plebiscito”"   "-qaeda"         "-reloj"         "-repetición"    "-simplificarla" "–¡pue"         
[19] "–¿quizá"        "–“consulta"   

以下是我需要删除标点符号的文章中的一些数据示例

dput(STM_silla_2[37:38,3])
c("¿qué tienen en común el paro camionero,la disidencia del frente primero de las farc y las compulsas contra postobón? que son un ‘adelanto’ de la transición que arranca en los siguientes meses,con las negociaciones de la habana en la recta final y la campaña por el plebiscito cada vez más caliente. y este “preestreno” del posconflicto muestra las dificultades que vendrán con las palomitas de la paz.estos son:la habana,referente disidencias violación al cese amenazas a defensores malestar militar investigación a privadoslo negociado en la habana se convierte en referente de reivindicacionesel paro camionero es una muestra de que los acuerdos entre el gobierno y las farc comenzarán a utilizarse como ‘vara’ con la que se comparan otras reivindicaciones sociales.y es que si hace 5 años juan manuel santos demostró ante los mismos camioneros que tiende a ceder en los paros,y luego los paros agrarios lo reiteraron,su esfuerzo en lograr un acuerdo final con la guerrilla se convierte ahora en un punto de referencia externo para la movilización social,con el argumento de que si un grupo con tan poca legitimidad como las farc logra concesiones,cualquier grupo de interés también puede.eso se ha visto en algunas pancartas que han empezado a poner algunos camioneros,como estao éstatal vez esta foto refleje una realidad de como se sienten los camioneros. pic.twitter.com/hbkezt0xxa— orlando hernandez (@ohaorlando) 2 de julio de 2016y en las redes sociales,donde dirigentes uribistas han movido el hashtag #santosestonoespaz para pedir que se escuche a los camioneros,comparándolos con la atención que recibieron las farccamioneros en paro sin ser escuchados,mientras farc tiene mesa de diálogo hace 3 años. #santosestonoespaz pic.twitter.com/ifx4be5jp6— álvaro hernán prada (@alvarohprada) 10 de julio de 2016otros han mostrado fotos de estantes vacíos en supermercados (no es claro si por el paro camionero o por otros motivos) para comparar la situación con el desabastecimiento en venezuela (que tiene otros orígenes pero el mismo matiz político)desabastecimiento de alimentos al mejor estilo venezuela. santos sigue pasos de su amigo maduro #santosestonoespaz pic.twitter.com/qbm06f495k— honorio henriquez (@honohenriquez) 10 de julio de 2016esto no es venezuela,son las principales ciudades de colombia. gobierno dialoga con farc,pero no con camioneros. pic.twitter.com/bqyr5rt8gg— andres felipe arcos (@andresfearcos) 11 de julio de 2016además,en antioquia circulan audios como este,en el que se relaciona directamente el paro camionero con las negociaciones de la habana a través de teorías conspirativasla primera disidencia de las farcla carta en la que el frente primero de las farc anunciaba que no se iba a desmovilizar,y que se conoció la semana pasada,seguramente será solo el primer caso de guerrilleros que no se suben al bus de lo acordado en la habana.las farc dijeron que se trataba solo de una parte del frente,lo que significaría que la disidencia es más pequeña,pero que igual existe.de hecho,las características de esa disidencia dan pistas de cuáles serían las líneas de quiebre,como analizó semana: son frentes más cercanos a las economías ilegales,como el narcotráfico o la minería ilegal; son los hombres que están más cerca de esos negocios que del combate o el trabajo político,y por lo tanto más criminalizados; son los mandos medios que llegaron a la guerrilla en los años noventa o después,cuando la fiebre del comunismo ya no era la principal fuerza reclutadora de los jefes guerilleros,y que no tienen los incentivos de meterse en el proceso que tienen los rasos (que tendrán oportunidades de vida para estudiar o trabajar) o la cúpula (que podrá hacer política).por eso,como han analizado varios medios,hay por lo menos tres frentes y grupos de una columna móvil que podrían irse a la disidencia también en los próximos meses.las violaciones al cese se pueden multiplicarel combate entre militares y guerrilleros en uribe,meta,el viernes pasado,reveló la fragilidad de la situación actual,en la que hay un cese al fuego de facto de las dos partes (estado y farc) pero sin verificación de un tercero.aunque ya está claro que será la onu quien hará la verificación,también se sabe que ese trabajo arrancará en firme el día de la firma del acuerdo final,como parte del cronograma de desarme acordado el 23 de junio.sin la onu verificando hoy lo que ocurre,es muy fácil que haya malentendidos o que grupos al interior de las fuerzas armadas o de las farc que no están de acuerdo con la negociación provoquen combates.por eso,como dijo el jefe de las farc alias timochenko,“es un hecho,es un hecho de los tantos que se van a dar”.las amenazas a defensores de derechos humanos pueden multiplicarsecomo contó la silla,los problemas de seguridad para líderes de derechos humanos han aumentado recientemente,sobre todo en las zonas donde están los neoparamilitares o donde hay sectores sociales que ven peligros en la implementación de los acuerdos de la habana,sobre todo los que tienen que ver con la lucha contra el paramilitarismo,las reformas en el agro o la política de drogas.situaciones como la de henry pérez,el lider comunitario del catatumbo que está desaparecido desde fines de enero,se han ido repitiendo. según contó josé miguel vivanco en la red de paz de la silla este sábado,19 defensores de derechos humanos han sido asesinados este año y más de 80 han sido amenazados.esa situación puede incrementarse a medida que las organizaciones sociales,muchas de ellas lideradas por defensores de derechos humanos,ganan relevancia con la implementación de los acuerdos,pues ellas serán las únicas que podrán presentar candidatos a las circunscripciones especiales de paz para elegir congresistas,tendrán acceso preferencial a medios de comunicación como canales y emisoras de interés público y,si son organizaciones de víctimas,podrán presentar informes sobre violaciones de derechos humanos en la justicia transicional.todo eso,aunque les da más poder,también las expone más. y una forma de desestabilizar el proceso o de combatir sus efectos,es la violencia contra sus líderes.el malestar militar se deja oíreste fin de semana el general jorge enrique mora,miembro del equipo negociador del gobierno en la habana,dijo que los militares condenados por falsos positivos deben entrar a la justicia transicional y salir libres. “cuando me preguntan que si los falsos positivos hacen parte (de la jurisdicción especial para la paz) y si van a salir,mi respuesta con absoluta convicción es claro que sí,tienen que salir,porque para eso es el fin del conflicto,para solucionar los graves delitos que fueron cometidos como parte de este”,dijo. mora dio esas declaraciones en un discurso ante la asociación de oficiales retirados,acore,una audiencia que ha sido reticente a la negociación. al hacerlo,el general estaba mostrando una buena noticia que puede venir de la habana para los militares,especialmente ahora que están empezando a cuajar los primeros procesos penales contra altos mandos,como los de los generales mario montoya y torres escalante.las declaraciones de mora recuerdan que siguen muy vivas las preocupaciones sobre el futuro de los uniformados en la justicia transicional,un asunto que seguramente se debatirá cuando se sepa el mecanismo acordado para escoger a los magistrados de esa justicia y,luego,cuando ésta empiece a operar. y sobre todo,cuando en las filas militares hay un malestar no resuelto frente a la habana,que vuelve a salir ahora que se discute una posible tregua. las investigaciones a privados se pueden volver más comunesla noticia de que el tribunal superior de bogotá le pidió ayer a la fiscalía que le entregara la información que tenga sobre la supuesta financiación de postobón a los paramilitares en el cesar,es un abrebocas de lo que se viene con la justicia transicional.como ésta podrá procesar a terceros diferentes a los combatientes,como financiadores o auxiliadores de guerrilla o paras,ese tipo de anuncios seguramente se repetirán. y si una pregunta a la fiscalía sobre la posible existencia de información desató un pequeño escándalo,lo que se viene más adelante,con posibles procesos a empresarios o políticos,seguramente pondrá a prueba el compromiso del establecimiento con el proceso de paz.","como el gobierno,las farc tienen en la habana un equipo de apoyo técnico que le provee insumos a los diez negociadores plenipotenciarios. en total,el gobierno aceptó levantarle las órdenes de captura a máximo treinta guerrilleros durante todo el proceso de paz. como ese tope aplica para toda la negociación,las farc tienen que utilizar los cupos de manera estratégica,y lo hacen: sirven para sacar guerrilleros que estén en alto peligro de muerte o captura,que necesiten atención médica o que sean enlaces clave con algunos frentes como el oriental,que es el más poderoso. dado el problema de comunicaciones de las farc,estas personas también pueden representar puntos de vista importantes de cada uno de los bloques,por lo que es una señal preocupante que no haya ninguno del bloque sur,que es el que expertos dicen se puede convertir en la piedra en el zapato de la negociación.en la página de la guerrilla en facebook están montadas las fotos de los que están ahora en la habana,con un texto escrito por cada uno con su percepción del actual proceso. la silla vacía los presenta tal cual y le agrega la información pública que existe sobre ellos en la interpol y en otras fuentes -que no es mucha-.necesita flash player"

最终通知 我可以使用其他功能,例如gsub::tm来删除标点符号。但是,我想使用stm中的那个,因为它已经创建了我用于运行主题建模所需的术语矩阵。任何想法为什么不起作用?

abduaini83 回答:在R中使用STM预处理文本时删除标点符号的问题

这是Quanteda的一个例子。我发现此软件包非常有用,因此在不使用英语languange时也是如此。它可以并行工作。

我将您的示例文本放在R目录中的文本文件中。为了清楚起见,我将显示所有步骤。在每个函数中可以完成几个步骤。

text <- readLines("test_text.txt",encoding = "UTF-8")

library(quanteda)
my_corpus <- corpus(text)

my_toks <- tokens(my_corpus,remove_numbers = TRUE,remove_punct = TRUE,remove_twitter = FALSE,remove_hyphens = FALSE,remove_url = FALSE
                  )

# remove stopwords
my_toks <- tokens_remove(my_toks,stopwords("spanish")) 

# stem words
my_toks <- tokens_wordstem(my_toks,language = "es")

# check if there are no - floating around
my_toks[["text2"]][80:98]
 [1] "escrit"     "cad"        "percepcion" "actual"     "proces"     "sill"       "vac"        "present"    "tal"        "agreg"     
[11] "inform"     "public"     "exist"      "interpol"   "fuent"      "much"       "necesit"    "flash"      "play"  

# convert to dfm 
my_dfm <- dfm(my_toks)

# convert to "stm" (or "topicmodels" for the topicsmodel package)
to_stm <- convert(my_dfm,to = "stm")

str(to_stm)
List of 3
 $ documents:List of 2
  ..$ text1: int [1:2,1:583] 1 3 2 1 3 1 4 1 5 1 ...
  ..$ text2: int [1:2,1:130] 18 2 22 1 25 1 31 1 33 1 ...
 $ vocab    : chr [1:660] "#santosestonoespaz" "@alvarohprada" "@andresfearcos" "@honohenriquez" ...
 $ meta     :'data.frame':  2 obs. of  0 variables
本文链接:https://www.f2er.com/3101022.html

大家都在问