正则表达式删除一切,但表情符号从R中的字符串?

我有一个很大的.xlsx文件,其中包含带有表情符号的推文。我正在一个个人项目中,我想从提取的表情符号制作网络图。例如,如果我在以下任一列中输入了此内容:

Christian✝️,Husband?,Father?‍?‍?‍?,Former TV ?Meteorologist?,GOP?,LTC ?,Dolfan?,since ‘75,Yanks Fan⚾️ & UCONN Alum? Go Whalers?!

那我怎么会只得到它的输出呢?

✝️??‍?‍?‍??????⚾️??

在堆栈溢出和互联网上,我到处都看过,但是什么也找不到。我是R的初学者,如果您可以给我一些指导,以指导您解决问题,请给我一些指导。预先感谢。

编辑1:我通常在读取文件时得到的是Unicode(UTF-8格式),但是我不知道如何将这些Unicode转换为表情符号。网上有字典,但它们只给我其中一些表情符号的名称非常过时。

编辑2:有一个可以在Linux上运行的解决方案,但是如果有人有解决方案/提示/说明可以使它在Windows上运行,我将不胜感激。

ypl528 回答:正则表达式删除一切,但表情符号从R中的字符串?

这对我有用,但需要注意的是,只有十字形作为控制台中的表情符号打印出来了,其余的是unicode表示形式。

# install.packages("remotes")
# remotes::install_github("hadley/emo")
emojis <- "Christian✝️,Husband?,Father?‍?‍?‍?,Former TV ?Meteorologist?,GOP?,LTC ?,Dolfan?,since ‘75,Yanks Fan⚾️ & UCONN Alum? Go Whalers?!"
emojis
only_emojis <- emo::ji_extract_all(emojis)
only_emojis

#  emo::ji_extract_all(emojis)
# [[1]]
#  [1] "✝️"      "\U0001f46b"      "\U0001f468"      "\U0001f469"      "\U0001f466"      "\U0001f466"      "\U0001f4fa"      "\U0001f418"      "\U0001f52b"      "\U0001f42c"      "\u26be" "\U0001f3c0"      "\U0001f40b"   

# install.packages("utf8")
utf8::utf8_print(only_emojis[[1]])  
# [1] "✝️​" "?​" "?​" "?​" "?​" "?​" "?​" "?​" "?​" "?​" "⚾​" "?​" "?​"
本文链接:https://www.f2er.com/3089854.html

大家都在问