Hei
为了比较几种数据变体,我制作了一个HTML报告。
给定一个特殊的类别,数据库中的某些索引应该相同。为了检测数据库中的错误/错误条目,我比较了表中的不同类别。
为了更好地阅读,可以使用彩色表。使用formattable-Package
可以轻松做到这一点。
我的数据集:
require(tidyverse)
require(formattable)
require(kableExtra)
require(knitr)
df1 <- data.frame(V1 = c(68,sample(c("J","N"),size=15,replace = TRUE)),V2 = c(10,V3 = c(1,replace = TRUE))
)
在此示例中,它具有3个不同的变体。仅推荐一个。假定具有最高N(=每个Vx列中的第一个条目)的变量是真实变量。
我的格式化表格是用以下代码生成的:
df1 %>%
mutate(
V2 = ifelse((as.character(V2) == as.character(V1)) == FALSE,cell_spec(V2,color = "red",bold = TRUE),color = "black",bold = FALSE)),V3 = ifelse((as.character(V3) == as.character(V1)) == FALSE,cell_spec(V3,bold = FALSE))
) %>%
kable(format = "html",escape = FALSE) %>%
kable_styling(c("striped","condensed"),full_width = FALSE) %>%
row_spec(1,bold = T,color = "white",background = "#D7261E")
两个问题:
- 如何循环
mutate
?
这是必要的,因为我要研究的不同类别最多可以有18个不同的变体。在每个数据集中,V1始终是参考变体。
- 您可以看到(运行代码!)第一行(“ N”)的编码是错误的。是否可以仅与第二行进行比较(默认情况下第一行设置为TRUE)
这很好,因为第一行的格式现在已经没有意义了。
谢谢!