-
两个字符串的最佳相似距离度量
我有一堆要匹配的公司名称,例如,我要匹配以下字符串:<code>A&A PRECISION</code> 与<code>A&A PR -
如何在R中将相似的文本聚类
我知道在这个/不同的论坛中可能会问过类似的问题,但是我觉得我的要求是不同的。 我有2列数据框, -
标准化R中的字符串
我有一个带有一些品牌名称的数据集。通过预处理(例如,降低大小写,删除停用词,修剪空白,字符 -
距离/模糊匹配2列与R
在我的简化示例中,我有一个包含四个不同列的数据框。我希望能够将main_name和main_dob与secondary_name和seco -
使用应用功能替换循环
我想用R中的适当Apply函数替换嵌套的for循环。 我声明一个具有以下尺寸的矩阵-ncol为412,nrow为2164 -
子组中的匹配功能
我有两个数据框a和b,它们都是职业列表。我想将da中的每个职业与db中最接近的职业进行匹配。 我已经 -
在大型数据集中聚类相似的字符串
我的数据与以下数据相似 <pre><code> comp_name perm_id GM Gl -
stringdist_semi_join仅显示dataframe1中的列
我有两个数据框: <pre><code>df1 <- data.frame(City=c("Munchen_Paris","Munchen_Paris","Barcelona_Milan -
R识别不匹配行的功能
我正在尝试比较2个数据框架,“ V1”代表我的CRM,“ V2”代表我要发送的销售线索。 “ V1大约有8 -
用stringdist替代agrep
有<a href="https://stackoverflow.com/questions/25026460/faster-r-code-for-fuzzy-name-matching-using-agrep-for-multiple-patterns">example -
R中的模糊分组
<pre><code>library(tidyverse) data <- tibble(city =c('Montreal','Montréal','Ottawa','Ottawa','New Y -
使用字符串距离比较和替换OCR文本(R)
我有一组带有<code>text</code>列的观察值,其中包含从OCR提取的文本。数据如下所示: <pre><code>text THIS -
如何计算两个字符串中任何地方的最长公共子字符串
我正在尝试计算最长精确的公共子字符串,该字符串在R中的字符串和字符串向量之间没有间隔。如何修 -
遍历R中的两个数据帧并比较对应的列值
我有两个包含有关用户的文本数据的数据框: <pre><code>x <- data.frame("Address_line1" = c("123 Stree -
将数据框的对应列与R中的列表进行比较
我有一个包含用户数据的数据框 <pre><code>x <- data.frame("Address_line1" = c("461 road","PO Box 1 -
寻找一组文档的最佳相似性度量
作为NLP的新手,我正在尝试寻找一个似乎没有充分记录的问题的解决方案-估计<strong>组</strong>而不是一 -
R:将相似的地址分组在一起
我有一个40万行文件,其中包含手动输入的地址,这些地址需要进行地址编码。文件中相同地址的变化很 -
创建新字段以显示R中两列之间的stringdist?
我有两列具有约20k行名(并非都是唯一的),我想在两列之间逐行进行比较。我还想比较长度,并获得 -
Fuzzyjoin / stringdist_join 权重用于大写(案例)不匹配(stringdist)
与 R 合作,我正在寻找在 <code>if (message.channel.id !== '794303555975643136') return; </code> 中加权大小写(即 -
如何从相互满足最大字符串距离标准的大矩阵中返回字符串对列表?
我正在尝试以一种方式呈现人工输入的单词,使它们的分组更容易识别为指同一事物。本质上是一个拼 -
通过 R 中的现有 stringdist 函数并行处理子集数据帧和批处理
我继承了一个函数,使用 stringdist 包在两组名称之间运行模糊匹配,以计算两个字符串变量之间的距离 -
amatch() 文本匹配 - R
我正在尝试匹配单词以从列表中选择最接近的匹配案例。我正在使用 <code>amatch()</code> 包中的函数 <code>st -
使用stringdist_left_join通过多列join,但不是全部都模糊
我有一个 130 万行的出版物数据集,对于每条记录,我想从具有 860 万行的第二个数据集中检索 paper_id。 -
我如何加速这个 R 代码,我在其中使用 stringdist?
我正在尝试通过识别足够相似的客户数据来清理我们的客户数据库,以将他们视为同一客户(因此,为 -
在 R 中标准化城市名称
我是 R 和编码领域的新手,请原谅我在这里拼错了一些或更多的术语 (cmiiw)。 我面临清理数据框中 -
根据 commonin R 中的最大单词数合并两个数据帧
我有两个 data.frame,一个包含部分名称,另一个包含全名,如下 <pre><code>partial <- data.frame( "partial -
替换矩阵中的重复项
我为您准备了以下测试代码: <pre class="lang-r prettyprint-override"><code>####TESTING HERE test = tibble::tribble( -
如何使用 stringdist 匹配一个模糊和一个精确的 data.table 列
我必须找到数据库与字典的最佳匹配/合并。根据我获得的信息 <a href="https://stackoverflow.com/questions/58442426" -
使用 stringdist 进行字符串匹配
我有两个数据框,其部门名称与这些类似: <pre><code>d1 <- data.frame(depto=c("antioquia", "arauca"