stringdist

两个字符串的最佳相似距离度量

我有一堆要匹配的公司名称，例如，我要匹配以下字符串：<code>A&A PRECISION</code> 与<code>A&A PR

前端之家
2022-08-15 • 问答
如何在R中将相似的文本聚类

我知道在这个/不同的论坛中可能会问过类似的问题，但是我觉得我的要求是不同的。我有2列数据框，

前端之家
2022-08-13 • 问答
标准化R中的字符串

我有一个带有一些品牌名称的数据集。通过预处理（例如，降低大小写，删除停用词，修剪空白，字符

前端之家
2022-08-08 • 问答
距离/模糊匹配2列与R

在我的简化示例中，我有一个包含四个不同列的数据框。我希望能够将main_name和main_dob与secondary_name和seco

前端之家
2022-07-29 • 问答
使用应用功能替换循环

我想用R中的适当Apply函数替换嵌套的for循环。我声明一个具有以下尺寸的矩阵-ncol为412，nrow为2164

前端之家
2022-07-26 • 问答
子组中的匹配功能

我有两个数据框a和b，它们都是职业列表。我想将da中的每个职业与db中最接近的职业进行匹配。我已经

前端之家
2022-07-25 • 问答
在大型数据集中聚类相似的字符串

我的数据与以下数据相似 <pre><code> comp_name perm_id GM Gl

前端之家
2022-07-11 • 问答
stringdist_semi_join仅显示dataframe1中的列

我有两个数据框： <pre><code>df1 <- data.frame(City=c("Munchen_Paris","Munchen_Paris","Barcelona_Milan

前端之家
2022-07-09 • 问答
R识别不匹配行的功能

我正在尝试比较2个数据框架，“ V1”代表我的CRM，“ V2”代表我要发送的销售线索。 “ V1大约有8

前端之家
2022-07-07 • 问答
用stringdist替代agrep

有<a href="https://stackoverflow.com/questions/25026460/faster-r-code-for-fuzzy-name-matching-using-agrep-for-multiple-patterns">example

前端之家
2022-07-06 • 问答
R中的模糊分组

<pre><code>library(tidyverse) data <- tibble(city =c('Montreal','Montréal','Ottawa','Ottawa','New Y

前端之家
2022-07-02 • 问答
使用字符串距离比较和替换OCR文本（R）

我有一组带有<code>text</code>列的观察值，其中包含从OCR提取的文本。数据如下所示： <pre><code>text THIS

前端之家
2022-06-23 • 问答
如何计算两个字符串中任何地方的最长公共子字符串

我正在尝试计算最长精确的公共子字符串，该字符串在R中的字符串和字符串向量之间没有间隔。如何修

前端之家
2022-06-20 • 问答
遍历R中的两个数据帧并比较对应的列值

我有两个包含有关用户的文本数据的数据框： <pre><code>x <- data.frame("Address_line1" = c("123 Stree

前端之家
2022-06-18 • 问答
将数据框的对应列与R中的列表进行比较

我有一个包含用户数据的数据框 <pre><code>x <- data.frame("Address_line1" = c("461 road","PO Box 1

前端之家
2022-06-17 • 问答
寻找一组文档的最佳相似性度量

作为NLP的新手，我正在尝试寻找一个似乎没有充分记录的问题的解决方案-估计<strong>组</strong>而不是一

前端之家
2022-05-31 • 问答
R：将相似的地址分组在一起

我有一个40万行文件，其中包含手动输入的地址，这些地址需要进行地址编码。文件中相同地址的变化很

前端之家
2022-05-26 • 问答
创建新字段以显示R中两列之间的stringdist？

我有两列具有约20k行名（并非都是唯一的），我想在两列之间逐行进行比较。我还想比较长度，并获得

前端之家
2022-05-25 • 问答
Fuzzyjoin / stringdist_join 权重用于大写（案例）不匹配（stringdist）

与 R 合作，我正在寻找在 <code>if (message.channel.id !== '794303555975643136') return; </code> 中加权大小写（即

前端之家
2022-05-02 • 问答
如何从相互满足最大字符串距离标准的大矩阵中返回字符串对列表？

我正在尝试以一种方式呈现人工输入的单词，使它们的分组更容易识别为指同一事物。本质上是一个拼

前端之家
2022-04-30 • 问答
通过 R 中的现有 stringdist 函数并行处理子集数据帧和批处理

我继承了一个函数，使用 stringdist 包在两组名称之间运行模糊匹配，以计算两个字符串变量之间的距离

前端之家
2022-04-28 • 问答
amatch() 文本匹配 - R

我正在尝试匹配单词以从列表中选择最接近的匹配案例。我正在使用 <code>amatch()</code> 包中的函数 <code>st

前端之家
2022-04-27 • 问答
使用stringdist_left_join通过多列join，但不是全部都模糊

我有一个 130 万行的出版物数据集，对于每条记录，我想从具有 860 万行的第二个数据集中检索 paper_id。

前端之家
2022-04-26 • 问答
我如何加速这个 R 代码，我在其中使用 stringdist？

我正在尝试通过识别足够相似的客户数据来清理我们的客户数据库，以将他们视为同一客户（因此，为

前端之家
2022-04-24 • 问答
在 R 中标准化城市名称

我是 R 和编码领域的新手，请原谅我在这里拼错了一些或更多的术语 (cmiiw)。我面临清理数据框中

前端之家
2022-04-22 • 问答
根据 commonin R 中的最大单词数合并两个数据帧

我有两个 data.frame，一个包含部分名称，另一个包含全名，如下 <pre><code>partial <- data.frame( "partial

前端之家
2022-04-20 • 问答
替换矩阵中的重复项

我为您准备了以下测试代码： <pre class="lang-r prettyprint-override"><code>####TESTING HERE test = tibble::tribble(

前端之家
2022-04-19 • 问答
如何使用 stringdist 匹配一个模糊和一个精确的 data.table 列

我必须找到数据库与字典的最佳匹配/合并。根据我获得的信息 <a href="https://stackoverflow.com/questions/58442426"

前端之家
2022-04-18 • 问答
使用 stringdist 进行字符串匹配

我有两个数据框，其部门名称与这些类似： <pre><code>d1 <- data.frame(depto=c("antioquia", "arauca&#34

前端之家
2022-04-15 • 问答