-
信息检索文档收集阅读
因此,在我的代码中,我正在读取一个包含许多文档的文件,并且正在阅读这些文档并接受重要的单词 -
Jenson-Shannon距离是否比余弦距离更好,以比较由LDA主题向量表示的文档之间的相似性/相异性?
我遇到了一种称为<a href="https://en.wikipedia.org/wiki/Jensen%E2%80%93Shannon_divergence" rel="nofollow noreferrer">Jensen-Shanno -
针对许多文档计算文本相似度
我正在尝试针对其他搜索字词集合计算搜索字词<strong> A </strong>的文本相似度,例如“如何制作鸡”。为 -
在Solr中为父子查询设置字段权重
我将两种类型的文档(游戏和评论)编入索引,从单个文件到单个核心,使游戏成为评论的父级(子级 -
具有缺失值的纯文本/字符串中的表识别/检测(表格格式数据)
我正在寻找以下检测表格格式数据的不同方法: <pre><code>ID_string_foo 24 200.15 : 300.25 40001 ID -
是否有比使用python-docx从大量非结构化MS Word文档中提取文本块更好的方法?
对于文本分类问题,我需要从Word文档中提取大量文本块。我需要将这些文本块写入jsonlines文件,以便可 -
没有其他信息,传感器数据无法回答查询
我正在尝试实施新的<strong>语义信息检索系统</strong>。我的测试数据库中有两种类型的数据:<strong>传感 -
如何在某些条件下使用额外的权重实现TF-IDF评分
我目前有一个tf-idf系统用于评分,并且我使用余弦相似度进行搜索。我想添加额外的权重,考虑到给定 -
在WordCloud中将单词保持在一起
我正在使用wordcloud库在python中使用词云。 作为一个例子,我想从以下列表中做一个词云: <pre> -
快速文本预训练句子相似度
我想使用快速文本预训练模型来计算相似度 一组句子之间的一个句子。 谁能帮我? 最好的方法是什么 -
在nlp中是否有用于事件跟踪的项目或成熟模型?
我刚刚开始使用nlp。最近,我有一个用于新闻事件提取和跟踪的项目。主要任务是提取事件(不限于ACE 2 -
以11点内插平均精度计算recal 0
11点插值平均精度图是一个精度调用图,我对此有疑问。 此图表中的最佳精度是针对召回率= 0, -
用于学习对问题进行排名的Stacknet
StackNet是Kaggle的制胜法宝之一,它可以通过结合以下各种机器学习模型的预测来提高机器学习模型的准 -
如何通过与给定查询的相似性对Lucene Index中的文档进行排序
对于给定的查询,我希望对索引中的每个文档从最相似到最不相似进行排序。 Lucene提供了一些促 -
JavaFX应用程序非常慢
我们在课程项目中构建了一个信息检索引擎。我们被要求使用JavaFX运行程序。 问题在于该项目非 -
带有Indri的IR-如何通过索引获取平滑值和文档数据
我有一个索引(我没有建立索引,所以没有文档),我想从索引中获取以下值:<br/> 1.索引基于哪些文件 -
在Jaro-Winkler中引入数字不匹配的惩罚
我目前正在一个项目中,希望在两个字符串(地址)之间找到相似之处。我在匹配过程中使用了多种算 -
什么是使用成对比较对文档进行排名的最佳算法
我正在研究信息检索问题陈述。我已经使用成对方法训练了深度学习模型。 NDCG和MAP与逐点方法相比非常 -
使用(V1)python SDK API训练Watson Discovery不起作用
我想使用<em> Watson Discovery V1 </em> API进行相关性培训。我尝试了以下操作,但尚未获得理想的结果。在下 -
如何存储倒排索引?
我最近做了一个大约内存中有2,000,000个文档。这些文档是从mysql datbase导入的,加载大约需要6到10秒。每 -
Rocchio算法在哪个向量空间中计算?
我一直在尝试实现Rocchio算法,我了解该算法背后的基本思想,但是我很难将其具体化。我之前计算过tf_i -
如何将美国人口普查数据(从摘要文件)自动转换为CSV?
我试图提取美国人口普查2000年数据摘要文件(<a href="ftp://ftp2.census.gov/census_2000/datasets/Summary_File_3/" rel="no -
从纯文本中提取结构化数据的实用方法:寻找想法和反馈 选项a):一种基于规则的方法选项b):监督学习选项c):无监督学习
我是本地乘车共享Facebook组的成员。该组特定于两个城市以及介于两者之间的所有内容,因此该帖子(主 -
提取非结构化文本组以供以后的NLP使用?
我是数据挖掘/文本挖掘的新手,所以不确定我使用的是正确的术语。我正在尝试提出一个提取相关内容 -
此功能未显示文件名.................如何解决?
未从test_images中显示名称。在此路径中,有四个图像?如何解决这个问题 <a href="https://i.stack.imgur.com/gWvpn. -
在算法LambdaRank中(在学习排名中)| ∆ NDCG |是什么?意味着什么?
<a href="https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/MSR-TR-2010-82.pdf" rel="nofollow noreferrer">This Article< -
在线代表性网页语料库
我正在做一个课程项目,其中涉及构建搜索引擎。我们有不同的团队来构建产品的不同方面(网页爬网 -
倒排索引可以在一个条目中包含多个单词吗?
在信息检索中,倒排索引包含条目,这些条目是语料库的单词,每个单词都有一个发布列表,该列表是 -
捕获多个网站Sitemap数据
我希望<strong>比较和对比同一行业中多个网站站点地图的异同。我还希望收集在多个站点中使用的命名约 -
使用k-gram索引的主题分类
我有一组主题,每个主题都有一个关键字列表。 <code>{Sports:['Ronaldo Messi Zidane','Football Baseball'