具有条款意义的ElasticSearch分析器

2024-05-03 • 问答

这是我的目标：

根据某些文本进行汇总。

让我们举一些例子：

管理咨询---咨询（这些应汇总为“咨询”或“咨询”）

数据和分析----分析（这些应与“分析”汇总）

商务管理-商务智能（“这些功能根本不应该汇总，它们是不同的”

示例输入如下：

row 1 : management consulting,data and analytics,buisness intelligence
row 2 :consulting,analytics,buisness management

我的分析器当前如下：

"settings": {
        "analysis": {
            "analyzer": {
                "category_analysis": {
                    "type": "custom","tokenizer": "comma_token","filter": ["lowercase","english_stop"]
                }
            },"tokenizer": {
                "comma_token": {
                    "type": "pattern","pattern": ","
                }
            },"filter": {
                "english_stop": {
                    "type": "stop","stopwords": "_english_"
                }
            }
        }
    }

基本上所有输入都用逗号分隔，并删除所有停用词。

面临的挑战是，如果我将一切都分割掉

（商务智能）=>（商务智能）

，那么在这种情况下，我将失去上下文，因此失去第二部分的重要性。但是，它将适用于

（数据和分析）=>（数据，分析）

。

因此，有什么好的方法可以完成这项任务？我不确定是否有简单的方法可以做到这一点，因为我认为可能需要使用一些机器学习来理解

（数据和分析）=>（数据，分析）

很好，但是

（商务智能）=>（商务智能）

不好。

具有条款意义的ElasticSearch分析器

fancykee 回答：具有条款意义的ElasticSearch分析器

大家都在问