具有条款意义的ElasticSearch分析器

这是我的目标:

根据某些文本进行汇总。

让我们举一些例子:

  

管理咨询---咨询(这些应汇总为“咨询”或“咨询”)

     

数据和分析----分析(这些应与“分析”汇总)

     

商务管理-商务智能(“这些功能根本不应该汇总,它们是不同的”

示例输入如下:

row 1 : management consulting,data and analytics,buisness intelligence
row 2 :consulting,analytics,buisness management

我的分析器当前如下:

"settings": {
        "analysis": {
            "analyzer": {
                "category_analysis": {
                    "type": "custom","tokenizer": "comma_token","filter": ["lowercase","english_stop"]
                }
            },"tokenizer": {
                "comma_token": {
                    "type": "pattern","pattern": ","
                }
            },"filter": {
                "english_stop": {
                    "type": "stop","stopwords": "_english_"
                }
            }
        }
    }

基本上所有输入都用逗号分隔,并删除所有停用词。

面临的挑战是,如果我将一切都分割掉

  

(商务智能)=>(商务智能)

,那么在这种情况下,我将失去上下文,因此失去第二部分的重要性。但是,它将适用于

  

(数据和分析)=>(数据,分析)

因此,有什么好的方法可以完成这项任务?我不确定是否有简单的方法可以做到这一点,因为我认为可能需要使用一些机器学习来理解

  

(数据和分析)=>(数据,分析)

很好,但是

  

(商务智能)=>(商务智能)

不好。

fancykee 回答:具有条款意义的ElasticSearch分析器

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3114733.html

大家都在问