这是我的目标:
根据某些文本进行汇总。
让我们举一些例子:
管理咨询---咨询(这些应汇总为“咨询”或“咨询”)
数据和分析----分析(这些应与“分析”汇总)
商务管理-商务智能(“这些功能根本不应该汇总,它们是不同的”
示例输入如下:
row 1 : management consulting,data and analytics,buisness intelligence
row 2 :consulting,analytics,buisness management
我的分析器当前如下:
"settings": {
"analysis": {
"analyzer": {
"category_analysis": {
"type": "custom","tokenizer": "comma_token","filter": ["lowercase","english_stop"]
}
},"tokenizer": {
"comma_token": {
"type": "pattern","pattern": ","
}
},"filter": {
"english_stop": {
"type": "stop","stopwords": "_english_"
}
}
}
}
基本上所有输入都用逗号分隔,并删除所有停用词。
面临的挑战是,如果我将一切都分割掉
(商务智能)=>(商务智能)
,那么在这种情况下,我将失去上下文,因此失去第二部分的重要性。但是,它将适用于
(数据和分析)=>(数据,分析)
。
因此,有什么好的方法可以完成这项任务?我不确定是否有简单的方法可以做到这一点,因为我认为可能需要使用一些机器学习来理解
(数据和分析)=>(数据,分析)
很好,但是
(商务智能)=>(商务智能)
不好。