Elasticsearch:统计字段中有重复数据的文档

Elasticsearch: Count Document that Have Duplicated data in Field

提问人:Sam J Sem 提问时间:11/17/2023 最后编辑:Sam J Sem 更新时间:11/17/2023 访问量:14

问:

我写信询问 Elasticsearch 中是否有一种方法可以获取字段中有重复项的所有文档: 考虑 Elasticsearch 中的文档,如下所示:count

{ "duplicated-attr": "test test" }

这个非常简单的文档有一个字段:;并具有它的价值.它应该只具有以下值:,从而存储在 Elasticsearch 中,如下所示:duplicated-attrtest testtest

{ "duplicated-attr": "test" }

但是,我们的索引并非如此;并且,我想确定一种方法来列出/计算 Elasticsearch 字段中发生此类重复的所有文档?

上面的人为示例非常符合我们在索引中使用的示例:mappingmapping

{
  "mappings":
  {
    "properties":
    {
      "searchProperties":
      {
        "duplicated-attr":
        {
          "type": "text",
          "fields":
          {
            "keyword":
            {
              "type": "keyword",
              "ignore_above": 512
            }
          }
        }
      }
    }
  }
}


Elasticsearch Count Duplicates 字段

评论

0赞 Val 11/17/2023
您能否分享字段的映射类型?此外,索引包含的文档数量也会有所帮助duplicated-attr
0赞 Sam J Sem 11/17/2023
@Val:请找到添加的映射。谢谢你的帮助。非常感谢。

答: 暂无答案