Elasticsearch查询及聚合类DSL语句宝典
作者:京东科技 纪海雨

我们提供的服务有:成都网站设计、成都做网站、微信公众号开发、网站优化、网站认证、浮山ssl等。为上千多家企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务,是有科学管理、有技术的浮山网站制作公司
前言
随着使用es场景的增多,工作当中避免不了去使用es进行数据的存储,在数据存储到es当中以后就需要使用DSL语句进行数据的查询、聚合等操作,DSL对SE的意义就像SQL对MySQL一样,学会如何编写查询语句决定了后期是否能完全驾驭ES,所以至关重要,本专题主要是分享常用的DSL语句,拿来即用。
一、match
如果match 查询数字,日期,布尔值或者not_analyzed 的字符串时,会精确匹配搜索值,不做分词解析;如果match 查询全文本,会对查询词做分词解析,然后搜索。
比如对keyword 类型的tag 查询,"京东总部"不会分词,必须完全相等的词才会被搜索出来
{a
  "query": {
    "match": {
        "content" : {
            "tag" : "京东总部"
        }
    }
  }
}比如"宝马多少马力"会被分词为"宝马 多少 马力", 所有有关"宝马 多少 马力", 那么所有包含这三个词中的一个或多个的文档就会被搜索出来。并且根据lucene的评分机制(TF/IDF)来进行评分
{
  "query": {
    "match": {
        "content" : {
            "query" : "宝马多少马力"
        }
    }
  }
}
二、match_phrase
如果想要精确匹配所有同时包含"宝马 多少 马力"的文档,就要使用 match_phrase 了
{
  "query": {
    "match_phrase": {
        "content" : {
            "query" : "宝马多少马力"
        }
    }
  }
}
三、mult_match
如果我们希望两个字段进行匹配,其中一个字段有这个文档就满足的话,使用multi_match
{
  "query": {
    "multi_match": {
        "query" : "我的宝马多少马力",
        "fields" : ["title", "content"]
    }
  }
}
四、term
关键字精确匹配,不分词解析。注意 term 包含(contains) 操作,而非 等值(equals)判断。如果文档包含full_text 及其他词,也会命中返回。
使用term要确定的是这个字段是否“被分析”(analyzed),默认的字符串是被分析的。
比如下面的例子,其中的full_text是被分析过的,所以full_text的索引中存的就是[quick, foxes],而extra_value中存的是[Quick Foxes!]
PUT my_index
{
"mappings": {
"my_type": {
"properties": {
"full_text": {
"type": "string"
},
"exact_value": {
"type": "string",
"index": "not_analyzed"
}
}
}
}
}
PUT my_index/my_type/1
{
"full_text": "Quick Foxes!",
"exact_value": "Quick Foxes!"
}
请求不出数据的,因为full_text分词后的结果中没有[Quick Foxes!]这个分词
GET my_index/my_type/_search
{
"query": {
"term": {
"full_text": "Quick Foxes!"
}
}
}
五、terms
指定多值精确匹配,如果字段包含了指定值中的任何一个值,那么文档满足条件。类似sql中的in
{
    "terms": {
        "tag": [
            "search",
            "full_text",
            "nosql"
        ]
    }
}
六、range
数字/时间的区间查询,操作符:
•gt > greater than
•gte >=
•lt < litter than
•lte <=
{
  "query":{
    "range": {
        "age": {
            "gte":  20,
            "lt":   30
        }
    }
  }
}
七、wildcard
通配符索引。* 表示全匹配,? 表示单一匹配。扫描所有倒排索引,性能较差
{ 
  "query": { 
    "wildcard": { 
      "companyName": "*京东*" 
    } 
  } 
}
八、regexp
正则索引。扫描所有倒排索引,性能较差
{ 
    "query": { 
        "regexp": { 
            "postcode": "W[0-9].+" 
        } 
    } 
}
九、组合多查询(bool查询)
bool 查询后面可以跟这四种匹配模式
•must 必须匹配
•must_not 必须不匹配
•should 匹配任意,等价or
•filter 必须匹配:过滤模式
比如我们想要请求"content 中带宝马,但是tag 中不带宝马"这样类似的需求,就需要用到bool 联合查询。
{
    "query":{
        "bool":{
            "must":{
                "term":{
                    "content":"宝马"
                }
            },
            "must_not":{
                "term":{
                    "tags":"宝马"
                }
            }
        }
    }
}
十、聚合
聚合包含一下两种:
1、 指标聚合(Metric Aggregation):一些数学运算,可以对文档字段进行统计分析
- 输出一个值
- min
- max
- sum
- avg
- value_count 统计某字段有值的文档数
- cardinality 某字段值去重计数
- 输出多个值
- stats
- percentiles
- percentile_ranks
2、桶聚合(Bucket Aggregation) :一些列满足特定条件的文档的集合,相当于sql 的groupby
- terms 对某个字段统计每个不同的内容,以及出现文档的个数
- range 某个范围内文档的个数
默认聚合范围是全文,但是如果有query查询,那么聚合的范围就是query查询的结果。
value_count 统计某字段有值的文档数
{
  "size": 0, 
  "aggs": {
    "count": {
      "value_count": {
        "field": "companyName"
      }
    }
  }
}指定查询语句进行统计
{
  "query": {
    "term": {
      "companyName": "安徽科达智慧能源科技有限公司"
    }
  },
  "aggs": {
    "count": {   //自定义名称
      "terms": {
        "field": "companyName"
      }
    }
  }
}以上就是本期分享的DSL语句,小伙伴们结合自己的使用查询场景进行操练起来吧。
名称栏目:Elasticsearch查询及聚合类DSL语句宝典
网站网址:http://jxruijie.cn/article/cdhescj.html

 
                