python elasticsearch 翻页的三种方式_风雨「83」的博客-程序员宅基地

技术标签: elasticsearch  

使用ES做搜索引擎拉取数据的时候,如果数据量太大,通过传统的from + size的方式并不能获取所有的数据(默认最大记录数10000),因为随着页数的增加,会消耗大量的内存,导致ES集群不稳定。因此延伸出了scroll,search_after等翻页方式。

 

一、from + size 浅分页

"浅"分页可以理解为简单意义上的分页。它的原理很简单,就是查询前20条数据,然后截断前10条,只返回10-20的数据。这样其实白白浪费了前10条的查询。

GET test/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "age": 28
          }
        }
      ]
    }
  },
  "size": 10,
  "from": 20,
  "sort": [
    {
      "timestamp": {
        "order": "desc"
      },
      "_id": {
        "order": "desc"
      }
    }
  ]
}

from定义了目标数据的偏移值,size定义当前返回的数目。默认from为0,size为10,即所有的查询默认仅仅返回前10条数据。

在这里有必要了解一下from/size的原理:
因为es是基于分片的,假设有5个分片,from=100,size=10。则会根据排序规则从5个分片中各取回100条数据数据,然后汇总成500条数据后选择最后面的10条数据。

做过测试,越往后的分页,执行的效率越低。总体上会随着from的增加,消耗时间也会增加。而且数据量越大,就越明显!
 

二、scroll 深分页

 from+size查询在10000-50000条数据(1000到5000页)以内的时候还是可以的,但是如果数据过多的话,就会出现深分页问题。为了解决上面的问题,elasticsearch提出了一个scroll滚动的方式。
scroll 类似于sql中的cursor,使用scroll,每次只能获取一页的内容,然后会返回一个scroll_id。根据返回的这个scroll_id可以不断地获取下一页的内容,所以scroll并不适用于有跳页的情景。
 

# -*- coding: utf-8 -*-
# @Time    : 
# @Author  :

from elasticsearch import Elasticsearch

es = Elasticsearch(hosts="ip:9200", timeout=20, max_retries=10, retry_on_timeout=True)

# Elasticsearch 需要保持搜索的上下文环境多久 游标查询过期时间为10分钟(10m)
page = es.search(
                index="source_keyword_message", doc_type="source_keyword_message",
                scroll='10m',
                size=100,
                body={
                    "query": {"match_all": {}},
                }
            )
# 游标用于输出es查询出的所有结果
sid = page['_scroll_id']
# es查询出的结果总量
scroll_size = page['hits']['total']
# es查询出的结果第一页
datas = page.get('hits').get('hits')

while (scroll_size > 0):
     page = es.scroll(scroll_id=sid, scroll='5m')
     sid = page['_scroll_id']
     scroll_size = len(page['hits']['hits'])
     datas = page.get('hits').get('hits')
     
     
  1. scroll=5m表示设置scroll_id保留5分钟可用。
  2. 使用scroll必须要将from设置为0。默认0
  3. size决定后面每次调用_search搜索返回的数量

三、search_after 深分页

scroll 的方式,官方的建议不用于实时的请求(一般用于数据导出),因为每一个 scroll_id 不仅会占用大量的资源,而且会生成历史快照,对于数据的变更不会反映到快照上。

search_after 分页的方式是根据上一页的最后一条数据来确定下一页的位置,同时在分页请求的过程中,如果有索引数据的增删改查,这些变更也会实时的反映到游标上。但是需要注意,因为每一页的数据依赖于上一页最后一条数据,所以无法跳页请求。

为了找到每一页最后一条数据,每个文档必须有一个全局唯一值,官方推荐使用 _uid 作为全局唯一值,其实使用业务层的 id 也可以。

GET test/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "age": 28
          }
        }
      ]
    }
  },
  "size": 20,
  "from": 0,
  "sort": [
    {
      "timestamp": {
        "order": "desc"
      },
      "_id": {
        "order": "desc"
      }
    }
  ]
}
  1. 使用search_after必须要设置from=0。
  2. 这里我使用timestamp和_id作为唯一值排序。
  3. 我们在返回的最后一条数据里拿到sort属性的值传入到search_after。

使用sort返回的值搜索下一页:

GET test/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "age": 28
          }
        }
      ]
    }
  },
  "size": 10,
  "from": 0,
  "search_after": [
    1541495312521,
    "d0xH6GYBBtbwbQSP0j1A"
  ],
  "sort": [
    {
      "timestamp": {
        "order": "desc"
      },
      "_id": {
        "order": "desc"
      }
    }
  ]
}

 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/wywinstonwy/article/details/107223904

智能推荐

SQL Server创建索引_baluaohuailan04550的博客-程序员宅基地

什么是索引拿汉语字典的目录页(索引)打比方:正如汉语字典中的汉字按页存放一样,SQL Server中的数据记录也是按页存放的,每页容量一般为4K 。为了加快查找的速度,汉语字(词)典一般都有按拼音、笔画、偏旁部首等排序的目录(索引),我们可以选择按拼音或笔画查找方式,快速查找到需要的字(词)。同理,SQL Server允许用户在表中创建索引,指定按某列预先排序,从而大大提高查询速...

python图像拼接_图像拼接Python_weixin_39621495的博客-程序员宅基地

I have to stitch two or more images together using python and openCV.I found this code for finding keypoints and matches, but I don't know how to continue.Help me please!import numpy as npimport cv2MI...

DDS工作原理及其性能分析_weixin_30684743的博客-程序员宅基地

DDS工作原理及其性能分析声明:引用请注明出处http://blog.csdn.net/lg1259156776/系列博客说明:此系列博客属于作者在大三大四阶段所储备的关于电子电路设计等硬件方面的知识和项目笔记,由于当时崇尚手写,没有进行电子录入,后来发现查阅起来比较零散且麻烦,而且不便随身携带。现将笔记中...

Scala的初级学习(语言介绍和环境准备)_张岛主的博客-程序员宅基地

第一次正儿八经的写博客,希望自己提升的同时也能够帮助到一些人吧!那就开始!简述: scala是学习spark的基础,也是大数据学习道路上的重要环节官方简述:Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序官方网址 http://www.scala-lang.org学习目...

Java经典编程习题100例:第5例:输出所有的水仙花数_雷 公的博客-程序员宅基地

不要自卑,去提升实力互联网行业谁技术牛谁是爹如果文章可以带给你能量,那是最好的事!请相信自己加油o~ Java经典编程习题,初学者可以参考学习点击下面链接Java经典编程100例习题汇总题目描述:输出所有的水仙花数,把谓水仙花数是指一个数3位数,其各各位数字立方和等于其本身解题思路:例如: 153 = 1*1*1 + 3*3*3 + 5*5*5代码:public class Main { public static void main(String[] args..

Google Chrome浏览器时序图_破落之实的博客-程序员宅基地_页面加载时序图

秉承重点放前面的原则,先展示两种情况的时序图,再在后面详细说明。时序图结果加载带有JavaScript脚本的HTML[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wlV2LUZp-1586610305316)(https://blog-1252880414.cos.ap-chengdu.myqcloud.com/browser_timeline/image3....

随便推点

vue项目启动时 [email protected] dev: `webpack-dev-server --inline --progress --config build/webpack.dev.c..._学而时习之不亦说乎。的博客-程序员宅基地

关于npm ERR! [email protected] dev: `webpack-dev-server --inline --progress --config build/webpack.dev.conf.js`原因:这是新版webpack存在的BUG,卸载现有的新版本webpack,装老版本就好。解决:(1)npm uninstall webpack-dev-server(2)npm install [email protected](3)npm run dev..

2分钟上手、3小时学会无代码软件开发---HTML使用_chengyouli8918的博客-程序员宅基地

HTML是标签语言,浏览器识别网络传递的最基本的信息就是HTML标签和标签包含的内容,所有网页信息都是这种类型的,开发者用标签来标记信息内容传给浏览器,浏览器识别并解释标签要求的种颜色、样式来展示内容,这种内容一般叫超文本或富文本 无代码元件的TAG属性就是为了定义是什么样的HT...

oracle启动sql,Oracle sqlplus命令中的Oracle启动与关闭_黄孚嘉的博客-程序员宅基地

本文主要介绍的是Oracle sqlplus命令运行中,Oracle启动与关闭的实际操作步骤的介绍,如果你对Oracle sqlplus命令的相关内容感兴趣的话,你不妨浏览以下的文章,对其有一个更深的了解。Oracle的启动和关闭1、在单机环境下要想启动或关闭Oracle系统必须首先切换到Oracle用户su - Oracle如下a、启动Oracle系统Oracle>svrmgrlSVRMG...

JavaEE复习笔记(8)——Struts:Convention插件和约定_octopusflying的博客-程序员宅基地

1、从Struts2.1开始,Struts2引入了Convention插件来支持零配置。插件完全可以抛弃配置信息,不仅不需要struts.xml文件进行配置,甚至不需要使用Annotation进行配置。而是由Struts2根据约定来自动配置。2、Convention插件的主要特点是:约定优于配置。3、为了使用Convention插件,必须在Struts2应用中安装Convent

flink读kafka写入mysql_Flink 1.9 实战:使用 SQL 读取 Kafka 并写入 MySQL_苏远岫的博客-程序员宅基地

上周六在深圳分享了《Flink SQL 1.9.0 技术内幕和最佳实践》,会后许多小伙伴对最后演示环节的 Demo 代码非常感兴趣,迫不及待地想尝试下,所以写了这篇文章分享下这份代码。希望对于 Flink SQL 的初学者能有所帮助。完整分享可以观看 Meetup 视频回顾 :https://developer.aliyun.com/live/1416这份代码主要由两部分组成:1) 能用来提交 S...

水晶报表函数大全【收藏】_weixin_34248487的博客-程序员宅基地

汇总函数的条件以下是每个汇总函数的条件列表:布尔型条件任何更改更改为“是”更改为“否”对每个“是”对每个“否”对下一个“是”对下一个“否”日期条件每天每周每两周每半月每月每季每半年每年时间条件每秒每分钟每小时上午/下午SumBasic 语法和 C...

推荐文章

热门文章

相关标签