Elasticsearch--解决JVM 堆内存使用率很高的问题_elasticsearch8占用大量内存-程序员宅基地

技术标签： jvm java elasticsearch ELK

原文网址：Elasticsearch--解决JVM 堆内存使用率很高的问题_IT利刃出鞘的博客-程序员宅基地

简介

说明

本文介绍如何解决ES的JVM 堆内存使用率很高的问题。

官网网址

https://www.elastic.co/guide/en/elasticsearch/reference/current/size-your-shards.html

https://www.elastic.co/guide/en/elasticsearch/reference/current/fix-common-cluster-issues.html

问题描述

高 JVM 内存使用率会降低集群性能并触发断路器错误（导致内存熔断）。

为了防止这种情况发生，如果节点的 JVM 内存使用率持续超过 85%，官方建议采取措施降低内存压力。

诊断 JVM 内存压力

检查 JVM 内存使用情况

借助：node stats API 进行排查

GET _nodes/stats?filter_path=nodes.*.jvm.mem.pools.old

结果

{
    "nodes": {
        "J2-fr3wzSqqJk9cwoi2urw": {
            "jvm": {
                "mem": {
                    "pools": {
                        "old": {
                            "used_in_bytes": 179796016,
                            "max_in_bytes": 1798569984,
                            "peak_used_in_bytes": 179796016,
                            "peak_max_in_bytes": 1798569984
                        }
                    }
                }
            }
        }
    }
}

堆内存使用率为：used_in_bytes / max_in_bytes = 179796016/ 1798569984 = 9.99 6%，接近 10%。

能和 kibana 可视化监控结果保持一致：

垃圾回收日志检查

随着内存使用量的增加，垃圾收集变得更加频繁并且需要更长的时间。

你可以在 elasticsearch.log 中跟踪垃圾收集事件的频率和时长。

例如，以下事件表明 Elasticsearch 在过去 40 秒中花费了超过 50%（21 秒）执行垃圾收集。

[timestamp_short_interval_from_last][INFO ][o.e.m.j.JvmGcMonitorService] [node_id] [gc][number] overhead, spent [21s] collecting in the last [40s]

降低JVM 堆内存使用率方案

1. 减少分片数

关于分片的几点认知：

第一：搜索请求是以分片为单位发起的。

至少 7.16 版本之前是，如下图示更能说明问题：

这暗示了什么？

必然是：分片越多，检索越慢。

因为：跨大量分片的搜索可能会耗尽节点的搜索线程池，这可能导致吞吐量低和搜索速度慢。

第二：每个索引和分片都有内存和 CPU 开销。

每个索引和每个分片都需要一些内存和 CPU 资源。

在大多数情况下，一小组大分片比许多小分片使用更少的资源。

为什么呢？解释一下：

分片的底层是 Lucene 分段。
段的元数据会保留在 JVM 堆内存中，以便快速检索。
分片越多，意味着分段会越多，进而分段元数据会越多，JVM 堆内存使用率会越高。反之，则相反。

第三：Elasticsearch 会在相同角色的节点间平衡分片。

节点角色划分是 7.x 高版本新的节点定义方式，其目的是：节点用途更明确。

当添加新节点或某节点出故障时，Elasticsearch 会自动在相同角色层的剩余节点之间重新平衡索引的分片。

关于减少分片数，更确切的是如何合理规划分片，官方建议如下：

尽量避免 delete_by_query 删除文档，更好的方案是直接删除索引。
使用 datastrem 和 ILM 索引生命周期管理管理时序数据。
分片大小控制在 10GB-50GB。
控制在每 GB 堆内存 20 个分片以内。
1. 也就是说：具有 30GB 堆内存的节点最多应该有 600 个分片。
第五：避免单个节点分片过多、负载过重。
1. 如果单个节点包含太多分片，且索引量很大，则该节点可能会出现问题。可以使用如下命令行加以控制：
```
PUT my_index_001/_settings
{
    "index":   {
        "routing.allocation.total_shards_per_node":  5
    }
}
```

2.避免复杂检索

复杂搜索会占用大量的内存空间。建议启用：慢日志进行排查。

导致内存使用率飙升的复杂查询，通常具备如下的特点：

size 召回值设置的巨大；
包含分桶值很大的聚合操作或者聚合嵌套很深；
包含极其耗费资源的查询，举例：script 查询、fuzzy 查询、regexp 查询、prefix 查询、wildcard查询、text 或 keyword 上的 range 查询。

为避免复杂查询，常规措施如下：

限制：index.max_result_window 的大小。

PUT _settings
{
  "index.max_result_window": 5000
}

设置 search.max_buckets cluster 以限制分桶值大小。

PUT _cluster/settings
{
  "persistent": {
    "search.max_buckets": 20000,
  }
}

设置 search.allow_expensive_queries 直接禁用耗费资源的查询。

PUT _cluster/settings
{
  "persistent": {
    "search.allow_expensive_queries": false
  }
}

3.避免 Mapping “爆炸”

定义过多的字段或嵌套过深的字段会导致使用大量内存，出现“Mapping 爆炸" 现象。

为防止“Mapping 爆炸“，使用映射限制设置来限制字段映射的数量。

PUT my_index_001/_settings
{
    "index.mapping.total_fields.limit": 100
}

4.分散批量请求

批量请求虽然比单个请求更有效，但大批量写入（以 bulk 操作为代表）或多搜索请求（以 _msearch 为代表）仍然会产生较高的 JVM 内存压力。

如果可能，提交较小（小是个相对值，需要根据集群性能测算出适合自己集群的经验值）的请求并在它们之间留出更多时间时隔。

5.升级节点内存

繁重的写入操作和搜索负载过重均会导致高 JVM 内存压力。

为了更好地处理繁重的工作负载，在其他方法都不灵的情况下，可以考虑通过为节点内存扩容以达到升级节点目的。

这是无法之法，这是万能之法。

本文链接：https://blog.csdn.net/feiying0canglang/article/details/128752672

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

WCE Windows hash抓取工具教程_wce.exe -s aaa:win-9r7tfgsiqkf:0000000000000000000-程序员宅基地

文章浏览阅读6.9k次。WCE 下载地址：链接：https://share.weiyun.com/5MqXW47 密码：bdpqku工具界面_wce.exe -s aaa:win-9r7tfgsiqkf:00000000000000000000000000000000:a658974b892e

各种“网络地球仪”-程序员宅基地

文章浏览阅读4.5k次。Weather Globe(Mackiev)Google Earth(Google)Virtual Earth(Microsoft)World Wind(NASA)Skyline Globe(Skylinesoft)ArcGISExplorer(ESRI)国内LTEarth(灵图)、GeoGlobe(吉奥)、EV-Globe(国遥新天地) 软件名称: 3D Weather Globe（http:/_网络地球仪

程序员的办公桌上，都出现过哪些神奇的玩意儿 ~_程序员展示刀,产品经理展示枪-程序员宅基地

文章浏览阅读1.9w次，点赞113次，收藏57次。我要买这些东西，然后震惊整个办公室_程序员展示刀,产品经理展示枪

霍尔信号、编码器信号与电机转向-程序员宅基地

文章浏览阅读1.6w次，点赞7次，收藏63次。霍尔信号、编码器信号与电机转向从电机出轴方向看去，电机轴逆时针转动，霍尔信号的序列为编码器信号的序列为将霍尔信号按照H3 H2 H1的顺序组成三位二进制数，则霍尔信号翻译成状态为以120°放置霍尔为例如不给电机加电，使用示波器测量三个霍尔信号和电机三相反电动势，按照上面所说的方向用手转动电机得到下图① H1的上升沿对应电机q轴与H1位置电角度夹角为0°，..._霍尔信号

个人微信淘宝客返利机器人搭建教程_怎么自己制作返利机器人-程序员宅基地

文章浏览阅读7.1k次，点赞5次，收藏36次。个人微信淘宝客返利机器人搭建一篇教程全搞定天猫淘宝有优惠券和返利，仅天猫淘宝每年返利几十亿，你知道么？技巧分享：在天猫淘宝京东拼多多上挑选好产品后，按住标题文字后“复制链接”，把复制的淘口令或链接发给机器人，复制机器人返回优惠券口令或链接，再打开天猫或淘宝就能领取优惠券啦下面教你如何搭建一个类似阿可查券返利机器人搭建查券返利机器人前提条件1、注册微信公众号(订阅号、服务号皆可)2、开通阿里妈妈、京东联盟、拼多多联盟一、注册微信公众号https://mp.weixin.qq.com/cgi-b_怎么自己制作返利机器人

【团队技术知识分享一】技术分享规范指南-程序员宅基地

文章浏览阅读2.1k次，点赞2次，收藏5次。技术分享时应秉持的基本原则：应有团队和个人、奉献者（统筹人）的概念，同时匹配团队激励、个人激励和最佳奉献者激励；团队应该打开工作内容边界，成员应该来自各内容方向；评分标准不应该过于模糊，否则没有意义，应由客观的基础分值以及分团队的主观综合结论得出。应有心愿单激励机制，促进大家共同聚焦到感兴趣的事情上；选题应有规范和框架，具体到某个小类，这样收获才有目标性，发布分享主题时大家才能快速判断是否是自己感兴趣的；流程和分享的模版应该有固定范式，避免随意的格式导致随意的内容，评分也应该部分参考于此；参会原则，应有_技术分享

随便推点

O2OA开源企业办公开发平台：使用Vue-CLI开发O2应用_vue2 oa-程序员宅基地

文章浏览阅读1k次。在模板中，我们使用了标签，将由o2-view组件负责渲染，给o2-view传入了两个参数：app="内容管理数据"和name="所有信息"，我们将在o2-view组件中使用这两个参数，用于展现“内容管理数据”这个数据应用下的“所有信息”视图。在o2-view组件中，我们主要做的事是，在vue组件挂载后，将o2的视图组件，再挂载到o2-view组件的根Dom对象。当然，这里我们要在我们的O2服务器上创建好数据应用和视图，对应本例中，就是“内容管理数据”应用下的“所有信息”视图。..._vue2 oa

[Lua]table使用随笔-程序员宅基地

文章浏览阅读222次。table是lua中非常重要的一种类型，有必要对其多了解一些。

JAVA反射机制原理及应用和类加载详解-程序员宅基地

文章浏览阅读549次，点赞30次，收藏9次。我们前面学习都有一个概念，被private封装的资源只能类内部访问，外部是不行的，但这个规定被反射赤裸裸的打破了。反射就像一面镜子，它可以清楚看到类的完整结构信息，可以在运行时动态获取类的信息，创建对象以及调用对象的属性和方法。

Linux-LVM与磁盘配额-程序员宅基地

文章浏览阅读1.1k次，点赞35次，收藏12次。Logical Volume Manager，逻辑卷管理能够在保持现有数据不变的情况下动态调整磁盘容量，从而提高磁盘管理的灵活性/boot分区用于存放引导文件，不能基于LVM创建PV（物理卷）：基于硬盘或分区设备创建而来，生成N多个PE，PE默认大小4M物理卷是LVM机制的基本存储设备，通常对应为一个普通分区或整个硬盘。创建物理卷时，会在分区或硬盘的头部创建一个保留区块，用于记录 LVM 的属性，并把存储空间分割成默认大小为 4MB 的基本单元（PE），从而构成物理卷。

车充产品UL2089安规测试项目介绍-程序员宅基地

文章浏览阅读379次，点赞7次，收藏10次。4、Dielecteic voltage-withstand test 介电耐压试验。1、Maximum output voltage test 输出电压试验。6、Resistance to crushing test 抗压碎试验。8、Push-back relief test 阻力缓解试验。7、Strain relief test 应变消除试验。2、Power input test 功率输入试验。3、Temperature test 高低温试验。5、Abnormal test 故障试验。

IMX6ULL系统移植篇-系统烧写原理说明_正点原子 imx6ull nand 烧录-程序员宅基地

文章浏览阅读535次。镜像烧写说明_正点原子 imx6ull nand 烧录