Prometheus监控(●‘◡‘●)_prometheus监控打印机-程序员宅基地

技术标签: 运维  php  mysql  

1.监控系统

监控系统三代,第一代监控以监控网络设备、网络流量为主的时代,代表协议有(SNMP、监控交换机、路由、网关、操作系统等)这些的系统/设备都需要内置对SNMP协议的支持,SNMP是网络管理协议,在监控手段、技术的不断迭代的过程中,虽然可以使用、兼容SNMP协议,但是很多的技术都“抛弃”了内置。第二代监控以现今常用的大家所熟悉的zabbix、prometheus、cacti、nagios、open_falcaon(小米开源的企业级的监控工具)通常具备:数据采集、存储、告警+展示/可视化等基本功能。第三代监控一般为基于data驱动、ai驱动datavops aivops。

2.常用监控介绍

2.1cacti

Cacti(仙人掌)是一套基于PHP/MySQL、SNMP和RRDtool开发的网络流量检测图形分析工具,它通过snmpget来获取数据,使用RRDtool绘图,蛋使用者无需了解RRDtool复杂的参数,它提供了非常强大的数据和用户管理功能,可以指定每一个用户能查看树状结构、主机设备以及任何一张图,同事也可以自定义模板,在历史数据的展示监控方面,功能是相当不错的

2.2Nagios

Nagios是开源的网络监视工具,能有效的监控windows、Linux和Unix的主机状态,交换机、打印机、路由器等网络设备,在系统或服务状态异常时发出邮件或者短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或者短信通知。nagios主要的特征是监控告警,最强大的也是告警功能,支持多种告警方式,但是缺点时没有强大的数据收集机制,并且数据图也很简陋,

2.3zabbix

zabbix是一个基于WEB界面的提供分布式监控以及网络监视功能的企业级的开源解决方案,zabbix能监视各种网络参数,保证服务器系统的安全运营,并提供强大的通知机制。
zabbix由两部分组成:zabbix server以及可选组件zabbix agent,zabbix server可以通过SNMP,zabbix agent,ping,端口监视等方法提供远程服务器、网络章台多的监视,数据的收集等功能。zabbix解决了cacti没有告警的不足,也解决了nagios不能通过web配置的缺点,同时还支持分布式部署,这使得它迅速流行起来,zabbix也成为目前中小企业监控最流行的运维监控平台。当然,zabbix也有不足之处,它消耗的资源比较多,如果监控的主机非常多时(服务器数量超过500台),可能会出现监控超时、告警超时、告警系统单点故障等现象,不过也有很多解决办法,比如提高硬件性能、改变zabbix监控模式等。

2.3.1zabbix核心组件介绍
  • Zabbix Server:Zabbix软件实现监控的核心程序,主要功能是与Zabbixproxies和Agents进行交互、触发器计算、发送告警通知;并将数据集中保存。与prometheus的类似可以保存收集到的数据,但是prometheus告警需要使用altermanager组件
  • Database storage:存储配置信息以及收集到的数据
  • web Interface: Zabbix的GUI接口,通常与server运行在同一台机器上
  • Proxy:可选组件,常用于分布式监控环境中,一个帮助zabbix Server收集数据,分担zabbix Server的负载的程序
  • Agent:部署在被监控主机上,负责收集数据发送给server

3.Prometheus

谷歌的内部大型集群系统borg,是kubernetes的前身。其监控系统是borgmon,而prometheus是其克隆版,所以非常契合k8s的监控对容器非常适用。
Prometheus本身为一种时序数据库(TSDB),还具备开源的监控、报警、时间序列、数据库的组合。其设计用于进行目标(target)监控的关键组件

  • TSDB:pro通过采集的样本以时间序列的方式保存在内存(TSDB时序数据库)中并定时保存到硬盘中(持久化)
  • target:主要指可输出、产生指标数据的组件/对象,包括但不限于主机、应用、服务、K8S ingress(逻辑组件)等
  • 时序数据:一段时间内通过《重复》测量而获得的观测值的集合,并且可将这些观测值绘制与图形之上,以数据轴(纵轴)和时间轴(横轴)来表示随着时间流逝而产生的“渐变”变化。
    时序数据库不属于sql数据库也并不是nosql数据库
    prometheus官网

3.1prometheus特性

  • 多为的数据模型(基于时间序列的key、value键值对)
  • 灵活的查询和聚合语言PromQL
  • 提供本地存储和分布式存储
  • 通过基于HTTP和HTTPS的Pull模型采集时间序列数据(pull数据的推送,时间序列:每段时间点的数据值指标,持续性的生产。横轴标识时间,纵轴为数据值,一段时间内数值的动态变化,所有的点连线形成折线图)
  • 可用Pushgateway(prometheus的可选中间件)实现Push模式
  • 可通过动态服务发现或者静态配置发现目标机器
  • 支持多种图表和数据大盘

3.2prometheus组件

  • Prometheus Server:用于抓取指标、存储时间序列数据
  • exporter:用于暴露现有应用程序或服务
  • pushgateway:push 的方式将指标数据推送到该网关
  • alertmanager:处理报警的报警组件 adhoc:用于数据查询
  • Alertmanager:由告警规则对接,从Prometheus Server接收到"告警通知"后,通过去重、分组、路由等预处理功能后以高效向用户完成告警信息发送
  • Data Visualization(Dashboards): 与TSDB对接并且展示数据库中的数据,Prometheus web UI (Prometheus Server内建),及Grafana等;
  • Service Discovery:动态发现待监控的Target,从而完成监控配置的重要组件,在容器化环境中尤为有用;该组件目前由PropetheusServer内建支持

3.3白盒监控和黑盒监控

  • 白盒监控:通过监控内部的运行状态及指标判断可能会发生的问题,从而做出预判或对其进行优化。
  • 黑盒监控:监控系统或服务,在发生异常时做出相应措施。
  • 监控的目的如下:
    根据历史监控数据,对为了做出预测
    发生异常时,即使报警,或做出相应措施
    根据监控报警及时定位问题根源
    通过可视化图表展示,便于直观获取信息

4.这里展示如何获取邮箱的授权码

打开qq邮箱,点击设置-账户-POP3/IMAP/SMTP/Exchange/CardDAV/CalDAV服务(开启,并点击生成授权码,用手机发送配置邮件客户端,既可以获得授权码)
在这里插入图片描述

5.部署Prometheus监控并设置告警

监控端
192.168.20.22         /alertmanager  prometheus     
被监控端
192.168.20.11       node exporter
  • 192.168.20.11部署node_exporter(端口号9100)
[root@node opt]# ls
node_exporter-1.1.2.linux-amd64.tar.gz  rh
[root@node opt]# tar zxvf node_exporter-1.1.2.linux-amd64
[root@node opt]# cd node_exporter-1.1.2.linux-amd64/
[root@node node_exporter-1.1.2.linux-amd64]# ls
LICENSE  node_exporter  NOTICE
[root@node node_exporter-1.1.2.linux-amd64]# ./node_exporter     //执行启动脚本
  • 192.168.20.22部署Prometheus(端口号9090)
[root@prometheus opt]# ls
alertmanager-0.22.2.linux-amd64.tar.gz  prometheus-2.27.1.linux-amd64.tar.gz
grafana-7.3.6-1.x86_64.rpm              rh

[root@prometheus opt]# tar zxvf prometheus-2.27.1.linux-amd64.tar.gz -C /usr/local/
[root@prometheus opt]# cd /usr/local/
[root@prometheus local]# ls
bin  games    lib    libexec     sbin     src
etc  include  lib64  prometheus-2.27.1.linux-amd64  share
[root@prometheus prometheus-2.27.1.linux-amd64]# ls
console_libraries  consoles  data  LICENSE  NOTICE  prometheus  prometheus.yml  promtool


-这里设置监控node节点的话只需要修改prometheus服务器上的配置为文件,指定targets的端口上面配置过
[root@prometheus prometheus-2.27.1.linux-amd64]# vim prometheus.yml 
在最后加入
- job_name: 'nodes'
  static_config:
  - targets:
    - 192.168.20.11:9100
[root@prometheus prometheus-2.27.1.linux-amd64]# ./prometheus       //执行启动脚本

这里已经可以在prometheus的ui界面查看
在这里插入图片描述

  • 如果这里需要用grafana(端口号3000)更友好的显示,只需要安装即可,就不演示了,grafana有很多的监控模板,比如K8S、node、mysql等

  • 部署alertmanager(端口号为9093)

[root@prometheus opt]# tar zxvf alertmanager-0.22.2.linux-amd64.tar.gz -C /usr/local/
[root@prometheus opt]# ln -s /usr/local/alertmanager-0.22.2.linux-amd64/ /usr/local/alertmanager

#查看配置文件
cat /usr/local/alertmanager/alertmanager.yml
route:			#路由信息
  group_by: ['alertname']		#分组
  group_wait: 30s		 #分组缓冲/等待时间
  group_interval: 5m	 #重新分组时间
  repeat_interval: 1h	 #重新告警间隔(10m)
  receiver: 'web.hook'	 #接收方/媒介
receivers:				 #接收方信息
- name: 'web.hook'
  webhook_configs:
  - url: 'http://127.0.0.1:5001/'	#标注5001端口
inhibit_rules:		#抑制规则的策略
  - source_match:	#匹配项
      severity: 'critical'	#严重的级别
    target_match:
      severity: 'warning'	#target匹配warning级别
    equal: ['alertname', 'dev', 'instance']		#符合alertname、dev、instance的分组、分类对象
    
[root@prometheus opt]# cd /usr/local/alertmanager  
[root@prometheus alertmanager]#mv /usr/local/alertmanager/alertmanager.yml /usr/local/alertmanager/alertmanager.yml.bak
[root@prometheus alertmanager]#cd /usr/local/alertmanager && vim /alertmanager.yml

global:         #全局参数
  resolve_timeout: 5m                   #告警解除时间
  smtp_from: 1137880933@qq.com
  smtp_auth_username: 1137880933@qq.com
  smtp_auth_password: qqqatniabvdlhjjj             //授权码
  smtp_require_tls: false
  smtp_smarthost: 'smtp.qq.com:465'

route:
  group_by: ['alertname']
  group_wait: 10s
  group_interval: 10s
  repeat_interval: 1h
  receiver: 'email-test'
receivers:
- name: 'email-test'
  email_configs:
  - to: 1137880933@qq.com
    send_resolved: true
[root@prometheus alertmanager]#./alertmanager     //启动脚本
  • 告警规则
[root@prometheus alert_rules]# cat instance_down.yaml 
groups:
- name: AllInstances
  rules:
  - alert: InstanceDown
    # Condition for alerting
    expr: up == 0
    for: 20s
    # Annotation - additional informational labels to store more information
    annotations:
      title: 'Instance down'
      description: Instance has been down for more than 20 seconds.'
    # Labels - additional labels to be attached to the alert
    labels:
      severity: 'critical'

  • 在prometheus的归档文件中,设置告警规则
[root@prometheus prometheus-2.27.1.linux-amd64]# pwd
/usr/local/prometheus-2.27.1.linux-amd64
[root@prometheus prometheus-2.27.1.linux-amd64]# tree -L 3        
.
├── alert-config
   ├── alert_rules
      └── instance_down.yaml
   ├── prometheus.yml
   └── targets
       ├── alertmanagers.yaml
       ├── nodes-linux.yaml
       └── prometheus-servers.yaml

[root@prometheus alert-config]# cat prometheus.yml 
# my global config
# Author: MageEdu <mage@magedu.com>
# Repo: http://gitlab.magedu.com/MageEdu/prometheus-configs/
global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).

# Alertmanager configuration
alerting:
  alertmanagers:
  - file_sd_configs:
    - files:
      - "targets/alertmanagers*.yaml"

# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
  - "rules/*.yaml"
  - "alert_rules/*.yaml" 

# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
  - job_name: 'prometheus'
    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.
    static_configs:
    file_sd_configs:
    - files:                                               
      - targets/prometheus-*.yaml  
      refresh_interval: 2m 

  # All nodes
  - job_name: 'nodes'
    file_sd_configs:
    - files:                                               
      - targets/nodes-*.yaml  
      refresh_interval: 2m 

  - job_name: 'alertmanagers'
    file_sd_configs:
    - files:
      - targets/alertmanagers*.yaml
      refresh_interval: 2m 

[root@prometheus targets]# ls
alertmanagers.yaml  nodes-linux.yaml  prometheus-servers.yaml
[root@prometheus targets]# cat alertmanagers.yaml 
- targets:
  - 192.168.20.22:9093
  labels:
    app: alertmanager
[root@prometheus targets]# cat nodes-linux.yaml 
- targets:
  - 192.168.20.11:9100
  labels:
    app: node-exporter
    job: node
[root@prometheus targets]# cat prometheus-servers.yaml 
- targets:
  - 192.168.20.22:9090
  labels:
    app: prometheus
    job: prometheus

  • 指定文件启动
[root@prometheus prometheus-2.27.1.linux-amd64]# ./prometheus --config.file=./alert-config/prometheus.yml

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_56422027/article/details/120302966

智能推荐

【新手科研指南5】深度学习代码怎么读-小白阶段性思路(以手写数字识别应用为例)_深度学习程序怎么读-程序员宅基地

文章浏览阅读6.2k次,点赞6次,收藏26次。我是一个深度学习代码小白,请你用中文写上注释,能让我能轻松理解下面这段代码。注意包含所有函数、调用和参数的注释。以同样的python代码块样式返回你写的代码给我。代码看累了,就看《动手学深度学习》文档:基于PyTorch框架,从底层函数实现基础功能,再到框架的高级功能。努力上路的小白一枚,麻烦路过的大佬指导一二,同时希望能和大家交流学习~争取更新学习这个文档的专栏,记录学习过程。量身定做了一套话术hhh,亲身测试还不错。这个感觉更浅一点儿,之后复习看吧。20天吃掉那只Pytorch。_深度学习程序怎么读

Java学习路线图,看这一篇就够了!-程序员宅基地

文章浏览阅读2.7w次,点赞126次,收藏1.2k次。耗废1024根秀发,Java学习路线图来了,整合了自己所学的所有技术整理出来的2022最新版Java学习路线图,适合于初、中级别的Java程序员。_java学习路线

PCL_Tutorial2-1.7-点云保存PNG_pcl::io:savepng-程序员宅基地

文章浏览阅读4.4k次。1.7-savingPNG介绍代码详情函数详解savePNGFile()源码savePNGFile()源码提示savePNGFile()推荐用法处理结果代码链接介绍PCL提供了将点云的值保存到PNG图像文件的可能性。这只能用有有序的云来完成,因为结果图像的行和列将与云中的行和列完全对应。例如,如果您从类似Kinect或Xtion的传感器中获取了点云,则可以使用它来检索与该云匹配的640x480 RGB图像。代码详情#include <pcl / io / pcd_io.h>#incl_pcl::io:savepng

知乎问答:程序员在咖啡店编程,喝什么咖啡容易吸引妹纸?-程序员宅基地

文章浏览阅读936次。吸引妹子的关键点不在于喝什么咖啡,主要在于竖立哪种男性人设。能把人设在几分钟内快速固定下来,也就不愁吸引对口的妹子了。我有几个备选方案,仅供参考。1. 运动型男生左手单手俯卧撑,右手在键盘上敲代码。你雄壮的腰腹肌肉群活灵活现,简直就是移动的春药。2.幽默男生花 20 块找一个托(最好是老同学 or 同事)坐你对面。每当你侃侃而谈,他便满面涨红、放声大笑、不能自已。他笑的越弱_咖啡厅写代码

【笔试面试】腾讯WXG 面委会面复盘总结 --一次深刻的教训_腾讯面委会面试是什么-程序员宅基地

文章浏览阅读1.2w次,点赞5次,收藏5次。今天 (应该是昨天了,昨晚太晚了没发出去)下午参加了腾讯WXG的面委会面试。前面在牛客上搜索了面委会相关的面经普遍反映面委会较难,因为都是微信的核心大佬,问的问题也会比较深。昨晚还蛮紧张的,晚上都没睡好。面试使用的是腾讯会议,时间到了面试官准时进入会议。照例是简单的自我介绍,然后是几个常见的基础问题:例如数据库索引,什么时候索引会失效、设计模式等。这部分比较普通,问的也不是很多,不再赘述。现在回想下,大部分还是简历上写的技能点。接下来面试官让打开项目的代码,对着代码讲解思路。我笔记本上没有这部分代码,所_腾讯面委会面试是什么

AI绘画自动生成器:艺术创作的新浪潮-程序员宅基地

文章浏览阅读382次,点赞3次,收藏4次。AI绘画自动生成器是一种利用人工智能技术,特别是深度学习算法,来自动创建视觉艺术作品的软件工具。这些工具通常基于神经网络模型,如生成对抗网络(GANs),通过学习大量的图像数据来生成新的图像。AI绘画自动生成器作为艺术与科技结合的产物,正在开启艺术创作的新篇章。它们不仅为艺术家和设计师提供了新的工具,也为普通用户提供了探索艺术的机会。随着技术的不断进步,我们可以预见,AI绘画自动生成器将在未来的创意产业中发挥越来越重要的作用。

随便推点

Flutter ListView ListView.build ListView.separated_flutter listview.separated和listview.builder-程序员宅基地

文章浏览阅读1.7k次。理解为ListView 的三种形式吧ListView 默认构造但是这种方式创建的列表存在一个问题:对于那些长列表或者需要较昂贵渲染开销的子组件,即使还没有出现在屏幕中但仍然会被ListView所创建,这将是一项较大的开销,使用不当可能引起性能问题甚至卡顿直接返回的是每一行的Widget,相当于ios的row。行高按Widget(cell)高设置ListView.build 就和io..._flutter listview.separated和listview.builder

2021 最新前端面试题及答案-程序员宅基地

文章浏览阅读1.4k次,点赞4次,收藏14次。废话不多说直接上干货1.js运行机制JavaScript单线程,任务需要排队执行同步任务进入主线程排队,异步任务进入事件队列排队等待被推入主线程执行定时器的延迟时间为0并不是立刻执行,只是代表相比于其他定时器更早的被执行以宏任务和微任务进一步理解js执行机制整段代码作为宏任务开始执行,执行过程中宏任务和微任务进入相应的队列中整段代码执行结束,看微任务队列中是否有任务等待执行,如果有则执行所有的微任务,直到微任务队列中的任务执行完毕,如果没有则继续执行新的宏任务执行新的宏任务,凡是在..._前端面试

linux基本概述-程序员宅基地

文章浏览阅读1k次。(3)若没有查到,则将请求发给根域DNS服务器,并依序从根域查找顶级域,由顶级查找二级域,二级域查找三级,直至找到要解析的地址或名字,即向客户机所在网络的DNS服务器发出应答信息,DNS服务器收到应答后现在缓存中存储,然后,将解析结果发给客户机。(3)若没有查到,则将请求发给根域DNS服务器,并依序从根域查找顶级域,由顶级查找二级域,二级域查找三级,直至找到要解析的地址或名字,即向客户机所在网络的DNS服务器发出应答信息,DNS服务器收到应答后现在缓存中存储,然后,将解析结果发给客户机。_linux

JavaScript学习手册十三:HTML DOM——文档元素的操作(一)_javascript学习手册十三:html dom——文档元素的操作(一)-程序员宅基地

文章浏览阅读7.9k次,点赞26次,收藏66次。HTML DOM——文档元素的操作1、通过id获取文档元素任务描述相关知识什么是DOM文档元素节点树通过id获取文档元素代码文件2、通过类名获取文档元素任务描述相关知识通过类名获取文档元素代码文件3、通过标签名获取文档元素任务描述相关知识通过标签名获取文档元素获取标签内部的子元素代码文件4、html5中获取元素的方法一任务描述相关知识css选择器querySelector的用法代码文件5、html5中获取元素的方法二任务描述相关知识querySelectorAll的用法代码文件6、节点树上的操作任务描述相关_javascript学习手册十三:html dom——文档元素的操作(一)

《LeetCode刷题》172. 阶乘后的零(java篇)_java 给定一个整数n,返回n!结果尾数中零的数量-程序员宅基地

文章浏览阅读132次。《LeetCode学习》172. 阶乘后的零(java篇)_java 给定一个整数n,返回n!结果尾数中零的数量

php 公众号消息提醒,如何开启公众号消息提醒功能-程序员宅基地

文章浏览阅读426次。请注意,本文将要给大家分享的并不是开启公众号的安全操作风险提醒,而是当公众号粉丝给公众号发消息的时候,公众号的管理员和运营者如何能在手机上立即收到消息通知,以及在手机上回复粉丝消息。第一步:授权1、在微信中点击右上角+,然后选择“添加朋友”,然后选择“公众号”,然后输入“微小助”并关注该公众号。2、进入微小助公众号,然后点击底部菜单【新增授权】,如下图所示:3、然后会打开一个温馨提示页面。请一定要..._php微信公众号服务提示

推荐文章

热门文章

相关标签