监控系统三代,第一代监控以监控网络设备、网络流量为主的时代,代表协议有(SNMP、监控交换机、路由、网关、操作系统等)这些的系统/设备都需要内置对SNMP协议的支持,SNMP是网络管理协议,在监控手段、技术的不断迭代的过程中,虽然可以使用、兼容SNMP协议,但是很多的技术都“抛弃”了内置。第二代监控以现今常用的大家所熟悉的zabbix、prometheus、cacti、nagios、open_falcaon(小米开源的企业级的监控工具)通常具备:数据采集、存储、告警+展示/可视化等基本功能。第三代监控一般为基于data驱动、ai驱动datavops aivops。
Cacti(仙人掌)是一套基于PHP/MySQL、SNMP和RRDtool开发的网络流量检测图形分析工具,它通过snmpget来获取数据,使用RRDtool绘图,蛋使用者无需了解RRDtool复杂的参数,它提供了非常强大的数据和用户管理功能,可以指定每一个用户能查看树状结构、主机设备以及任何一张图,同事也可以自定义模板,在历史数据的展示监控方面,功能是相当不错的
Nagios是开源的网络监视工具,能有效的监控windows、Linux和Unix的主机状态,交换机、打印机、路由器等网络设备,在系统或服务状态异常时发出邮件或者短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或者短信通知。nagios主要的特征是监控告警,最强大的也是告警功能,支持多种告警方式,但是缺点时没有强大的数据收集机制,并且数据图也很简陋,
zabbix是一个基于WEB界面的提供分布式监控以及网络监视功能的企业级的开源解决方案,zabbix能监视各种网络参数,保证服务器系统的安全运营,并提供强大的通知机制。
zabbix由两部分组成:zabbix server以及可选组件zabbix agent,zabbix server可以通过SNMP,zabbix agent,ping,端口监视等方法提供远程服务器、网络章台多的监视,数据的收集等功能。zabbix解决了cacti没有告警的不足,也解决了nagios不能通过web配置的缺点,同时还支持分布式部署,这使得它迅速流行起来,zabbix也成为目前中小企业监控最流行的运维监控平台。当然,zabbix也有不足之处,它消耗的资源比较多,如果监控的主机非常多时(服务器数量超过500台),可能会出现监控超时、告警超时、告警系统单点故障等现象,不过也有很多解决办法,比如提高硬件性能、改变zabbix监控模式等。
谷歌的内部大型集群系统borg,是kubernetes的前身。其监控系统是borgmon,而prometheus是其克隆版,所以非常契合k8s的监控对容器非常适用。
Prometheus本身为一种时序数据库(TSDB),还具备开源的监控、报警、时间序列、数据库的组合。其设计用于进行目标(target)监控的关键组件
打开qq邮箱,点击设置-账户-POP3/IMAP/SMTP/Exchange/CardDAV/CalDAV服务(开启,并点击生成授权码,用手机发送配置邮件客户端,既可以获得授权码)
监控端
192.168.20.22 /alertmanager prometheus
被监控端
192.168.20.11 node exporter
[root@node opt]# ls
node_exporter-1.1.2.linux-amd64.tar.gz rh
[root@node opt]# tar zxvf node_exporter-1.1.2.linux-amd64
[root@node opt]# cd node_exporter-1.1.2.linux-amd64/
[root@node node_exporter-1.1.2.linux-amd64]# ls
LICENSE node_exporter NOTICE
[root@node node_exporter-1.1.2.linux-amd64]# ./node_exporter //执行启动脚本
[root@prometheus opt]# ls
alertmanager-0.22.2.linux-amd64.tar.gz prometheus-2.27.1.linux-amd64.tar.gz
grafana-7.3.6-1.x86_64.rpm rh
[root@prometheus opt]# tar zxvf prometheus-2.27.1.linux-amd64.tar.gz -C /usr/local/
[root@prometheus opt]# cd /usr/local/
[root@prometheus local]# ls
bin games lib libexec sbin src
etc include lib64 prometheus-2.27.1.linux-amd64 share
[root@prometheus prometheus-2.27.1.linux-amd64]# ls
console_libraries consoles data LICENSE NOTICE prometheus prometheus.yml promtool
-这里设置监控node节点的话只需要修改prometheus服务器上的配置为文件,指定targets的端口上面配置过
[root@prometheus prometheus-2.27.1.linux-amd64]# vim prometheus.yml
在最后加入
- job_name: 'nodes'
static_config:
- targets:
- 192.168.20.11:9100
[root@prometheus prometheus-2.27.1.linux-amd64]# ./prometheus //执行启动脚本
这里已经可以在prometheus的ui界面查看
如果这里需要用grafana(端口号3000)更友好的显示,只需要安装即可,就不演示了,grafana有很多的监控模板,比如K8S、node、mysql等
部署alertmanager(端口号为9093)
[root@prometheus opt]# tar zxvf alertmanager-0.22.2.linux-amd64.tar.gz -C /usr/local/
[root@prometheus opt]# ln -s /usr/local/alertmanager-0.22.2.linux-amd64/ /usr/local/alertmanager
#查看配置文件
cat /usr/local/alertmanager/alertmanager.yml
route: #路由信息
group_by: ['alertname'] #分组
group_wait: 30s #分组缓冲/等待时间
group_interval: 5m #重新分组时间
repeat_interval: 1h #重新告警间隔(10m)
receiver: 'web.hook' #接收方/媒介
receivers: #接收方信息
- name: 'web.hook'
webhook_configs:
- url: 'http://127.0.0.1:5001/' #标注5001端口
inhibit_rules: #抑制规则的策略
- source_match: #匹配项
severity: 'critical' #严重的级别
target_match:
severity: 'warning' #target匹配warning级别
equal: ['alertname', 'dev', 'instance'] #符合alertname、dev、instance的分组、分类对象
[root@prometheus opt]# cd /usr/local/alertmanager
[root@prometheus alertmanager]#mv /usr/local/alertmanager/alertmanager.yml /usr/local/alertmanager/alertmanager.yml.bak
[root@prometheus alertmanager]#cd /usr/local/alertmanager && vim /alertmanager.yml
global: #全局参数
resolve_timeout: 5m #告警解除时间
smtp_from: 1137880933@qq.com
smtp_auth_username: 1137880933@qq.com
smtp_auth_password: qqqatniabvdlhjjj //授权码
smtp_require_tls: false
smtp_smarthost: 'smtp.qq.com:465'
route:
group_by: ['alertname']
group_wait: 10s
group_interval: 10s
repeat_interval: 1h
receiver: 'email-test'
receivers:
- name: 'email-test'
email_configs:
- to: 1137880933@qq.com
send_resolved: true
[root@prometheus alertmanager]#./alertmanager //启动脚本
[root@prometheus alert_rules]# cat instance_down.yaml
groups:
- name: AllInstances
rules:
- alert: InstanceDown
# Condition for alerting
expr: up == 0
for: 20s
# Annotation - additional informational labels to store more information
annotations:
title: 'Instance down'
description: Instance has been down for more than 20 seconds.'
# Labels - additional labels to be attached to the alert
labels:
severity: 'critical'
[root@prometheus prometheus-2.27.1.linux-amd64]# pwd
/usr/local/prometheus-2.27.1.linux-amd64
[root@prometheus prometheus-2.27.1.linux-amd64]# tree -L 3
.
├── alert-config
│ ├── alert_rules
│ │ └── instance_down.yaml
│ ├── prometheus.yml
│ └── targets
│ ├── alertmanagers.yaml
│ ├── nodes-linux.yaml
│ └── prometheus-servers.yaml
[root@prometheus alert-config]# cat prometheus.yml
# my global config
# Author: MageEdu <mage@magedu.com>
# Repo: http://gitlab.magedu.com/MageEdu/prometheus-configs/
global:
scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
# scrape_timeout is set to the global default (10s).
# Alertmanager configuration
alerting:
alertmanagers:
- file_sd_configs:
- files:
- "targets/alertmanagers*.yaml"
# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
- "rules/*.yaml"
- "alert_rules/*.yaml"
# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
# The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
- job_name: 'prometheus'
# metrics_path defaults to '/metrics'
# scheme defaults to 'http'.
static_configs:
file_sd_configs:
- files:
- targets/prometheus-*.yaml
refresh_interval: 2m
# All nodes
- job_name: 'nodes'
file_sd_configs:
- files:
- targets/nodes-*.yaml
refresh_interval: 2m
- job_name: 'alertmanagers'
file_sd_configs:
- files:
- targets/alertmanagers*.yaml
refresh_interval: 2m
[root@prometheus targets]# ls
alertmanagers.yaml nodes-linux.yaml prometheus-servers.yaml
[root@prometheus targets]# cat alertmanagers.yaml
- targets:
- 192.168.20.22:9093
labels:
app: alertmanager
[root@prometheus targets]# cat nodes-linux.yaml
- targets:
- 192.168.20.11:9100
labels:
app: node-exporter
job: node
[root@prometheus targets]# cat prometheus-servers.yaml
- targets:
- 192.168.20.22:9090
labels:
app: prometheus
job: prometheus
[root@prometheus prometheus-2.27.1.linux-amd64]# ./prometheus --config.file=./alert-config/prometheus.yml
文章浏览阅读6.2k次,点赞6次,收藏26次。我是一个深度学习代码小白,请你用中文写上注释,能让我能轻松理解下面这段代码。注意包含所有函数、调用和参数的注释。以同样的python代码块样式返回你写的代码给我。代码看累了,就看《动手学深度学习》文档:基于PyTorch框架,从底层函数实现基础功能,再到框架的高级功能。努力上路的小白一枚,麻烦路过的大佬指导一二,同时希望能和大家交流学习~争取更新学习这个文档的专栏,记录学习过程。量身定做了一套话术hhh,亲身测试还不错。这个感觉更浅一点儿,之后复习看吧。20天吃掉那只Pytorch。_深度学习程序怎么读
文章浏览阅读2.7w次,点赞126次,收藏1.2k次。耗废1024根秀发,Java学习路线图来了,整合了自己所学的所有技术整理出来的2022最新版Java学习路线图,适合于初、中级别的Java程序员。_java学习路线
文章浏览阅读4.4k次。1.7-savingPNG介绍代码详情函数详解savePNGFile()源码savePNGFile()源码提示savePNGFile()推荐用法处理结果代码链接介绍PCL提供了将点云的值保存到PNG图像文件的可能性。这只能用有有序的云来完成,因为结果图像的行和列将与云中的行和列完全对应。例如,如果您从类似Kinect或Xtion的传感器中获取了点云,则可以使用它来检索与该云匹配的640x480 RGB图像。代码详情#include <pcl / io / pcd_io.h>#incl_pcl::io:savepng
文章浏览阅读936次。吸引妹子的关键点不在于喝什么咖啡,主要在于竖立哪种男性人设。能把人设在几分钟内快速固定下来,也就不愁吸引对口的妹子了。我有几个备选方案,仅供参考。1. 运动型男生左手单手俯卧撑,右手在键盘上敲代码。你雄壮的腰腹肌肉群活灵活现,简直就是移动的春药。2.幽默男生花 20 块找一个托(最好是老同学 or 同事)坐你对面。每当你侃侃而谈,他便满面涨红、放声大笑、不能自已。他笑的越弱_咖啡厅写代码
文章浏览阅读1.2w次,点赞5次,收藏5次。今天 (应该是昨天了,昨晚太晚了没发出去)下午参加了腾讯WXG的面委会面试。前面在牛客上搜索了面委会相关的面经普遍反映面委会较难,因为都是微信的核心大佬,问的问题也会比较深。昨晚还蛮紧张的,晚上都没睡好。面试使用的是腾讯会议,时间到了面试官准时进入会议。照例是简单的自我介绍,然后是几个常见的基础问题:例如数据库索引,什么时候索引会失效、设计模式等。这部分比较普通,问的也不是很多,不再赘述。现在回想下,大部分还是简历上写的技能点。接下来面试官让打开项目的代码,对着代码讲解思路。我笔记本上没有这部分代码,所_腾讯面委会面试是什么
文章浏览阅读382次,点赞3次,收藏4次。AI绘画自动生成器是一种利用人工智能技术,特别是深度学习算法,来自动创建视觉艺术作品的软件工具。这些工具通常基于神经网络模型,如生成对抗网络(GANs),通过学习大量的图像数据来生成新的图像。AI绘画自动生成器作为艺术与科技结合的产物,正在开启艺术创作的新篇章。它们不仅为艺术家和设计师提供了新的工具,也为普通用户提供了探索艺术的机会。随着技术的不断进步,我们可以预见,AI绘画自动生成器将在未来的创意产业中发挥越来越重要的作用。
文章浏览阅读1.7k次。理解为ListView 的三种形式吧ListView 默认构造但是这种方式创建的列表存在一个问题:对于那些长列表或者需要较昂贵渲染开销的子组件,即使还没有出现在屏幕中但仍然会被ListView所创建,这将是一项较大的开销,使用不当可能引起性能问题甚至卡顿直接返回的是每一行的Widget,相当于ios的row。行高按Widget(cell)高设置ListView.build 就和io..._flutter listview.separated和listview.builder
文章浏览阅读1.4k次,点赞4次,收藏14次。废话不多说直接上干货1.js运行机制JavaScript单线程,任务需要排队执行同步任务进入主线程排队,异步任务进入事件队列排队等待被推入主线程执行定时器的延迟时间为0并不是立刻执行,只是代表相比于其他定时器更早的被执行以宏任务和微任务进一步理解js执行机制整段代码作为宏任务开始执行,执行过程中宏任务和微任务进入相应的队列中整段代码执行结束,看微任务队列中是否有任务等待执行,如果有则执行所有的微任务,直到微任务队列中的任务执行完毕,如果没有则继续执行新的宏任务执行新的宏任务,凡是在..._前端面试
文章浏览阅读1k次。(3)若没有查到,则将请求发给根域DNS服务器,并依序从根域查找顶级域,由顶级查找二级域,二级域查找三级,直至找到要解析的地址或名字,即向客户机所在网络的DNS服务器发出应答信息,DNS服务器收到应答后现在缓存中存储,然后,将解析结果发给客户机。(3)若没有查到,则将请求发给根域DNS服务器,并依序从根域查找顶级域,由顶级查找二级域,二级域查找三级,直至找到要解析的地址或名字,即向客户机所在网络的DNS服务器发出应答信息,DNS服务器收到应答后现在缓存中存储,然后,将解析结果发给客户机。_linux
文章浏览阅读7.9k次,点赞26次,收藏66次。HTML DOM——文档元素的操作1、通过id获取文档元素任务描述相关知识什么是DOM文档元素节点树通过id获取文档元素代码文件2、通过类名获取文档元素任务描述相关知识通过类名获取文档元素代码文件3、通过标签名获取文档元素任务描述相关知识通过标签名获取文档元素获取标签内部的子元素代码文件4、html5中获取元素的方法一任务描述相关知识css选择器querySelector的用法代码文件5、html5中获取元素的方法二任务描述相关知识querySelectorAll的用法代码文件6、节点树上的操作任务描述相关_javascript学习手册十三:html dom——文档元素的操作(一)
文章浏览阅读132次。《LeetCode学习》172. 阶乘后的零(java篇)_java 给定一个整数n,返回n!结果尾数中零的数量
文章浏览阅读426次。请注意,本文将要给大家分享的并不是开启公众号的安全操作风险提醒,而是当公众号粉丝给公众号发消息的时候,公众号的管理员和运营者如何能在手机上立即收到消息通知,以及在手机上回复粉丝消息。第一步:授权1、在微信中点击右上角+,然后选择“添加朋友”,然后选择“公众号”,然后输入“微小助”并关注该公众号。2、进入微小助公众号,然后点击底部菜单【新增授权】,如下图所示:3、然后会打开一个温馨提示页面。请一定要..._php微信公众号服务提示