OPPO运维—网络公司级监督系统进行(1)

监控系统的使用对象也从最初少数的几个SRE,监控系统业界有很多杰出的开源监控系统

HTC运维—互连网集团级监督检查系统施行(1)

Introduction

监察和控制系统是成套运行环节,以至整个成品生命周期中最关键的豆蔻年华环,事前立时预先警示发掘故障,事后提供翔实的多少用于追查定位难题。监察和控制系统作为二个老谋深算的运行产物,业界有为数不菲开源的兑现可供选取。当集团刚好运维,业务规模非常的小,运营团队也适逢其会确立的早期,选择风流浪漫款开源的督察种类,是叁个省时省力,效率最高的方案。之后,随着业务范围的持续火速拉长,监察和控制的靶子也更多,越来越复杂,监察和控制种类的接纳对象也从开始时代少数的多少个SRE,扩充为更加多的DEVS,SRE。当时,监察和控制类其他体积和顾客的“使用频率”成了最佳卓绝的标题。

监督检查种类产业界有众多卓绝的开源监察和控制种类。大家在中期,一向在用zabbix,不过随着业务的高效升高,以致互连网集团故意的有个别要求,现存的开源的监察体系在质量、扩张性、和客商的施用频率方面,已经江郎才尽支撑了。

就此,我们在过去的一年里,从互连网厂家的有的供给出发,从各位SRE、SA、DEVS的施用经验和报告出发,结合产业界的少年老成部分大的互连网集团做监察和控制,用监督的部分思忖出发,设计开采了黑莓的督查系统:open-falcon。

open-falcon的靶子是做最开放、最佳用的互连网厂商级监督检查付加物。

Highlights and features

强硬灵活的数量搜集:自动开掘,扶植falcon-agent、snmp、帮助客商积极push、顾客自定义插件帮忙、opentsdb
data model like(timestamp、endpoint、metric、key-value tags)

水平扩大本领:帮助每一个周期上亿次的多寡收集、告急判别、历史数据存款和储蓄和询问

高效能的报告急察方计谋管理:高效的portal、帮忙政策模板、模板世襲和遮住、种种报告急察方情势、扶持callback调用

人性化的报告急察方设置:最大告警次数、告急品级、告急苏醒公告、告急暂停、差别时段差异阈值、协理保证周期

高成效的graph组件:单机支撑200万metric的反馈、归档、存款和储蓄(周期为1分钟)

敏捷的野史数据query组件:选用rrdtool的数量归档战术,秒级重回上百个metric一年的历史数据

dashboard:多维度的数量显示,顾客自定义Screen

高可用:整个种类无主旨单点,易运营,易陈设,可水平扩大

支出语言:
整个系统的后端,全体golang编写,portal和dashboard使用python编写。

Architecture

图片 1

open-falcon architecture

备考:虚线所在的aggregator组件还在两全开荒阶段。

每台服务器,都有安装falcon-agent,falcon-agent是二个golang开采的daemon程序,用于自开掘的征集单机的种种数据和指标,那些目标富含不限于以下多少个方面,共计400多项目标。

● CPU相关

● 磁盘相关

● IO

● Load

● 内部存款和储蓄器相关

● 网络有关

● 端口存活、进度存活

● ntp offset(插件)

● 某些进度能源消耗(插件)

● netstat、ss 等连锁计算项收罗

● 机器内核配置参数

风流倜傥经安装了falcon-agent的机械,就能够活动初始采摘各式指标,主动举报,无需客户在server做别的配置(那和zabbix有超大的分化),那样做的好处,就是客户维护方便,覆盖率高。当然如此做也会server端产生不小的下压力,但是open-falcon的服务端组件单机质量丰硕高,同期都足以水平扩张,所以自动多搜罗丰盛多的数目,反而是大器晚成件好职业,对于SRE和DEV来讲,事后追查难点,不再是难题。

其他,falcon-agent提供了三个proxy-gateway,客户能够实惠的通过http接口,push数据到本机的gateway,gateway会扶助高作用的转账到server端。

falcon-agent,能够在大家的github上找到 :

Data model

Data
Model是或不是强盛,是还是不是灵活,对于监察和控制系统客户的“使用作用”至关心敬服要。比方以zabbix为例,上报的数码为hostname(也许ip)、metric,那么顾客增进告急攻略、管理告急攻略的时候,就必须要以那多少个维度实行。举三个最分布的情景:

hostA的磁盘空间,小于5%,就报告急察方。平常的服务器上,都会有四个入眼的分区,根分区和home分区,在zabbix里面,就得加两条法则;假设是hadoop的机械,日常还有十几块的数据盘,还得再加10多条法则,那样就能够优伤,不幸福,不实惠自动化(当然zabbix可以透过布置部分机关开掘计策来解决那些,可是相比较费心)。

open-falcon,接受和opentsdb雷同的数量格式:metric、endpoint增加组key
value tags,举三个例证:

{     metric: load.1min,     endpoint: open-falcon-host,     tags: srv=falcon,idc=aws-sgp,group=az1,     value: 1.5,     timestamp: `date +%s`,     counterType: GAUGE,     step: 60 } {     metric: net.port.listen,     endpoint: open-falcon-host,     tags: port=3306,     value: 1,     timestamp: `date +%s`,     counterType: GAUGE,     step: 60 } 

通过那样的数据结构,大家就足以从三个维度来配置告急,配置dashboard等等。

备注:endpoint是叁个特别的tag。


图片 2


) Introduction
监察和控制体系是整整运转环节,以致整个成品生命周期中最珍视的生龙活虎环,事前及时预先警报开采…