浅议云计算环境下的监控—云监控

5年前

1、 背景介绍


1.1 传统监控的不足


1、 传统监控体系中,监控对象单一,在整个IT系统中,针对不同的监控对象,可能有多套监控系统,没有统一管理起来。


2、 当出现故障时,无法快速准确定位问题。


3、 传统监控大都采用手动操作,当系统规模较小时,只要参与的运维人员足够负责,这种方式还是可以满足日常需要的。但当系统规模达到一定规模后,再采用这种方式,对运维人员来说是噩梦,IT管理和运维成本也随着系统规模增长而增长。


4、 监控数据和IT管理系统没有打通,监控数据可以作为IT管理的重要参考依据,比如系统升级、故障查询、业务扩展等,在传统监控体系中其价值是无法体现的。


1.2 云计算环境下监控(云监控)特点


1、 监控对象多,监控规模大:

随着云计算技术越来越多的应用到信息产业的各个领域,云计算环境下集群服务器系统的监控和管理需求也越来越大。在云计算环境下,其服务器数量呈指数增加,加上网络设备、存储等也比传统IT系统多很多,这样要求监控系统的监控对象和监控规模也随之增加很多。


2、 集中监控

集中监控的目标就是把云计算环境中所有服务器、虚拟机、存储、网络设备、服务等的监控对象统一到一个监控平台进行管理,实现故障与异常的实时发现与通知。


3、 自动化程度高,降低运维成本和IT管理成本

在云计算环境下,系统的复杂性和监控的规模性决定了监控的自动化是必选之项,

监控的自动化主要包括:主动监控、自动发现监控、自己生成报表、事件自动报警等,监控自动化能够减少重复操作,释放运维人力,降低运维人员和IT管理成本。


4、 监控数据整合,为业务系统服务

监控数据能够帮助用户正确和及时地了解系统的运行状态,发现影响整体系统运行的瓶颈,帮助系统人员进行必要的系统优化和配置变更,甚至为系统的升级和扩容提供依据。


5、 可扩展性:

为了使监控数据更好的为企业业务系统服务,监控系统需要和企业的业务系统进行集成,监控系统良好的扩展更好的促进与业务系统的整合。


2、 云监控架构


云监控(Cloud Monitoring),《著云台》的分析师团队结合云发展的理论认为,是基于云计算商业模式应用的监控网络、监控服务、监控平台的技术与平台的总称。


2.1 云监控架构


IT系统的监控出现很早,它随着IT系统的发展而不断发展。监控系统在开源社区也非常活跃,知名的开源监控软件有:Nagios、Zenoss、Zabbix等。很多互联网公司直接使用开源的监控软件,我们普元自己的云监控就是基于Zenoss开源框架(至于为什么采用Zenoss有一个预研文档专门说明,我这里就不赘述了)。


Zenoss Core是开源企业级IT管理软件-是智能监控软件,它允许IT管理员依靠单一的WEB控制台来监控网络架构的状态和健康度。Zenoss监控包括可用性监控、事件管理系统、性能监控系统、标准模型等

Zenoss目前成熟版本是4.2.x,其架构如下图:



云监控可通过pack插件不断扩展其功能,还可以通过插件与其他系统集成,不同的pack针对不同的监控对象,扩展容易,安装配置方便,其架构如下图:



2.2 云监控主要监控方式


云监控有多种监控方式,普元云监控是以SNMP监控为主,其他监控方式为辅的方式对IT资源进行监控。


2.2.1 Agent方式


Agent方式是最常用监控方式,很多监控架构都采用Agent方式监控。

采用Agent方式监控优点是安全可靠,研发人员自己定义服务端和Agent的通信方式,只需要在被监控端安装Agent即可。


缺点是当监控规模较大时,如果每台设备都安装Agent需要人力成本较大,升级的时也很麻烦,还有就是针对不同的操作系统可能需要开发适应不同系统的Agent。


2.2.2 SNMP方式


SNMP(Simple Network Management Protocol  简单网络协议) 由一组网络管理的标准组成,包含一个应用层协议(application layer protocol)、数据库模型(database schema)和一组资源对象。

采用SNMP监控的好处是不需要在被监控端安装Agent,开发人员只需要专注于服务端代码的开发即可,并且可以监控网络设备、存储等设备。


2.2.3 SSH方式


SSH监控是通过SSH登录被监控操作系统(一般是Linux系统),通过远程执行脚本获取监控数据,一般用于监控Linux系统的性能数据采集。


2.2.4 IPMI方式


IPMI是智能型平台管理接口(Intelligent Platform Management Interface)的缩写,是一种开放标准的硬件管理接口规格。


IPMI方式监控主要用于硬件信息的采集,采用这种方式监控有一定的局限性,因为不是所有的物理服务器都支持IPMI。


2.2.5 TELNET方式


采用TELNET方式监控是运行telnet命令,远程登录被监控的主机,执行命令来采集数据,然后解析数据得到采集结果


2.2.6 PING方式


PING方式监控是指对指定的服务器进行ICMP Ping检测,获得可用率报告以及响应时间、丢包率等的监控。


3、国内主要监控厂商介绍


现在国内主要有两种形式的云监控,一种是针对自己的云平台提供的监控服务,如阿里云监控、盛大云监控等;另外一种是对外提供监控服务的形式,如监控宝、360网站服务监控等。


3.1 阿里云监控:


    阿里云监控主要监控网站或服务器,结合阿里云云计算平台,为阿里云用户提供阿里云各种云产品的监控。目前提供两类监控:站点可用性监控和服务器监控。


1、可用性监控8种:


监控类型

内容

Http监控

监控Web站点中任何指定的URL,获得可用性监控以及响应时间。

Ping监控

对指定的服务器进行ICMP Ping检测,获得可用性监控以及响应时间、丢包率等。

TCP端口监控

监控服务器TCP端口的可用性和响应时间。

UDP监控

监控服务器UDP端口的可用性和响应时间。

DNS监控

监控DNS服务器的可用性和响应时间,并获得各种DNS记录列表,支持DNS轮询(RR)

POP3监控

监控POP3服务器的可用性和响应时间。

SMTP监控

监控SMTP服务器的可用性和响应时间。

FTP监控

监控FTP服务器的可用性和响应时间。


2、服务器监控10种:


监控类型

内容

CPU利用率监控

ECS服务器CPU利用率监控。

Windows, Linux

内存利用率监控

ECS服务器内存利用率监控。

Windows, Linux

虚拟内存利用率监控

ECS服务器虚拟内存利用率监控。

Windows, Linux

磁盘利用率监控

ECS服务器磁盘空间利用率监控。

Windows, Linux

磁盘读写监控

ECS服务器磁盘I/O的监控(读速率与写速率)。

Windows, Linux

网络流量监控

ECS服务器网络流量监控(上行流量与下行流量)

Windows, Linux

进程数量监控

ECS服务器进程数量监控。

Windows, Linux

TCP连接数监控

ECS服务器TCP连接数监控。

Windows, Linux

CPU负载(load)监控

ECS服务器CPU负载(load)监控。

Windows, Linux

用户自定义监控

用户自己定义监控内容,包括配置、阈值等

Linux


3.2 监控宝:


监控宝既有对外提供监控服务,按月收费,主要对网站、服务器、移动应用等进行监控,也有针对企业私有云提供的监控,其中私有云监控项目见下图:



COMMENTS

5 个回应

Normal_e9631d14e83b4c55941e7cb08a0ce2ed900171

lizhongwen 2014年11月09日 19:58

回复


Normal

hucf 2015年01月19日 09:25

请问文中提到的 Zenoss有一个预研文档,能不能共享下呢?谢谢。文章是不是还有部分内容没有贴出来,能不能共享下呢?谢谢

回复


Normal

nameless 2015年01月19日 10:24

@hucf :有的,我们有一个预研文档,内容和这篇文章有部分区别,侧重点不一样,如果您有需要我可以单独发给您。这篇文章只是简单说明了云计算环境下的监控复杂性及和传统监控的区别,后续可以补充云监控的解决方案。


回复


Normal

hucf 2015年01月19日 13:55

@nameless :能不能把预研文档发下给我,谢谢。我的邮箱:hucf@primeton.com

回复


Normal

edwin 2015年12月27日 10:32

回复


需要 后方可回复
如果没有账号可以 一个帐号。