澳门新萄京官方网站-www.8455.com-澳门新萄京赌场网址

澳门新萄京官方网站:如何选择基于ITIL的管理工

2019-05-04 作者:服务器运维   |   浏览(179)

高效IT运维管理应是多面手

随着云计算、大数据、移动应用等新一代信息技术的发展,企业信息化应用变得更加得心应手,但IT运维管理的压力似乎并没有减轻,反而面临更大的挑战。面对过去的老问题以及当前的新变化,如何提升运维效率,成为CIO们关注的重点。

但在解决如何提升IT运维管理效率之前,我们首先要理清一个概念——什么是IT运维管理?

IT运维管理起源于IT基础设置建设之初,是对处于运行状态下的物理网络,软硬件环境、业务系统等进行维护管理,我们把这种IT管理的工作简称为IT运维管理。

具体我们可以大致概括为以下七部分内容:

第一、设备管理:对网络设备、服务器设备、操作系统运行状况进行监控,对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、WEB等的监控与管理;

第二、数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;

第三、业务管理:包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的CSF(关键成功因素Critical Success Factors)和KPI(关键绩效指标Key Performance Indicators);

第四、目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;

第五、资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;

第六、信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127中控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;

第七、日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。

IT运维是IT管理的核心和重点,也是内容最多、最繁杂的部分,每一个子系统中都包含着十分丰富的内容,也因此被很多人称之为“IT运维管理就像一个什么都能装的箩筐”。但通过梳理,你会发现,其实IT运维管理也有依有据,有规律可寻。

IT运维管理可以让业务流程变得可视化 ,就像新产品要经过严格的检验程序一样,业务流程也需要测试以证明它们能够经受住操作环境的压力和考验。一个新的或被修改过的业务流程在进行系统、技术和员工的投资之前也必须加以审核。这就需要流程可视化。

流程可视化是你能够真实地看见业务流程实施的简单而有效的方式。这种对待流程设计的方式可以植入你的企业文化之中。你可以像对待新产品一样来对待业务流程设计。

“流程”这个词不仅仅指企业的活动和工作流。“业务流程”通常包括很多业务元素。包括业务目标、需求、策略和原则,以及最佳实施策略的制定,也包括信息流,产品和服务,设备以及资金、系统和技术的支持。流程可视化的关键是把企业的基本元素和业务流程进行整合,通过演示告诉企业,你的业务流程和支持技术在真实的场景中将如何运作,信息流如何支持流程的运作,如何支持系统进行互动。

澳门新萄京官方网站,运维管理自动化可以帮助企业建立快速响应并适应企业业务环境及业务发展的IT运维模式,实现基于ITIL的流程框架、运维自动化。

运维管理自动化需求最早以代替人工操作为出发点,从初期的几台服务器发展到庞大的数据中心,单靠人工已经无法满足在技术、业务、管理等方面的要求,那么标准化、自动化、架构优化、过程优化等降低IT服务成本的因素越来越被人们所重视。发展至今,自动化作为其重要属性之一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。

传统式被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪。具体表现为:运维人员被动或者效率低、缺乏一套高效的IT运维机制、缺乏高效的IT运维技术工具等等。IT运维自动化可以把IT运维人员从纷繁复杂、大量重复的工作中解放出来,专注于更有价值的工作内容。

首先,IT运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有机会看见他们的业务流程,对企业流程有一个深刻的分析和理解,进而改造和优化流程。

其次,IT运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具潜移默化地提升业务保障能力。

再者,运维系统实行了自动化监控以后,通过工具自动监控对人的工作是一种减负,也是一种降低成本的表现。

简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。

自动化工作平台还可帮助IT运维人员完成日常的重复性工作(如备份、杀毒等),提高IT运维效率。同时,IT运维的自动化还要求能够预测故障、在故障发生前能够报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。

服务流程规范化让IT运维管理有标准可参考,ITIL(IT Infrastructure Library 信息技术基础架构库)是国际上一套通用的IT服务管理标准。ITIL可以帮助IT部门建立一套最基础,但也是最规范的管理制度。参照ITIL制定一套IT运维管理制度,以此规范部门的服务标准。把每项职责都落实到人,按照“日事日清”的原则,对每位员工逐一考核。

通过IT服务规范管理,可以把支撑业务的IT系统的服务,将其纳入流程,并加以测量。IT服务管理(ITSM)就是以服务对象为中心,将IT有关工作流程化的管理起来。

服务流程规范化的最终目的是建立完善而成熟的IT运维管理体制,通过流程管理,不断提高IT运维质量,实现高效运维,提升组织内IT服务满意度,进而帮助企业建立快速响应并适应企业业务环境及业务发展的IT服务模式,使IT服务向规范化和流程化方向发展,共同促进、集团行政管理和服务水平的不断提升。

配置信息统一化,可以让企业建立统一的IT基础设施资源池,这样的做的好处是,所有的系统均处于同步运行状态,可统一管理、调配资源。

很多企业的IT运维管理平台都是按照IT服务行业标准ITIL建立,包括有事件管理、问题管理、配置管理、变更/发布管理、配置管理、作业管理、知识库、服务考核等在内的服务管理流程。

在形成闭环管理的同时,所有的流程信息均存储在配置管理库中,配置管理库所提供的数据一旦出现问题,而领导按照这个错误的数据做出了错误的决策,所造成的损失将是无法估量的。配置信息统一化后,如果某用户信息中心业务系统提前进行了告警,显示其中某台服务器负荷过高,信息中心运维人员收到告警信息之后可以立即上报,采购新的服务器。

IT运维管理平台应该着重在建设配置管理库上,配置管理数据库存储了所有配置管理的数据和信息。同时也是事件管理、问题管理、变更管理等流程查询、诊断、记录的基础,配置管理库的数据一旦出现任何问题,IT运维管理人员在对系统进行升级、改造过程中都会造成决策失误,从而影响业务系统正常运行。

IT运维管理平台的基础配置管理库具备联邦、调和、同步、映射四个重要特性。大部分厂商的配置数据库都是通过手工录入的,将繁琐的IT设备基础信息手工录入到配置管理库里,每次底层IT设备出现变更等情况都需要再录入到配置库,一旦有IT设备信息录入错误,配置资源库里的数据就会失真。

当IT设备配置项发生变动时,通过资源库检验配置项的正确性和完整性,建立统一的IT基础设施资源台帐,实现配置管理库联邦、调和、同步、映射四个重要特性。正确的数据让决策者精准的掌控业务运行全局状况,为领导决策提供科学的依据。通过资源与配置的统一管理,确保底层数据配置项准确无误,通过IT运维管理平台统一展现、全局掌控确保业务运行无忧,持续提高业务部门和客户的满意度,提高企业核心竞争力。

简言之,高效IT运维管理应该是个多面手,可看、可管、可抄、可调。

而从用户的实际应用情况来看,正是IT运维管理的上述四大作用,让用户从NSM网络安全与管理走到ITSM IT服务管理,再到BSM业务服务管理这样一个不断升级的阶段,经历了由被动管理到主动管理、由主动管理到服务导向再到业务价值实现这样一个过程。

但在云计算、大数据、移动应用这种强调“屌丝文化”的新阶段,搭建一个高质量的应用,需要IT运维人员自己动手做很多事,才能搭建一个理想的应用系统。比如:为啥云计算有很多开源的东西,却不是人人都能做?其实,云计算跟房地产一样,要占地、占机房、占带宽。另外,在海量数据汹涌来袭的大数据时代,数据增加都是被动的、延迟的,如何让IT运维管理跟得上数据发展速度,做好大数据准备,已成当务之急。同样,移动应用也对IT运维管理产生了重要影响,催热了新型IT服务,让IT运维走向APP时代。IT运维管理需要更得上移动互联发展脉搏,提升客户体验,实现不同设备与不同平台之间的对接。只有这样,高效IT运维才会完整。

随着云计算、大数据、移动应用等新一代信息技术的发展,企业信息化应用变得更加得心应手,但IT运维管理的...

面对复杂的异构环境,如何及时全面地掌握网络、服务器、数据库、存储、安全等各类设备的运行情况?

互联网上有两大主要元素"内容和眼球","内容"是互联网公司(或称ICP)提供的网络服务,如网页、游戏、即时通信等,"眼球"则是借指海量的互联网用户。互联网公司的内容往往分布在多个或大或小的IDC中,越来越多的"眼球"在盯着ICP所提供的内容,互联网公司进行内容存储的基础设施也呈现出了爆发式的增长。为了保障对内容的访问体验,互联网公司需要在不同的运营商、不同的省份/城市批量部署业务服务器用以对外提供服务,并为业务模块间的通信建立IDC内部网络、城域网和广域网,同时通过自建CDN或CDN专业服务公司对服务盲点进行覆盖。因此随着业务的增长,运维部门也显得愈发重要。他们经过这些年的积累,逐步形成了高效的运维体系。本文将结合国内互联网公司的经验,重点针对IT基础设施的新一代自动化运维体系展开讨论。

BKJIA.com 综合报道】ITIL作为ITSM事实上的国际标准,独立于任何厂商,基本与组织性质和业务性质无关,并且只总结IT服务管理领域最重要的实践部分。可以说ITIL只是IT服务管理实践的“合理抽象”,它仅明确指出应该“做什么”,但不讲“如何做”。当企业或其它组织具体实施ITIL时,就可以把标准具体化,建立自己的方法论。企业在运用内含着质量管理思想的ITIL所提供的流程和最佳实践进行内部IT服务管理时,不仅可以提供用户满意的服务从而改善客户体验,还可以确保这个过程符合成本效益的原则。

【摘要】

面对越来越复杂的业务、越来越多样化的用户需求、不断扩展的IT应用,如何保障IT服务灵活便捷、安全稳定地运行?

一、运维的三个阶段

实际上ITIL作为跨国公司IT建设成功的基础工具,在中国企业信息化进程中也已有些不自觉的应用,如许多企业的内部IT服务台、容灾备份系统、服务级别管理SLA等也是颇具水平的。但与理性的、自觉的应用ITIL/ITSM管理思想的跨国公司相比,有意识地应用ITIL的中国企业还不多,已经应用的企业往往还不够深入、系统与全面,产生的效益也不够可观;服务台、事件管理、配置管理等应用稍多些的模块,应用往往是在“有”的水平上,尚未达到“好”的程度;变更管理、问题管理、能力管理等其它模块应用较少。为此,要想进一步提升企业IT服务的管理水平,认真学习、应用ITIL是成功的关键因素之一。

国家核电技术公司(以下简称国家核电)是中央管理的53家国有重要骨干企业之一,采用中央集权式统一管理进行信息化管理,总部具有全网统一规划、统一建设、统一管理的决策权。通过OneCenter IT统一运维平台的全面部署,所有成员单位均可访问总部的统一运维平台,借助分权分域确保数据的有效隔离,实现运维团队内部管理的统一监控、统一流程、统一资产和统一登录,并且完成与国家核电总部统一认证、统一门户和短信平台的接口,实现统一展现的管理目标。

IT运维应运而生。

● 第一个阶段:人人皆运维

在应用ITIL的时候,最重要的就是选择一个管理工具,实现ITIL的落地。

项目背景

随着云计算、大数据、物联网、互联网 、IAAS的不断冲击,信息化部门也在考虑如何实现高效率的运维,将繁琐、重复工作简单化、自动化,DevOps自动化运维就显得尤为重要。

在早期,一个公司的IT基础设施尚未达到一定的规模(通常在几台到几十台机器的规模),不一定有专门的运维人员或部门,运维的工作分担在各类岗位中。研发人员拥有服务器权限,自己维护和管理线上代码及业务。

那么,如何选择一个真正适合自己的管理工具呢?

随着信息化发展,国家核电已完成所属公司25家单位网络接入工作,集团广域网设备达到60套,局域网络节点约1500个。随着IT系统运行环境日趋复杂,业务对IT系统的依赖度提高,IT运维管理已经成为企业重要组成部分。国家核电运维管理部肩负着主干网建设、维护、运营的使命,致力于提供安全、高效、快捷的IT服务。

DevOps故名思议就是Development和Operations的组合,是过程、方法和系统的统称,主要是为了把软件开发、技术运营和质量保证进行有效的结合,从运维到管理。

● 第二个阶段:纵向自动化

在应用ITIL时,管理员会提出这样的一些问题:ITIL体系是如何建立IT服务管理流程的?具体流程是什么样的?到底是以ITIL体系为依据来建立企业的IT服务管理流程呢,还是让企业IT服务管理流程来适应ITIL体系呢?这是在ITIL体系实施与建设过程中,处理好ITIL体系与企业IT服务管理流程之间关系的一个重要问题。

随着IT系统规模不断扩大,构成IT基础的设施呈现出规模庞大、结构复杂、品牌众多的特点,林林总总的网络设备、服务器、存储、虚拟化、中间件、数据库、应用系统等让运维管理人员难以从容应对,依靠手工方式已无法保障系统稳定性,为此需要一套IT集中监控系统,以便快速发现故障及定位,提高运维团队工作效率。

运维,就是日常的运行维护,而DevOps是从制定计划到运营终止全生命周期的管理,那么DevOps自动化运维如何实现呢?

随着业务量的增长,IT基础设施发展到了另外一个量级(通常在上百台至几千台机器的规模),开始有专门的运维人员,从事日常的安装维护工作,扮演"救火队员",收告警,有运维规范,但运维主要还是为研发提供后置服务。

所以,我们在选择管理工具时,首要考虑的是:ITIL流程怎样贴合用户的实际情况。那么,我们就需要能够自定义服务流程这个功能。

在流程规范方面,运维管理中心还处于初级的IT服务管理状态,在组织结构、管理规范、管理流程和技术支撑方面,还未构建综合的IT服务管理体系。网络、设备、系统、用户等的管理和服务处于分散、无关联状态,没有实现数据、信息和知识库的共享,也无法实现规范化和流程化。

了解应用在全生命周期中每一个周期都需要什么样的工作、平台、组织、人员进行匹配支撑,如敏捷管理、持续性的交付、IT服务管理等。

这个阶段已经开始逐步向流程化处理进行过渡,运维部门开始输出常见问题处理的清单,有了自己业务范围适用的自动化脚本,开始利用开源软件的拼装完成大部分的工作。

我们知道,在ITIL的流程里,资产配置管理流程是其他流程的根基,资产配置管理功能为企业建立一套详实的配置管理数据库CMDB),系统、网络、设备、机构、合同、软件等各类信息一应俱全,为信息的查阅提供了一个全面及时的途径,做到了家底清楚心中有数。同时,维护人员可以及时掌握故障设备的所属机构、具体地址、联系电话、设备配置、用途等各类信息,作为解决故障的重要基础数据。

综上所述,无论人员组织、流程规范还是技术工具方面,国家核电运维管理中心都提出了迫切的改进和建设需求,以建立一套适应业务和管理成熟度客观规律的科学化IT服务管理体系,有效支持业务的稳定运行与发展。

持续性交付是核心,持续性交付的起点是应用需求的形成,重点是应用的高效运行,持续的优化、改进、审查、测试、部署、运营,形成PDCA闭环维度。

具体表现为:各产品线有自己编写的脚本,利用如SVN puppet或chef来完成服务器的上线和配置管理等工作。

所以,灵活的配置管理和验证功能是我们所关注的第二个功能。灵活的配置管理和验证功能可以提供多种资产配置数据的录入和导入功能,并同步其他管理流程对资产配置库的改动数据,实现配置管理数据的整个生命周期的管理。同时,模板化的定义能力,具备联动底层监控系统实现资源同步和检查机制,可以发现和防止配置的随意修改。

建设目标

传统运维面临的问题

● 第三阶段:一切皆自动

在使用ITIL的管理工具时,我们通常也需要一些辅助流程,这些辅助流程对于维护人员的日常工作的帮助是非常巨大的。经常使用的辅助流程应该包括:值班管理、知识库、日常作业计划、人员考核等。所以,我们应关注管理工具的辅助流程功能。

国家核电是中央管理的53家国有重要骨干企业之一,需要从各个方面对全国各级单位进行统一管理。国家核电决定开展统一运维监控项目,实现总部及所有成员单位的统一运维流程管理、统一运维监控管理、统一IT资产管理;总部与各成员单位统一使用一套运维平台, 通过分权分域确保数据权限的有效隔离。

传统的IT运维是将数据中心中的网络设备、服务器、数据库、中间件、存储、虚拟化、硬件等资源进行统一监控,当资源出现告警时,运维人员通过工具或者基于经验进行排查,找出问题并加以解决。但是,随着互联网 时代的到来,移动互联网、云计算和大数据技术得到了广泛应用,从而导致企业所管理的IT架构不断扩大,服务器、虚拟化、存储设备的数量越来越多,网络也变得更加复杂,业务流程越来越繁琐,传统的运维管理也越来越力不从心。主要表现以下几个方面:

在互联网化的大潮中,越来越多的黑马团队应运而生,都曾有过短时间内用户访问量翻N倍的经历。在流量爆发的过程中,ICP的互联网基础服务设施是否能够很好的跟进,直接决定了业务内容能否满足海量用户的并发访问。

在很多的政府信息中心,目前都面临着安全管理,如何建立安全管理体系,也是目前领导考虑的首要问题。如何将安全管理体系纳入到ITIL里,也是我们选择ITIL管理工具的一个重要方面。

国家核电希望通过全国范围内统一部署网络运维平台,建立起一套综合性、整体性的大运维管理体系;同时要求运维平台能够较强的扩展性,具备方便、快捷整合第三方软件与平台的接口和能力,从而建立规范有序、运作顺畅、确实有效可行的运维机制,全面提升集团及二级单位信息化服务的支持与保障能力,实现从粗放运维到精细运维、从职能管理到流程管理、从被动服务至主动服务的转变。

澳门新萄京官方网站 1

与此同时,运维系统需要足够地完善、高效、流程化。谷歌、腾讯、百度和阿里等规模的公司内一般都有统一的运维团队,有一套或多套自动化运维系统可供参照,运维部门与开发部门会是相互平行的视角。并且也开始更加关注IT基础设施在架构层面的优化以及超大规模集群下的自动化管理和切换(如图1所示)。

如果管理工具具备“所见即所得”动态自定义表单功能,我们就可以预定义丰富的表单模板,从而建立新的工作流程,更加容易、真正实现运维管理的“随需而变”。

平台设计思路

IT环境异构:系统软硬件种类繁多,导致运维人员运维监控压力大,日常工作量繁重。

澳门新萄京官方网站 2

另外,诸如Portal技术、单点登录SSO技术、和底层监控系统的无缝结合,也都是我们需要考虑的。

勤智运维为国家核电设计的IT运维管理平台包括:“IT运行集中监控、IT运维流程服务、统一运维门户”三个部分。底层基础平台主要实现对底层数据的采集、存储、分析等工作,为上层监控及流程系统提供基础数据;IT运行监控主要完成对基础设施故障、性能、配置等方面的全面监控管理,实现主动式的IT管理;IT运维流程服务主要根据IT服务管理的国际标准ISO20000,并结合ITIL最佳实践,梳理出事件管理、问题管理、变更管理等运维流程,实现对日常运维工作的流程化、规范化管理,提升IT服务的质量。统一门户主要实现对监控信息、运维流程信息的集中展示。

故障发生后,运维工程师花费大量精力排查问题,无法快速和准确的定位问题,治标不治本。

图1.大型互联网公司IT基础设施情况概览

总之,我们在选择ITIL的管理工具时,一定要考虑自身的实际情况和真正需求,保证基于ITIL的IT运维管理系统能够不断适应自身的IT服务管理水平的持续改进与优化。

平台三个子系统关系如下:

由于设备数量巨大,日常巡检占用大量时间,导致工作效率低下,事倍功半。

二、BAT(百度、阿里、腾讯)运维系统的分析

综合报道】ITIL作为ITSM事实上的国际标准,独立于任何厂商,基本与组织性质和业务性质无关,并且只总结IT服务管理领域最重要的...

(1) 以IT运行监控为“基础”

工作机制混乱,面对庞大的IT系统,缺乏有效、自动化的运维流程,缺乏有效的绩效考核依据。

国内的互联网公司百度、阿里、腾讯(以下简称:BAT)所提供的主要业务内容不同,IT架构不同,运维系统在发展过程中有不同的关注点。

IT运行监控是对被管对象运行的状态以及其配置资产信息进行统一监控、管理、分析,对系统运行性能进行实时监控,并对各种状态信息进行汇总、分析以及预测。另外,还包括对IT系统的全部配置资产统一管理,对配置信息的异动进行检查及告警。

缺少自动运维机制:IT部门人员过少,导致运维压力大;由于误操作,导致无法挽回的灾难;大而全的系统,对运维人员技术能力要求越来越高。

1.腾讯运维:基于ITIL的运维服务管理

(2) 以IT服务管理为“导向”

系统内数据非常重要,如果遗漏备份,系统瘫痪/误操作等出现时会导致无法估量的后果。

预计到2015年腾讯在全国将拥有60万台服务器。随着2012年自动化部署实践的成功,目前正在进行自动化验收的工作。在网络设备方面,后续将实现从需求端开始的全自动化工作:设备清单自动生成->采购清单自动下发->端口连接关系、拓扑关系自动生成->配置自动下发->自动验收。整个运维流程也已由初期的传统IT管理演进到基于ITIL的服务管理流程(如图2所示)。

IT服务管理主要依据ITIL架构进行建设,为IT系统的维护服务提供电子化的控制手段。系统通过事件管理、问题管理、变更管理、配置管理等功能,为IT维护人员提供以流程为基础的服务管理方式,以便快速消除IT系统故障、解决潜在问题,减少不规范的系统变更引发的系统故障率和故障隐患,实现对IT系统的主动式服务,提高服务水平。

自动化运维为你排忧解难

澳门新萄京官方网站 3

(3) 以统一运维门户为“展现”

自动化运维,可实现日常设备监控、主动发现问题、自动分析定位、基于标准化流程工具规范化处理、通过自动化运维操作工具处理修复等功能,最终实现监管治自动化运维。

图2.腾讯基于ITIL的运维服务管理

统一运维门户是整个系统的对外界面,通过统一的权限管理和统一风格的B/S展现,为系统的操作使用人员提供统一的系统接口,做到一点接入,通观全局,能够以灵活的展现方式,定义用户、角色、组织机构,并为每个不同角色提供不同的功能模块,为每个用户分配不同的展现内容,方便用户进行集团整体的运行维护管理。

勤智运维深刻理解当前运维所面临的问题,根据多年来积累的经验,结合ITSS服务标准、DevOps、Iaas而推出的OneCenter系列产品,包含统一运维门户、多客户端移动运维、运维服务管理系统ITM、服务流程管理系统ITSM、运维自动化管理系统ITAM、运维大数据分析系统ITBA,为各行业信息化提供智能、高效、简单、自动化的IT运维管理解决方案,为企业业务提供强有力的IT支撑和质量保障。

2.阿里运维系统:基于CMDB的基础设施管理 逻辑分层建模

解决方案

澳门新萄京官方网站 4

CMDB(Configuration Management Database) 配置管理数据库(以下简称:CMDB),将IT基础架构的所有组件存储为配置项,维护每个配置项的详细数据,维护各配置项之间的关系数据以及事件、变更历史等管理数据。通过将这些数据整合到中央存储库,CMDB可以为企业了解和管理数据类型之间的因果关系提供保障。同时,CMDB与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转、发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。可实现IT服务支持、IT运维以及IT资产管理内部及三者之间的流程整合与自动化。在实际的项目中,CMDB常常被认为是构建其它ITIL流程的基础而优先考虑,ITIL项目的成败与是否成功建立CMDB有非常大的关系。

勤智运维以统一运维平台为依托,结合国家核电实际情况推出一体化智能运维管理平台解决方案。

监控自动化

3.百度自动化运维:部署 监控 业务系统 关联关系

统一资源监控:资源管理范围不仅包括传统的主机、网络、软件、应用资源等 IT 基础设施,还支持存储、虚拟化、链路设备等。通过资源可视化管理、运维自动化管理、知识管理等,实现智能的IT运维,使运维工作越来越轻松。

监控自动化是运维自动化的基础,通过自动化监控平台对各类IT资源(包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用、操作系统、虚拟化等)进行实时监控,出现故障后进行告警归集并处理,解决同设备同指标同告警频报问题。当然,监控自动化的范畴很广,除了监控告警响应,系统也可从业务角度出发,根据业务系统运行情况,判断业务系统健康度。

百度主要面临的运维挑战包括:突发的流量变化、复杂环境的关联影响、快速迭代的开发模式以及运维效率、运维质量、成本之间的平衡等等。百度的运维团队认为,当服务器规模达到上万台时,运维视角需要转为以服务为粒度。万台并不等于"百台*100";机器的运行状态,也不再代表业务的工作状态;运维部门为研发提供前置服务,服务与服务之间关系也随着集群的扩大逐渐复杂起来。

平台使资源运行可视、拓扑可视、网络状况可视;实现了分权分域,不同二级单位和不同权限的人只能查看和管理自己权限范围内的数据。

澳门新萄京官方网站 5

澳门新萄京官方网站 6

值得一提的是,系统发现重大问题时可以通过集团统一短信,通知相关运维人员,并可通过短信回复实现流程工单处理,提升了运维事件发现问题、处理问题、解决问题的效率。

数据采集自动化

图3.百度自动化运维技术框架

澳门新萄京官方网站 7

数据自动化采集是保障运维人员实时了解系统运行状况的前提,系统支持单机DCS和分布式DCS部署方式,以应对不同规模网络架构;系统通过自定义采集策略,周期性采集,主动上报,通过DHS进行数据分析处理,并统一在系统上进行展示。

百度的自动化运维技术框架,划分为部署、监控、业务系统、关联关系四大部分,整个框架更多突出了业务与IT基础设施的融合,注重"关联关系"的联动。所谓关联关系,主要是指任务与任务之间的时序依赖关系、任务与任务之间的数据依赖关系、任务与资源之间的引用依赖关系,分别对应到任务调度、数据传输、资源定位的服务流程中,形成了多条服务链。

统一流程:澳门新萄京官方网站:如何选择基于ITIL的管理工具,互联网时代的网络自动化运维。国家核电集团总部初期一共梳理出七支流程,包括事件、问题、变更、发布以及停电申请、广域网线路申请、广域网停运申请、三支垂直化申请流程,现已经全面运行,产生了一万多个流程工单。国家核电总部增加了垂直化管理流程,二级单位可直接提交工单到集团,加强了集团化运维管控能力。

澳门新萄京官方网站 8

关联关系的运维与业务较强相关,需要有一套系统能够理清楚关系的全貌,从而在复杂的服务链上,定位运行所在的环节,并在发生故障时预估影响范围,及时定位并通知相应的部门。在这样的一套系统中,自动化监控系统非常重要。百度的技术监控框架,主要通过数据采集、服务探测、第三方进行信息收集,进行监控评估后交给数据处理和报警联动模块处理,通过API接口进行功能扩充(如图4所示)。

同时,机房巡检实现了人工巡检与智能巡检的结合;在人工巡检时,自动调取业务监控状态,并可以通过人工确认提交巡检单。

日常巡检自动化

澳门新萄京官方网站 9

通过统一流程,规范了IT运维团队工作标准,对运维事件、问题、变更、发布、知识等流程实现统一管理,统一运维理念得到进一步落地。运维流程中,实现短信通知以及短信回复驱动流程工单,大大提高了运维效率。

运维日常巡检及定期备份是运维人员定期需要完成的工作,而这项日常操作耗时烦琐,针对这一问题,运维管理系统可代替人工完成,从而将繁琐的人工工作自动化,避免人为操作的疏漏,大大提高运维效率。

图4.百度自动化技术监控框架

通过与服务支撑系统的配合联动,最终实现PPTR(ITSS标准四要素:人员、流程、技术、资源)的统一管理,从而更好的支撑IT运营目标。

运维服务管理系统ITM通过系统配置,指定需要巡检的设备、接口及每天的巡检时间和次数,系统按照巡检模板定时巡检并生成巡检报表发送到指定邮箱,无需人工巡检填写巡检报告,让运维人员不论身处何地,也能定时了解系统日常运行情况,减少了工程师标准化、重复的工作,化人工操作为自动化过程,使工程师可以专注于其他更有价值工作。

其实无论是BAT等互联网企业还是其他行业的企业,在IT建设中都会遵循IT基础架构库(ITIL)或ISO20000服务管理的最佳实践,采用自动化IT管理解决方案以实现重要的业务目标,如减少服务中断、降低运营成本、提高IT效率等等。随着ISO20000、ITIL v3.0的发布和推广,两者已经成为事实上的某种标准。在当今企业IT管理领域,对两个标准有着很迫切的需求。特别是ISO20000的认证要求,已经成为企业越来越普遍的需求 。ITIL v3.0包含了对IT运维从战略、设计到转换、运营、改进的服务全生命周期的管理,相关方案往往覆盖了多个领域和多个产品,规划实施和工具的选择会比较纠结。如果选择开源的工具,从CMDB开始就会遇到很多的开发工作,对于很多注重成本收益比的企业,可以参考,但由于无法保证性能与效果并不一定适用。因此,成熟的商业方案会是更好的选择。

澳门新萄京官方网站 10

澳门新萄京官方网站 11

最新的iMC V7版本,围绕资源、用户、业务三个维度进行创新,发布了SOM服务运维管理(基于ISO20000、ITIL标准)等组件,增加了对服务器的管理,能很好的满足更多互联网化的场景需求。

统一资产配置管理:根据国家核电集团的资产统一编码规范,运维团队梳理出计算机设备、网络设备、安全设备、终端设备、存储设备、输入输出设备、机房辅助设备、计算机软件八大类别,共计58个子分类,目前已经有效地管理近万个资产。

设备配置比对自动化

通常认为,一个高效、好用的配置管理数据库一般需要满足6条重要标准,即联合、灵活的信息模型定义、标准合规、支持内置策略、自动发现和严格的访问控制。企业IT基础架构的元素类型、管理数据的类型往往有较多种,如网络设备、服务器、虚拟机等,因此对于多种信息的存储需要有合适的联合的方法。虽然 iMC智能管理平台在网络设备、服务器设备等方面已经能够较好的的满足,但是随着服务器虚拟化技术的发展,虚拟机正越来越多的成为IT基础架构的一大元素。因此,针对这一需求华三通信基于CAS CVM虚拟化管理系统,对服务器CPU、内存、磁盘I/O、网络I/O等更细节的重要资源以及虚拟机资源进行全面的管理。与BAT不同,华三通信的网管软件面向全行业,目前虽然没有对域名管理等特殊资源的管理,但是能够通过API接口等方式与特有系统进行联动,进而满足定制化运维的需求,尤其是在互联网化的场景中,针对不同的业务需求,可以实现很多定制化的对接需求,例如,iMC WSM组件与国内某大互联网公司自有Portal系统进行了对接,打通了iMC工具与用户自有运维平台,很好的实现了架构融和。另外,与阿里的逻辑分层建模相似,H3C "iMC CAS"软件体系在上层也做了很多的逻辑抽象、分层,形成了诸多的模块,也即是大家看到的各种组件。

通过固化IT资产编码规范,核电集团实现IT资产的统一录入、统计及全生命周期管理;可以按照成员单位展现和查看资产视图;在资产维保到期时收到提醒,包括短信提醒和系统提醒。

运维服务系统ITM内置标准化的脚本,通过脚本执行,定期下载备份系统配置及文件。系统通过日常备份配置文件比对分析,将变化内容高亮显示,让运维人员一目了然哪些配置被修改过;当配置发生变化后,会第一时间在告警台进行展示。当设备不可用时,通过快速恢复功能一键恢复。

三、网络自动化运维体系

业务服务可视化管理:统一运维平台从业务角度出发,提供可视化的业务视图,可直观查看业务架构及业务系统所依赖的组件;业务系统性能、故障信息在业务视图上统一展示;从业务角度提供性能、容量趋势分析,可提前预知业务性能和容量瓶颈,进行容量调整,从而避免业务故障发生;当业务发生故障时,可通过业务视图快速定位故障根源;统一的业务视图,让业务部门和IT部门能够拥有统一的管理视角,从而保障业务稳定。

澳门新萄京官方网站 12

"哪怕是一个只有基础技术能力的陌生人,也能做专业的IT运维;哪怕是一个只有初中学历的运维人员,也能够带队完成中小型机房节点的建设,并负责数百至上千台服务器的维护管理工作"--这是一些公司对自己IT运行维护水平的一个整体评价。看似有些夸大的嫌疑,但实际上依托于强大的IT运维系统,国内已经有不少互联网公司能够达到或者接近这一标准。

综合报表管理:系统自动获取支撑业务系统的所有IT资源的运行数据,为用户提供性能报表、告警统计、TOPN报表、可用性报表、趋势报表、分析报表和综合报表7种报表,作为IT设备性能分析、IT投资分析、资源调配等决策动作的数据依据。

澳门新萄京官方网站 13

这些企业都经历了运维发展过程中的各个阶段,运维部门曾经也是被动的、孤立的、分散的"救火队"式的团队,在后来的发展过程中,IT系统架构逐渐走向标准化、模型化,运维部门建立了完整的设备、系统资源管理数据库和知识库,包括所有硬件的配置情况、所有软件的参数配置,购买日期、维修记录,运维风险看板等等,通过网管软件,进行系统远程自动化监控。运维过程中系统会收集所有的问题、事件、变更、服务级别等信息并录入管理系统,不断完善进而形成一套趋向自动化的运作支撑机制。按照云计算的体系架构,在这样一套系统中,主要的IT资源包括计算、存储、网络资源,近些年随着网络设备厂商的推动,网络设备管理方面的自动化技术也得到十足的发展。

澳门新萄京官方网站 14

故障定位自动化

总结来看,一个企业在进行互联网化的建设初期,就需要考虑到随着用户访问量的增加,资源如何进行扩展。具体可以细化为规划、建设、管理、监控、运维五个方面。

澳门新萄京官方网站 15

运维服务管理系统ITM提供了一套智能化的故障排查处理机制,立足提高工程师处理效率,灵活的故障策略能适应各种各样的IT变化,帮助工程师在海量的告警中,准确的定位故障、通过自动抓取设备快照,了解当时系统运行情况,快速定位故障,有效缩短排障时间,解决运维难题。

1.规划模型化

领导视图:提供面向国核总部和各下属单位的整体管理视图。领导视图集中展现总部和各二级单位统一的广域网流量分析、设备故障分类、业务可用率、工单解决率统计等信息,便于各级领导及时了解全网的整体状态。

澳门新萄京官方网站 16

为了确保后续业务能够平滑扩容,网管系统能够顺利跟进,互联网企业一般在早期整体系统架构设计时便充分考虑到标准化、模型化,新增业务资源就好比点快餐,随需随取。

统一展现:通过部署统一展现子系统,为总部及二级单位领导实时提供全网范围内的网络可用性、业务可用性、运维支持能力和运维分析报告。同时,统一展现将监控子系统、流程和资产子系统在一个页面中集中展示,提高系统易用性和操作便捷性;无需访问各个子系统,国家核电就能通过统一展现了解监控告警、流程和资产的所有信息。

数据分析自动化

标准化:一是采用标准协议和技术搭建,扩展性好,使用的产品较统一,便于管理;二是采用数据中心级设备,保证可靠性、灵活性,充分考虑业务系统对低时延的要求。

澳门新萄京官方网站 17

大数据时代,如何从海量的数据中提取有价值的数据,也是当今最热门的话题。大数据分析平台ITBA,通过针对ITM系统所监控的资源设备性能数据和其他业务系统运行日志进行分析,掌握当前业务系统运行情况,了解性能、容量瓶颈问题,根据日常的运行情况及性能信息指标,综合进行预测,防患于未然。

模型化:基于业务需求设计网络架构模型,验证后形成基线,可批量复制,统一管理,也适宜通过自动化提高部署效率、网管效率。

统一运维门户:通过与集团总部统一门户有效整合,OneCenter帮助用户实现快速认证登陆、用户信息实时同步,省去了多系统之间单独登录的繁杂操作。通过将用户的代办工单等信息实时同步到统一门户,实现国家核电内部办公信息在门户网站的统一呈现;用户在门户网站即可实现相关工单的处理和查看,极大的方便了用户的操作。

澳门新萄京官方网站 18

澳门新萄京官方网站 19

建设意义:经国家核电及各成员单位的共同努力, IT统一运维平台目前运行效果良好,完成了既定的工作目标。

流程处理自动化

图5.常见互联网IDC架构

目标达成:

服务流程系统ITSM遵循ITIL标准,建设标准化、规范化的运维服务管理体系。运维服务管理平台的建设遵循ITIL管理思想,通过流程与资产的无缝对接,建立资源运维规范化流程;通过流程化运维方式,让每一次运维都有相应的记录,可随时查看运维历史及运维记录,包括排障记录、变更记录、服务记录等,并且提供表单自定义和流程自定义功能,实现客户运维管理标准化、规范化。在工单处理完后,一键转化为知识库,提高工作效率。

2.建设自动化

1、完成与国家核电总部统一门户的集成,并实现单点登录和统一待办。

澳门新萄京官方网站 20

互联网IT基础设施具备批量复制能力之后,可以通过自动化技术,提高上线效率。在新节点建设过程中,3~5人的小型团队即可完成机房上线工作。例如某互联网公司某次针对海外紧急业务需求,一共派遣了2名工程师到现场进行设备安装部署和基本配置,而后通过互联网链路,设备从总部管理系统中自动获取配置和设备版本,下载业务系统,完成设备安装到机房上线不超过1周时间。

2、完成与统一认证平台用户同步的接口,实现与统一认证平台的集成。

故障处理自动化

要达到自动化运维的目标,建设过程中需要重点考虑批量复制和自动化上线两个方面(如图6所示)。

3、完成与统一短信平台的对接,实现告警短信发送、工单短信通知、短信回执推动工单流程等流转,实现移动办公。

大批量的系统每天会产生海量的告警,很多告警都属于常规性告警,如磁盘空间不足,CPU、内存利用率过高等问题。这些常规性运维,工程师需要逐一去进行派单、恢复处理,但是面对成千上百的设备,工程师往往会力不从心。

批量复制:根据业务需要,梳理技术关注点,设计网络模型,进行充分测试和试点,输出软、硬件配置模板,进而可进行批量部署。

4、完成统一监控部署,确保所有成员单位指定监控设备的添加和监控、告警阈值调整、分权分域的管理模式。统一监控实现了对各单位网络、主机、服务器、数据库、业务系统的实时监控/报表统计/预警告警等功能。

勤智服务流程管理系统ITSM可进行策略配置,当产生告警后,根据预先配置的策略,自动生成工单,不同的告警进行不同的工单、派单处理,有效地将服务台和服务请求、事件问题、标准变更发布流程整合,使运维服务过程有统一的任务优先级排序、跟踪和评估 / 审批,运维人员只需要根据工单进行处理即可。

自动化上线:充分利用TR069、Autoconfig等技术,采用零配置功能批量自动化上线设备,效率能够得到成倍提升。

5、完成统一流程部署,确保所有成员单位均通过统一的事件、问题、变更流程,实现运维工作的可追溯和绩效考核等,并实现成员单位向总部发起的垂直化管理流程,强化了集团信息化统一管理。

澳门新萄京官方网站 21

澳门新萄京官方网站 22

6、完成统一资产部署,让所有单位的资产都具有符合国家核电统一资产编码,并实现资产信息化的统一管理。实现集团IT资产的统一录入、统计及IT资产全生命周期管理。

日常操作自动化

图6.批量配置与自动化上线

7、总部及各单位信息化领导可通过领导展现视图,直观了解整个集团及本单位的网络可用率、业务可用率、运维支持能力。

日常备份自动化

○ Autoconfig与TR069的主要有三个区别:

通过OneCenter IT统一运维平台的全面部署,IT运行集中监控、IT运维流程服务、统一运维门户三者实现有效整合,不仅实现了国家核电统一管理的管理目标,充分保证了国家核电IT系统的可用性及可靠性,还可随国家核电业务系统的发展而扩展,为国家核电业务发展提供有力的IT支撑和保障。

在运维过程中,除了日常巡检,另外一个比较耗时的工作就是日常备份。在系统运行过程中,可能会出现一些不可抗拒的因素,比如地震、断电等导致设备损坏,或者人为的误操作导致系统不可用等,为了保证出现问题后快速恢复、确保数据完整和有效性,定期的备份就显得尤为重要。

○ Autoconfig适用于零配置部署,后续一般需要专门的网管系统;TR069是一套完整的管理方案,不仅在初始零配置时有用,后续还可以一直对设备进行监控和配置管理、软件升级等。

运维自动化平台ITAM系统内置WMI、Telnet、Ssh、Http等工具,通过编写Shell、Python、Bat脚本,通过可视化流程编排设计器,将运维操作和被管资源相结合,通过定时批量备份数据,减少人工工作量。

○ Autoconfig使用DHCP与TFTP--简单,TR069零配置使用DHCP与HTTP--复杂,需要专门的ACS服务器。

澳门新萄京官方网站 23

安全性:TR069更安全,可以基于HTTPS/SSL。

系统优化自动化

而H3C iMC BIMS实现了TR-069协议中的ACS(自动配置服务器)功能,通过TR-069协议对CPE设备进行远程管理,BIMS具有零配置的能力和优势,有灵活的组网能力,可管理DHCP设备和NAT后的私网设备。BIMS的工作流程如图7所示。

针对常规问题,如一些服务器本身负载较大,占用大量的资源导致系统长时间运行后非常缓慢,为了保障系统的正常运行,运维人员每天要做大量的重复工作导致工作效率极低,而且有时候由于自己的操作失误,导致关键数据丢失,带来不可估量的后果。自动化运维系统ITAM,通过内置Shell、Python、Bat脚本,以定时或者人工触发的方式,实现定时优化系统、故障自动化处理、批量配置系统、关键服务启停功能,构建企业自动化运维、从而提到运维效率,降低操作风险。

澳门新萄京官方网站 24

澳门新萄京官方网站 25

图7.H3C iMC BIMS工作流程

大批量配置自动化

3.管理智能化

运维人员在日常工作中,需要针对设备进行常规性配置,如创建用户、增加磁盘空间、安装程序补丁包等重复性工作。面对数以千计的设备,传统运维方式下,工程师需要逐个登陆系统进行配置,不但效率低下而且极容易出错。

对于网管团队而言,需要向其他团队提供便利的工具以进行信息查询、告警管理等操作。早期的网管工具,往往离不开命令行操作,且对于批量处理的操作支持性并不好,如网络设备的MIB库相比新的智能化技术Netconf,好比C和C ,显得笨拙许多。因此使用的角度考虑,图形化、智能化的管理工具,往往是比较受欢迎。

勤智自动化运维平台ITAM通过编写脚本,关联被管设备,定时批量执行,可大大提高运维效率,保障了执行的准确性。

智能化:使用新技术,提升传统MIB式管理方式的处理效率,引入嵌入式自动化架构,实现智能终端APP化管理(如图8所示)。

澳门新萄京官方网站 26

澳门新萄京官方网站 27

系统详细记录每台设备的作业执行操作过程,用户可通过WEB端动态查看作业执行过程、执行日志,以及执行结果等信息,让一切运维操作均有据可依、可查、可跟踪。

图8.消息、事件处理智能化

澳门新萄京官方网站 28

● Netconf技术

自动化运维场景化

目前网络管理协议主要是SNMP和Netconf。SNMP采用UDP,实现简单,技术成熟,但是在安全可靠性、管理操作效率、交互操作和复杂操作实现上还不能满足管理需求。Netconf采用XML作为配置数据和协议消息内容的数据编码方式,采用基于TCP的SSHv2进行传送,以RPC方式实现操作和控制。XML可以表达复杂、具有内在逻辑、模型化的管理对象,如端口、协议、业务以及之间的关系等,提高了操作效率和对象标准化;采用SSHv2传送方式,可靠性、安全性、交互性较好。二者主要对比差异如表1所示。

OneCenter自动化运维是将运维服务系统、服务流程系统、大数据分析平台、自动化管理系统进行有效结合,全面对数据中心资源设备进行监控,产生故障后自动派单进入ITSM系统进行故障处理,规范运维流程工作,再由ITBA对监控性能数据进行分析预判,掌握系统负载及性能数据,预测未来系统运行态势。根据预测结果,编写Shell、Python、Bat脚本。

澳门新萄京官方网站 29

通过定期执行脚本,优化系统性能、保障系统运行。

表1 网管技术的对比

通过流程节点触发,自动处理问题,彻底解放人工工作量。

● EAA嵌入式自动化架构

批量修改配置及增加配置信息,提高工作效率。

EAA自动化架构的执行包括如下三个步骤。

总结:

○ 定义感兴趣的事件源,事件源是系统中的软件或者硬件模块,如:特定的命令、日志、TRAP告警等。

自动化运维是一个大命题,随着互联网 、大数据、服务器虚拟化等技术的发展,网络设备与服务器的运维管理正在发生很大的变化。通过这几年对ITIL的实践,各行业都有了很多的经验。相信随着时间的推移和互联网化的发展,会有越来越多的企业在自动化运维方面有所创新。勤智运维也将结合最新的IT架构、虚拟化等技术,帮助用户一起实现更高效的自动化运维。

○ 定义EAA监控策略,比如保存设备配置、主备切换、重启进程等。

○ 当监控到定义的事件源发生后,触发执行EAA监控策略。

4.监控平台化

利用基本监控工具如Show、Display、SNMP、Syslog等,制作平台化监控集成环境,实现全方位监控(如图所示)。

本文由澳门新萄京官方网站发布于服务器运维,转载请注明出处:澳门新萄京官方网站:如何选择基于ITIL的管理工

关键词: