澳门新萄京官方网站-www.8455.com-澳门新萄京赌场网址

IT运维管理向智能运维的进化,AIOps智能运维

2019-06-22 作者:服务器运维   |   浏览(85)

AIOPS是什么,它的未来如何?,AIOPS未来

AIOps,也就是基于算法的IT运维(Algorithmic IT Operations),是由Gartner定义的新类别,源自业界之前所说的ITOA(IT Operations and Analytics)。我们已经到达了这样的一个时代,数据科学和算法正在被用于自动化传统的IT运维任务和流程。算法被集成到工具里,帮助企业进一步简化运维工作,把人类从耗时又容易出错的流程中解放出来。人们不再需要在遗留的管理系统中定义和管理无穷无尽的规则和过滤器。

在过去的几年间,一些新技术不断涌现,利用数据科学和机器学习来推进日益复杂的企业数字化进程,“AIOps”(Algorithmic IT Operations)因此应运而生。Gartner的报告宣称,到2020年,将近50%的企业将会在他们的业务和IT运维方面采用AIOps,远远高于今天的10%。

AIOps的不同之处在这里体现出来。AIOps的解决方案专注于解决问题,而且是通过使用基于算法的技术来高度模仿人类(而且以更快的速度和更大的规模)。算法的效率提升了AIOps的价值,而相对于人类的智慧——虽然是无限的,但不如机器来得高效。下面这个案例是基于机器学习的 KPI 自动化异常检测。

上图表示运维人员判断 KPI 曲线的异常并标注出来, 系统对标注的特征数据进行学习 。这是典型的监督式学习,需要高效的标注工具来节省运维人员的时间: 如可以拖拽,放大等方式。

借助智能算法的技术优势,原先人工需要几个小时完成的任务现在通过自动化可以在几秒钟内完成,而且能够得到更好的结果。传统的IT运维需要管理大量的告警,极大地分散了企业的注意力,他们需要花很多时间解决无聊的问题,没有时间用于创新。使用AIOps可以解决这些问题,把运维人员从纷繁复杂的告警和噪音中解脱出来。各个行业的企业正在采用AIOps,他们使用这项技术来改进客户的数字体验——银行、娱乐、交通、零售,甚至政府。

尽管AIOps还是一个新名词,但并不代表它只是未来的一种趋势而已。在这个数字的年代,任何使用传统技术来管理机器数据的组织要么忽略了信息的价值,要么已经让他们的运维团队不堪重负。随着数据的暴涨,CIO们应该快速拥抱AIOps。传统AI仍然会在某些领域发挥它的作用,而AIOps将为企业带来最直接最深远的价值。

澳门新萄京官方网站,转载自:

现如今,AI 这个词已经被玩坏了。很多公司都声称自己在做 AI,但其实并没有。不过有另外一种新兴的 AI,各种类型的 IT 企业倒是可以尝试,而且完全不需要人工参与。

AI人工智能技术近几年发展得如火如荼,而随着深度学习技术的成熟,AI也正在逐步从尖端技术慢慢变得普及,AI目前已经可以实现很多功能了,如语音识别、自然语言理解、数据挖掘、计算机视觉等。除此之外,现在又多了一个落地应用——这是一座尚未开采的金矿——AIOps。

2017-11-30擎创科技 孙QQ编

简介:随着机器学习、深度学习等人工智能技术在IT领域的广泛应用,AIOps智能运维将为数字化企业提供更高的管理效率和更低的运营成本。

AIOps,也就是基于算法的 IT 运维(Algorithmic IT Operations),是由 Gartner 定义的新类别,源自业界之前所说的 ITOA(IT Operations and Analytics)。我们已经到达了这样的一个时代,数据科学和算法正在被用于自动化传统的 IT 运维任务和流程。算法被集成到工具里,帮助企业进一步简化运维工作,把人类从耗时又容易出错的流程中解放出来。人们不再需要在遗留的管理系统中定义和管理无穷无尽的规则和过滤器。

2016年,Gartner定义了一个新名词——AIOps,即基于算法的IT运维(Algorithmic IT Operations),这可能和你的第一反应Artifical Intelligence Operations有所偏差,不过本质上意义是一样的。Algorithmic IT Operations源自业界之前所说的ITOA(IT Operations and Analytics),算法的效率提升了 AIOps 的价值,通过持续学习,智能运维将把运维人员从纷繁复杂的告警和噪音中解放出来,运维插上了机器学习和算法的虎翼,将变得更自动化、智能化。Gartner 的报告宣称,到 2020 年,将近 50% 的企业将会在他们的业务和 IT 运维方面采用 AIOps,远远高于今天的 10%。

*
*

在互联网和数字化成为全球经济增长新引擎的今天,企业管理和业务运行与IT系统健康息息相关,高效的IT管理能帮助企业在瞬息万变的市场竞争中获得快人一步的竞争优势。然而云计算、虚拟化和微服务技术的应用使得企业IT系统越来越庞大而复杂,要满足高性能的业务运行需求绝非易事。

在过去的几年间,一些新技术不断涌现,利用数据科学和机器学习来推进日益复杂的企业数字化进程,“AIOps”(Algorithmic IT Operations)因此应运而生。Gartner 的报告宣称,到 2020 年,将近 50% 的企业将会在他们的业务和 IT 运维方面采用 AIOps,远远高于今天的 10%。

澳门新萄京官方网站 1

当前互联网和移动互联网发展迅猛,从事各个行业的企业为了应对日趋激烈的市场竞争,纷纷进行了数字化转型,利用移动互联网技术、云计算及大数据等新兴信息技术发展企业的数字服务,从而吸引客户,帮助销售和推广产品,提升客户体验。

特别是为了提升用户访问体验而广泛采用的分布式应用系统和CDN资源,以及越来越复杂的网络接入环境,使得IT部门很难第一时间发现IT故障的发生。企业为了保障系统的高可用,降低故障率,往往会进一步扩大IT系统规模,于是业务增长越快、IT规模越大,IT管理的负担越重。

为了更好地理解 AIOps 和 AI 的区别,我们需要从头说起。

智能运维的必要性相信不必多言,如今的IT基础架构相比于前五年,前十年,规模和复杂度都呈倍数增长,服务数量更是呈指数增长,早期的运维方式已经无法负荷愈加沉重的工作量,而人工智能的发展给运维带来了契机,AIOPS应运而生。

然而,随之而来的是规模不断扩大的IT系统、日益复杂的系统架构,以及海量的IT运维数据,同时公司业务对IT系统的连续性要求也进一步提高。

澳门新萄京官方网站 2

AI 简史

IT 运维发展历程

面对这些新形势下的挑战,IT 运维管理(ITOM)需要从原有的人工加被动响应,转变为更高效、更智能化的运维体系,为新形势下的IT系统保驾护航。

在2016年,Gartner针对IT发展和运维管理的困境,提出了一种全新的运维管理方法,以减轻企业IT的负担,提升管理效率,这就是AIOps智能运维。AIOps是Algorithmic IT Operations的缩写,从字面上看是一种基于算法的运维方式,区别于传统的人工运维和自动化运维,通过基于运维大数据的机器学习,用智能决策逐步取代人工决策,提升IT管理效率,因此国内业务运维企业云智慧把AIOps称为智能运维。

AI 一词用于描述机器(或软件)模拟人类认知的过程。也就说,机器学习像人类一样思考。40 年代,Alan Turing 掀起了 AI 热潮,但受限于计算机的计算能力,也只发展到今天的这个阶段。

1. 人工运维时代

当前传统的 ITOM 工具往往缺乏分析能力,虽然也能采集到运维数据,但无法对这些数据所包含的信息进行洞察,更加无法将数据进行知识化的本质提升。研究机构Forrester 曾在之前的一份报告中指出:“这些工具为我们提供了大量的原始数据,但能洞察出埋在这些数据中的有价值信息的能力还是非常稀缺的。”(来源:Turn Big Data Inward With ITAnalytics)

AIOps的落地,将把日常的IT管理工作移交给拥有机器学习和自动化运维的智能运维平台,大大降低企业管理的时间成本和资金投入。而运维管理人员也可以从筛查海量告警信息、执行重复性巡检任务、人工判断故障、手动解决问题的低效工作中释放出来,专注于构建更加高效、高扩展的IT系统,支持企业的数字化业务发展,这也就是业界所倡导的“IT从运维到运营”之路。

问题是,我们为什么要让机器模仿人类?而为什么有些 AI 应用程序会比其他的更成功?发展 AI 的目的在于解决人类的问题,所以我们会看到像自动驾驶汽车、行为分析这类复杂的解决方案。

初期阶段IT基础设施通常处在小规模状态。几台至几十台机器的规模,足以满足业务需求。早期一般企业采用的都是人工运维,决策分析几乎完全由人工完成。

令IT运维团队感到欣慰的是,智能运维(AIOps)踏着人工智能的时代浪潮应运而生。

AIOps智能运维平台还能有效预测潜在的IT故障,并在无需人为干预的情况下提前解决掉这些问题,而应用系统故障率的降低,将有效提高云计算资源的使用效率。这得益于机器学习和深度学习算法在IT监控和应用性能管理系统中的持续积累,不断记录IT运维人员在不同场景下使用故障排除或修复基本问题的自动化工具的操作。当针对不同型号设备、不同应用系统、不同的云平台的学习样本数据足够丰富时,AIOps智能运维平台就可以自动评估系统的健康状态,如CPU使用率、磁盘吞吐率、设备故障率等,如果发现了系统的异常活动,就能提前自动触发相关运维操作。

话说回来,IT 运维环境有一些不一样的地方。我们不会直接管理人类,我们与应用程序和基础设施打交道。而且它们可能更加复杂和不可预测,因为它们不是人类。

2.自动化运维时代

Gartner在2016年发布的报告中首先提出了基于大数据及算法(Algorithmic IT Operations)的 IT运维概念。随着人工智能的快速兴起,Gartner 将 AIOps 的概念从原本的基于大数据及算法,扩充为基于人工智能(ArtificialIntelligencefor IT Operations,AIOps),期望通过大数据、现代机器学习及更多高级分析技术,提供具备主动性、人性化及动态可视化的能力,直接或间接地提升目前传统IT运维(监控、自动化、服务台)的能力。

企业采用AIOps的能力不仅取决于IT监控系统的数据规模和自动化系统的可用性,还取决于人员和流程的一致性。服务商可以在很短时间内把AIOps智能运维平台部署到企业,但任何管理转型都不是安装一套系统那么简单,需要根据业务特点对人员和流程进行调整,而这往往需要更多的时间。

人类思维与机器思维

随着云时代到来,IT基础设施迅速发展成几百上千台服务器,更多的业务系统上线,因此,各类孤岛式的运维管理工具也开始上线,提升运维效率。

AIOps 为IT运维提供了全新的管理思路。AIOps 的定义涵盖的两个阶段,可概括为两个层次的提升:数据到信息分析层次的提升;信息到知识提取层次的提升。

要衡量AIOps智能运维平台在企业中的实施效果,可以重点关注两项关键指标,平均故障恢复时间(MTTR)和事务(故障)处理数量,这两项指标反映到客户满意度上,就是AIOps的价值。

AIOps 的不同之处在这里体现出来。AIOps 的解决方案专注于解决问题,而且是通过使用基于算法的技术来高度模仿人类(而且以更快的速度和更大的规模)。算法的效率提升了 AIOps 的价值,而相对于人类的智慧——虽然是无限的,但不如机器来得高效。

3. DevOps时代

澳门新萄京官方网站 3

以机器学习、深度学习为代表的人工智能技术的成熟,为利用IT手段持续改善企业经营水平和服务质量铺平了道路。而AIOps以IT大数据为切入点,率先解决了所有数字化和互联网 转型企业所面临的业务与IT系统断层的问题。虽然大多数机器学习项目可能需要多年才能看到价值,但AIOps平台可以用最小的代价为企业运营带来卓越的投资回报。同时,这笔投资可以长期持续的提供业务价值和提升用户口碑。

当然,人类也能进行高效的 IT 运维。AIOps 的目的是为了让我们的生活变得更美好,但是当人类与 AIOps 参合在一起,它们之间的界限就会变得模糊。高级的 AIOps 会使用神经网络技术,它会向运维人员学习,然后尝试消除无聊的重复性劳动。

DevOps是一组过程、方法与系统的统称,企业希望将原本笨重的开发与运维之间的工作移交过程变得流畅无碍,便可借助DevOps来完成,DevOps的目标是流程的自动化——让代码完成过去手工的工作,从而大大节省成本。

从数据到信息的分析,更多的是采用数据统计方法,帮助运维相关人员更好地从众多运维数据中了解系统的运行状态,分析并定位故障,实时获取统计数据。而信息到知识的提升更多的是希望借助人工智能算法,在信息分析的基础上通过机器学习的方式实现异常状况检测、故障/趋势分析、故障关联和精准告警。

未来的公司

4. AIOps时代

根据权威机构Gartner的预测,比起现今5%这样的数据比例,到 2019 年,全球25%的公司都将系统性部署实施 AIOps 平台支持两个及以上的主要 IT 运维功能。到2022年,40% 的大型企业会通过大数据和机器学习的能力来帮助甚至逐渐取代传统运维中的监控、服务台及自动化流程。

为什么公司需要 AIOps?现代的 IT 环境已经无比的复杂,而且千变万化,需要我们花费大量的时间和资源去监控、去诊断问题、去解决问题。很多公司处于被动的地位。但是如果他们使用了 AIOps,他们就可以利用先进的算法,花更多时间在其他更有意义的工作上,而不是重复地解决相同的问题,或者花时间管理规则和过滤器。

AIOps智能运维,用机器学习方法做决策分析,算法的效率提升了 AIOps 的价值,通过持续学习,智能运维将把运维人员从纷繁复杂的告警和噪音中解放出来。

AIOps重新定义了IT运维的管理方式,为IT运维团队适时提供适当信息,以便实现以下几点。

我们所说的规则,可以把它们简单地描述为“如果是这样那么就这么做”,它们能够应付简单的场景,但是很难扩展。相反,算法和机器学习提供了更加灵活的表达方式,不仅强大,而且健壮,能够应付不断变化的需求。这将带来更高的效率和更低的成本。对于厂商来说,他们面临的挑战在于将整个技术方案打包,避免把用户暴露于底层的复杂性当中。光是提供工具是不够的,企业需要招聘数据科学家而不仅仅是工程师。

AIOps智能运维如何做好?

通过采集当前环境中的运维数据,集成现有IT运维管理工具,利用聚合数据分析的技术,对IT系统中各个环节的问题进行快速定位、故障排除和预测。

前行之路

清华计算机系副教授,智能运维算法专家裴丹教授为我们提出了如下见解。

对来自业务环节中各个分布系统的数据进行整体分析,合理优化IT服务,挖掘关键业务 KPI 指标,反哺业务端,帮助其做出明智决策。

借助智能算法的技术优势,原先人工需要几个小时完成的任务现在通过自动化可以在几秒钟内完成,而且能够得到更好的结果。传统的 IT 运维需要管理大量的告警,极大地分散了企业的注意力,他们需要花很多时间解决无聊的问题,没有时间用于创新。使用 AIOps 可以解决这些问题,把运维人员从纷繁复杂的告警和噪音中解脱出来。各个行业的企业正在采用 AIOps,他们使用这项技术来改进客户的数字体验——银行、娱乐、交通、零售,甚至政府。

机器学习本身有很多成熟的算法和系统,及其大量的优秀的开源工具。如何成功的将机器学习应用到运维之中?还需要以下三个方面的支持:

通过大数据和人工智能技术分析用户的行为日志和运维数据,发掘潜在的系统安全和合规问题,为企业的信息安全保驾护航。

尽管 AIOps 还是一个新名词,但并不代表它只是未来的一种趋势而已。在这个数字的年代,任何使用传统技术来管理机器数据的组织要么忽略了信息的价值,要么已经让他们的运维团队不堪重负。随着数据的暴涨,CIO 们应该快速拥抱 AIOps。传统 AI 仍然会在某些领域发挥它的作用,而 AIOps 将为企业带来最直接最深远的价值。

1.    数据。互联网应用本身具有海量的日志。需要做优化存储。 数据不够还需要自主生成。

澳门新萄京官方网站 4

2.    标注的数据。日常运维工作会产生标注的数据。 比如出了一次事件后,运维工程师会记录下过程, 这个过程会反馈到系统之中, 反过来提升运维水平。

那么AIOps究竟在IT运维中有哪有典型的应用场景呢?常见的场景大致如下。

3.    应用。运维工程师是智能运维系统的用户。用户使用过程发现的问题可以对智能系统的优化起正向反馈作用。

全局日志检索

IT运维管理向智能运维的进化,AIOps智能运维。AIOps落地谁家?

以一个典型金融行业为例,他们有上百个业务系统,面对每天产生的大量日志数据(几TB),日常运维过程中,当运维人员需要排错或日志巡检时,需要逐台登录服务器, 无法集中查看和管理日志数据;另外,日志查询方式比较原始, 比如 Windows 服务器,手动查看Event Log, Linux服务器则只能通过less、grep和awk等常见的Linux指令,无法从时间段、关键字、字段值统计等方面进行多维度查询。

Google | 数据中心人工智能模型

AIOps平台通过收集各类数据源(包括操作系统、系统软件、数据库、应用日志等),统一进行管理。不同于以往每次仅可查看数量有限的几种日志,运维人员可通过智能运维平台所提供的关键字、统计函数、单条件、多条件、模糊查找等功能,在多个系统中快速定位故障信息,帮助运维人员从全局视角查看系统的运维数据信息。

早在2014年,人工智能就在IT运维领域有所应用,在Google,人工智能是提高各个大型数据中心效率的重要工具。

复杂多维报表,应用深度监控

Google使用“类神经网络”技术分析其众多数据中心的工作情况,并根据所得数据进行维护。这个“类神经网络”的核心部分其实是一些算法,可以识别模型(patterns),并根据相应模型做出判断,即Google使用这些算法管理数据中心。它们无法超越人脑,但在某些情况下却更快,更全面。

AIOps将各系统的运维数据进行统计分析并生成各类实时报表,对各类运维数据(如应用日志、交易日志、系统日志)进行多维度、多角度深入分析及可视化展现,以业务视角实时展示各种业务指标,具体如下。

从具体来看,每隔几秒,Google就会收集数据中心所有的处理信息,从设备耗能多少,到硬件冷却到室温需要多少水无一不包括。Google数据中心青年工程师Jim Gao就是使用这些数据构造人工智能模型,在不同条件下预测数据中心效率。如果数据中心的效率低于模型预测,公司就会收到相关信息。这个模型,同样可以帮助Google决定何时管理数据中心的设备,比如何时清理热交换器,提高设备冷却性能。这样一来,这个模型具有辨别功能,解放了Google的工程师们,也大大提高数据中心的运维效率。

快速发现故障,精准告警

百度 | 基于日志 trace 的智能故障定位系统

实时采集各类运维数据(日志、监控系统告警、性能数据等),通过对历史数据的挖掘和分析,AIOps 可以找出哪些告警和事件是频繁一起出现的,并将其认看作同一类故障的告警,从而把多个告警和指标合并,推送给运维人员,做到精细化告警,避免传统监控工具因一故障而导致的告警风暴,生产告警噪音。

结合机器学习技术的进步,百度实现了一套基于日志 trace 的智能故障定位系统及其背后的一套技术方案,最终能够实现 WQPS/sec 的 PV 根因定位能力,并能够根据根因做统计上的多维度汇聚,该系统应用于百度核心搜索系统,极大的提升了重大异常问题定位效率。

缩短故障解决时间

阿里 | 机器学习在大规模服务器治理复杂场景的实践

通过运维数据可视化(复杂多维报表,热力图)及精细化告警信息,结合以前发现问题的经验知识库和模型,从而将运维信息从平面变为立体,立体展现故障树分析,通过推导路径使运维人员对于问题的定位更加快速、直观,使得问题的解决更加容易。

我们今天面临的问题,云、支付和交易的程序通过虚拟化打散在百万级的服务器上, 面对如此庞大的基础设施, 传统的运维方法受到了极大地挑战。海量告警无法及时处理、脏数据影响定位、批量问题如何提炼。

预测未来

IT运维管理向智能运维的进化,AIOps智能运维。在无高质量样本的情况下,通过关联分析和异常检测算法,构建算法闭环。自动迭代,让批量问题的预测精度不断提高。打通故障定位和装机系统,提供从发现 ->定位 ->跟踪 ->修复的一站式解决方案。

进行数据挖掘,生成分析类报表,进行趋势/容量/故障预测。例如,某些故障之间有时间上的先后关系,交换页不足、内存不足会逐渐导致系统故障或应用故障,该系统建立关联模型,发现前者故障,提醒用户可能后继可能发生系统故障或应用故障。在故障产生真正业务影响前,告知运维人员事先解决问题。

各个行业的企业正在采用AIOps——银行、娱乐、交通、零售,甚至政府。从运维的发展角度看, AIOps 是必然趋势,将为企业带来最直接最深远的价值。

IT辅助决策支持

通过采集海量多维度数据,构建多元结构化底层数据仓库,以搭积木的方式适配各类运维场景,并在场景里刻画系统和人员画像,通过画像形式来辅助企业进行IT 决策。

澳门新萄京官方网站 5

AIOps与现有ITOM平台的关系具体如何呢?传统IT运维管理平台,即 ITOM 平台,往往是为完成单一管理任务而设计的,更偏向于管理某一细分专业领域。

监控系统:负责IT系统的健康及可用性管理

IT服务管理平台:负责配置管理,资产管理,事件/问题/变更等服务流程管理

SOC平台:专注于信息安全管理

APM平台:应用逻辑拓扑管理,应用故障诊断等

而AIOps平台则构建在传统ITOM平台的上层,把ITOM作为分析的源头,通过接口集成将各个 ITOM平台组件中的孤立运维数据进行汇总,使其突破数据孤岛的壁垒,其次借助自身的关联分析、机器学习、数据建模、全局搜索能力,帮助企业从IT系统的行为、状态、配置、故障和事件中等多个维度,产生趋势预判、快速故障定位和商业洞察等价值。

澳门新萄京官方网站 6

在信息架构与应用系统日渐庞大的今天,如果再通过人工分析定位的运维方式,很难适应目前日益快速增长的业务需求。规模不断扩大的 IT 系统、日益复杂的系统架构,以及海量的 IT 运维数据对使用传统ITOM的运维人员而言都如芒在背。因此,我们有理由相信AIOps能够帮助企业及各类运维人员在大数据中找到合适的发展模式。现在是时候用一些类似人工智能的思维方式来为IT产业服务,使大数据的分析方向转到IT运维上了。

本文由澳门新萄京官方网站发布于服务器运维,转载请注明出处:IT运维管理向智能运维的进化,AIOps智能运维

关键词: