澳门新萄京官方网站-www.8455.com-澳门新萄京赌场网址

澳门新萄京官方网站平常技术员如何摆脱重复劳

2019-07-07 作者:服务器运维   |   浏览(194)

80%时间在灭火,普通工程师如何摆脱重复劳动?,80%灭火

阿里妹导读:自从无人化运维离我们有多远?阿里智能化运帷平台深度揭秘文章发布以来,就引来了众多运维从业者的关注,大家不禁思考,无人化运维离我们有多远?我们如何成为运维领域的专家,不被淘汰?阿里巴巴运维中台技术专家宋意,整合了阿里云效2.0运维产品StarOps,与你分享如何利用工具把人从日常重复工作中解脱出来,向专业垂直领域纵深发展,逐步成长为领域专家。

从传统运维OD分离转型到新型运维DevOps,不是简单把运维丢给开发就可以了,需要先把运维的工作工具化,实现开发可以利用工具自助完成,DevOps强依赖运维工具的支持。工具的落地也不是一蹴而就的,需要结合企业实际情况逐步建设,第一步先完成标准化,如Java类应用一套标准、PHP类应用一套标准,标准化之后才能使用工具自动化,智能化的核心是数据,自动化沉淀了数据才能做智能化,三步需要逐一实现。

StarOps

云效2.0涵盖项目协作域、研发域、测试域、运维域,为企业提供一站式研发协同服务。其中运维域由StarOps负责。StarOps定位一站式运维平台,资源、配置、部署、监控、运行,覆盖应用运维完整生命周期,具备基于混合云的应用运维无人值守解决方案以及自动化、数据化、智能化应用运维解决方案。阿里在运维领域沉淀多年的专家经验和能力全部集成于此,目标是通过平台使用户直接拥有运维专家的能力。

产品体系由八部分构成:CMDB、发布、监控、堡垒机、主机运维、故障管理、运维大屏、运维通道。不管公有云、专有云还是两者的混合云,通过运维通道屏蔽底层环境差异,实现上层应用运维统一管控。

运维通道

运维管控通道是服务器自动化运维的基础,所有操作最终都需要落地到服务器上执行,可以细分为三块:

  1. 命令通道:向服务器下发命令并执行,如ssh $ip $cmd
  2. 文件通道:把文件分发到服务器上,如scp/rsync/wget
    3. 数据通道:解决数据上行问题,如在脚本或命令执行完成后回调一个地址上报结果。

在服务器规模较小时,用上面提到的方法一般可以满足需求,不过随着规模的增涨,对安全、效率、稳定都会提出更严格的要求。用SSH通道时需要打通一台机器到所有服务器的认证,如果这台机器被黑客拿下向所有机器下发rm -rf,后果可想而知。

阿里自研的运维通道支持百万级规模服务器管控,支持二层/三层架构与容灾部署,1分钟可以操作50万台服务器,在内部每天有上亿次的调用,安全方面全链路加密签名、支持账号级别的命令映射,Agent经过淘宝、天猫、支付宝、阿里云等阿里生产环境业务真实验证,稳定性、安全性可以得到有效保证。运维通道与CMDB可以形成联动,实现数据的自动采集,保证CMDB数据的准确性与一致性。

CMDB

CMDB是运维的元数据中心,拥有绝对权威性,一个公司只能有一份。保存的数据有两个特点:被大部分运维场景依赖、相对静态一次维护多次消费,在阿里内部实践中数据归为两大类:

第一类:资源信息

传统资源有服务器、网络设备、IP段等,每种资源又有很多属性,如服务器的属性:SN、IP、主机名、OS、机房、机架、CPU、内存等,对于一台物理机而言SN、CPU、内存基本是永远不变的,OS可以随时重装,搬迁后机房信息也会变掉。使用云后资源类型又有OSS、RDS、SLB等,云资源的生产、销毁等管理操作也会集成进来。属性的变更应当通过外部系统或流程自动化触发,如OS信息应由装机系统维护更新、机房信息只能通过搬迁流程修改。

第二类:业务拓扑

也叫产品线,体现的是业务组织方式,例:BU/事业部->业务架构域->产品->应用,可以一级也可以多级,根据业务规模灵活调整。应用也有非常多的属性,像状态、等级、owner、开发负责人、运维负责人、代码库、开发语言等。多级时最上级一般与组织架构对应,增加子节点需要上一级审批。

CMDB保存着完整的资源与业务拓扑信息,通过资源与业务的关系,可以清晰了解各个业务使用的资源信息,资源属性信息再开放到其它系统消费,当拥有完善的基础信息后,基于场景的运维将会非常方便,例:

  1. 把服务器监控项配置在产品或应用上,新增服务器将默认拥有监控。
  2. 通过业务拓扑中的应用开发负责人判断谁有权限进行发布。
  3. 服务器默认为运维负责人授权,其它人登录需要运维审批。

发布

互联网时代产品迭代速度直接决定产品竞争力,最近有机会接触一些传统企业,运维几乎都是贴身为开发服务,发布按开发写好的文档一步一步操作,只是作为操作工毫无价值与成就感可言。

几年前在支付宝的时候发布也很痛苦,发布窗口提前几个月规划好,基本一个月一次,发布日当天一大早到公司,确认系统owner到位后开始发布,每个应用做完beta发布都要群里吼声,由owner确认后才能继续发,最怕发到一半出意外回滚,因为应用之间有先后依赖回滚就是整个链路,从早发到晚是常态,真心体力活。

从一月一次到一周一次,再到现在几乎开发随时想发就发(核心系统还是要控制发布节奏),发布系统与业务系统一起持续完善优化才有的今天,随时可以发使得业务需求可以快速上线,线上缺陷能够得到及时修复,有效提升交付效率。

发布模式有很多,如蓝绿发布、滚动发布、灰度发布等,这里不再对名词做解释,采用哪种模式与公司实际情况有直接关系,但不管哪种模式背后解决的问题都是不要出故障,即使有也要将影响控制在最小。

目前大部分发布工具解决的是把应用包发到线上的问题,不要出故障基本靠人为登机器查日志或者看监控。不过人工检查难免会遗漏,或者有时候过于自信觉得改动小肯定不会有问题,最终可能还是产生了故障。所以我们目前正在做无人值守发布。当一台机器发布完成后自动关联分析监控数据,包括基础监控(cpu/mem/load)、应用监控(jvm)、中间件监控、业务监控,如果检测到明显异常则直接拦截停止发布,在监控项足够完善、数据足够准确情况下无人值守发布完全可以做到人工零介入,提交代码自动测试、自动发布,相信这一天很快就会到来。

阿里的发布系统在内部能够支撑日均10万发布量,可灵活定义发布流程满足个性化部署需求, java、nodejs、python、php等多种技术栈的自动化发布我们都能够支持,通过无人值守、发布自愈等智能化发布部署能力保证代码变更安全,有效降低线上故障。

监控

监控作为线上运行的“眼睛”,能帮助业务快速发现问题、定位问题、分析问题、解决问题,为线上系统可用率提供有力保障,通过利用率数据的分析,帮助业务精准控制运维成本。

支付宝在2010年监控采用的开源软件nagios cacti,随着业务的不断扩张服务器越来越多,监控项调度延迟越来越严重,调高检测频率、换最高配物理机、把多台nagios组成集群、对nagios深度调优等还是无法支撑业务的发展,加上开源软件对应用以及业务监控的缺失,所以最后不得不走上自研的道路。

阿里的监控规模早已达到千万量级的监控项,PB级的监控数据,亿级的报警通知,基于数据挖掘、机器学习等技术的智能化监控将会越来越重要。监控系统是一整套海量日志实时分析解决方案,以日志、REST 接口、Shell 脚本等作为数据采集来源,提供设备、应用、业务等各种视角的监控能力,利用文件传输、流式计算、分布式文件存储、数据可视化、数据建模等技术,提供实时、智能、可定制、多视角、全方位的监控体系。主要优势:

1. 全方位实时监控:提供设备、应用、业务等各种视角的监控能力,关键指标秒级、普通指标分钟级,高可靠、高时效、低延迟。
2. 灵活的报警规则:可根据业务特征、时间段、重要程度等维度设置报警规则,实现不误报、不漏报。

  1. 管理简单:分钟级万台设备的监控部署能力,故障自动恢复,集群可伸缩。
    4. 自定义便捷配置:丰富的自定义产品配置功能,便捷、高效的完成产品配置、报警配置。
  2. 可视化:丰富的可视化 Dashboard,帮助您定制个性化的监控大盘。
    6. 低资源占用:在完成大量监控数据可靠传输的同时,保证对宿主机的CPU、内存等资源极低占用率。

主机运维

服务器单机操作、批量操作、系统配置的管理,我们把服务器日常运维操作全部集中在此,功能包括:

1. WEB终端:独创WEB终端可嵌入任何Portal,多种安全加密机制实现免SSH一键登录服务器,提升日常运维效率。
2. 文件分发:月均10亿次分发量,服务稳定性99.9999%;具备断点续传、动态压缩、智能IO流控等超强能力;同时在容器镜像层级预热,超大文件分发,窄带、跨洋、远距离传输方面具备世界级竞争力。
3. 定时任务:最小粒度支持秒级且支持随机,避免同一时间集中执行影响业务。支持按集群配置定时任务,新扩容服务器默认自动添加。
4. 插件平台:统一管控服务器的通用运维脚本及Agent,支持自动安装、自动升级、进程守护。

堡垒机

堡垒机是进入生产环境的第一道屏障,阿里自主研发的专业级堡垒机系统,实现了集中访问控制、多因子验证、边界管控、操作实时记录、过程录屏、容灾容错、高危审计、命令阻断等功能,实现对人员操作过程的全面跟踪、控制、记录、回放;符合安全审计,合规,政审,认证等要求,广泛应用于阿里集团各业务生产管理(含阿里云、蚂蚁金服)。产品特点:

1. 专业级堡垒机,满足访问集中管控,运维操作命令记录、过程录屏,高危命令识别与拦截阻断等,满足对于生产网用户操作行为监测与审计需求。
2. 软件部署简单灵活,无硬件依赖,达5000人同时在线高承载,超强合规保障,符合美国上市企业SOX404审计要求和ISO27001信息安全认证要求。

故障管理

IT变更与事件管理,与运维平台天然打通,监控异常事件可一键转工单跟进,主要功能:

1. 事件:支撑客户、内部反馈线上业务异常,技术支持跟踪、处理、解决的流程支持和管理。

  1. 故障:线上故障进行记录、通报,并记录review内容及改进措施。
  2. 问题:故障Action或需要长期解决的问题跟踪,可以与评审流程联动。

运维大屏

综合CMDB、监控等数据,为企业提供定制可视化大屏服务,以大屏的方式在指挥中心展示业务运行状态,辅助指挥决策,大屏也是运维自动化效果展示的最佳窗口。

点击文末“阅读原文”,可了解更多“云效”信息。在日常工作中,你有哪些工具或方法,可减少重复劳动、提升效率?欢迎在留言区一起交流~

你可能还喜欢

点击下方图片即可阅读

阿里工程师的买房装修记

双11备战核武器:全链路压测

阿里又开源了一项自研核心技术!

关注「阿里技术」

把握前沿技术脉搏

摘要:DevOps 的概念提出接近10年了,提升协作效率,降低开发成本,更稳健可持续的业务运营是DevOps的主旋律。阿里巴巴是如何开展DevOps的? 阿里集团基础架构事业群运维中台负责人如柏,在2017杭州云栖大会上,详细介绍了阿里运维体系的演进和在智能化运维方面的工作,希望能给大家带来一些启发和借鉴。

摘要:“能用机器做的就不要让人去做,自动化一切可以自动化的。”

DevOps 的概念提出接近10年了,提升协作效率,降低开发成本,更稳健可持续的业务运营是DevOps的主旋律。阿里巴巴是如何开展DevOps的? 阿里集团基础架构事业群运维中台负责人如柏,在2017杭州云栖大会上,详细介绍了阿里运维体系的演进和在智能化运维方面的工作,希望能给大家带来一些启发和借鉴。

CMDB和运维自动化

IT运维,指的是对已经搭建好的网络,软件,硬件进行维护。运维领域也是细分的,有硬件运维和软件运维

硬件运维主要包括对基础设施的运维,比如机房的设备,主机的硬盘,内存这些物理设备的维护

软件运维主要包括系统运维和应用运维,系统运维主要包括对OS,数据库,中间件的监控和维护,这些系统介于设备和应用之间,应用运维主要是对线上业务系统的运维

这里讨论的主要是软件运维的自动化,包括系统运维和应用运维的自动化

为什么需要运维自动化,运维自动化需要哪些工具,CMDB在运维自动化中的作用是怎样的呢 ?

DevOps 的概念提出接近10年了,提升协作效率,降低开发成本,更稳健可持续的业务运营是DevOps的主旋律。阿里巴巴是如何开展DevOps的? 阿里集团基础架构事业群运维中台负责人如柏,在2017杭州云栖大会上,详细介绍了阿里运维体系的演进和在智能化运维方面的工作,希望能给大家带来一些启发和借鉴。

导读:DevOps 的概念提出接近10年了,提升协作效率,降低开发成本,更稳健可持续的业务运营是DevOps的主旋律。根据2016年DevOps调查报告显示,一个低效的IT组织跟一个高效的IT组织相比,差距可能是200倍,换句话说低效组织发布一个功能,高效组织可能已经发布了200个功能;故障恢复的效率差距可能是几十倍,低效组织花费几个小时恢复的故障,高效组织可能几分钟就搞定了。

一. 传统运维痛点

先来看一下传统运维的痛点

澳门新萄京官方网站 1

在日益激烈的商业竞争环境下,这么低效的IT组织注定在商业上也是要失败的。因为现在是快鱼吃慢鱼的时代。去年Gartner又提出了AIOps的概念,就是用基于算法来提升运维效率,国内很多公司在各个运维的场景都有了不同程度的应用。

阿里巴巴是怎么看运维的?

1.1 日常工作繁琐

日常运维工作是比较繁琐的,研发同学会经常需要到服务器上查日志,重启应用,或者是说今天上线某个产品,需要部署下环境。这些琐事是传统运维的大部分工作

阿里巴巴是怎么看运维的?

阿里巴巴对DevOps和AIOps有自己的理解和实践,外界也比较关注拥有众多业务的庞大组织,是如何开展DevOps的? 带着这些问题,阿里集团基础架构事业群运维中台负责人如柏,在2017杭州云栖大会企业高效研发实践专场上,详细介绍了阿里运维体系的演进和在智能化运维方面的工作,希望能给大家带来一些启发和借鉴。

阿里大致也是经历了这么几个阶段:从最开始的人肉运维, 到简单的工具、自动化, 到系统化和平台的过程, 自动化到一定程度后,开始探索智能化,无人化运维这些领域, 并在阿里的多个运维系统里有所沉淀。

1.2 应用运行环境不统一

在部署某应用后,应用不能访问,就会听到开发人员说,在我的环境运行很好的,怎么部署到测试环境后,就不能用了,因为各类环境的类库不统一

还有一种极端情况,运维人员习惯不同,可能凭自己的习惯来安装部署软件,每种服务器上运行软件的目录不统一

阿里大致也是经历了这么几个阶段:从最开始的人肉运维, 到简单的工具、自动化, 到系统化和平台的过程, 自动化到一定程度后,开始探索智能化,无人化运维这些领域, 并在阿里的多个运维系统里有所沉淀。

嘉宾简介

在这个演进过程中,我们始终秉承一种原则, 能用机器去做的就不要让人去做,自动化一切可以自动化的。很多简单重复的日常运维操作,开始由研发通过运维平台来完成。

1.3 运维及部署效率低下

想想运维人员需要登陆到服务器上执行命令,部署程序,不仅效率很低,并且非常容易出现人为的错误,一旦手工出错,追溯问题将会非常不容易

在这个演进过程中,我们始终秉承一种原则, 能用机器去做的就不要让人去做,自动化一切可以自动化的。很多简单重复的日常运维操作,开始由研发通过运维平台来完成。

毛茂德(花名:如柏):阿里集团基础架构事业群运维中台负责人。主要负责 IDC 建设、网络建设、基础数据库运维、大数据运维,研发协同等事项,并主导设计构建高可靠、高并发、大规模的基础运维平台和应用运维平台。十余年来坚持不懈的追求研发、测试、运维效率提升,推动DevOps实施落地。现在正致力于打造基于混合云的应用运维无人值守解决方案,以及自动化、数据化、智能化应用运维解决方案。

1.4 无用报警信息过多

经常会收到很多报警信息,多数是无用的报警信息,造成运维人员经常屏蔽报警信

另外如果应用的访问速度出了问题,总是需要从系统、网络、应用、数据库等一步步的查找原因

澳门新萄京官方网站 2

阿里巴巴是怎么看运维的?

上图是阿里对运维领域的大致分层。每个层都会有不同平台/系统来承载,运维团队整体上会帮助业务团队搞定资源,实现高可用的架构,资源成本优化等问题。有了资源,业务就可以部署代码,对外提供服务, 代码上线后会有各种运行时的变更操作, 当然也会有横向的运维操作, 比如操作系统更新,网络升级,DNS,IP等等变更操作。监控也是分层的,横向的有服务器的监控,网络监控, IDC监控, 纵向来看, 有面向业务的监控,确保系统的各种异常能被检测到,并及时提供多种途径的报警。当业务真的发生故障时,我们也有系统需要能及时的恢复故障,定位故障,甚至能故障自愈,故障预测等。

1.5 资产管理和应用管理混乱

资产管理,服务管理经常记录在excel、文本文件或者wiki中,不便于管理,老员工因为比较熟,不注重这些文档的维护,只有靠每次有新员工入职时,资产才能够更正一次

上图是阿里对运维领域的大致分层。每个层都会有不同平台/系统来承载,运维团队整体上会帮助业务团队搞定资源,实现高可用的架构,资源成本优化等问题。有了资源,业务就可以部署代码,对外提供服务, 代码上线后会有各种运行时的变更操作, 当然也会有横向的运维操作, 比如操作系统更新,网络升级,DNS,IP等等变更操作。监控也是分层的,横向的有服务器的监控,网络监控, IDC监控, 纵向来看, 有面向业务的监控,确保系统的各种异常能被检测到,并及时提供多种途径的报警。当业务真的发生故障时,我们也有系统需要能及时的恢复故障,定位故障,甚至能故障自愈,故障预测等。

阿里大致也是经历了这么几个阶段:从最开始的人肉运维, 到简单的工具、自动化, 到系统化和平台的过程, 自动化到一定程度后,开始探索智能化,无人化运维这些领域, 并在阿里的多个运维系统里有所沉淀。

针对双11这样的大型活动,我们会做大规模全链路的压测模拟,来发现各种系统异常,为大促做好充分准备。我们也有定期的故障演练系统,来不断提升故障恢复速度。横向,纵向之外,我们还有规模化的运维,这个在大促和业务快速扩张时非常有用。

二. 自动化运维平台应该有哪些特性

针对传统运维的痛点,我们可以知道自动化运维需要支持哪些功能

针对双11这样的大型活动,我们会做大规模全链路的压测模拟,来发现各种系统异常,为大促做好充分准备。我们也有定期的故障演练系统,来不断提升故障恢复速度。横向,纵向之外,我们还有规模化的运维,这个在大促和业务快速扩张时非常有用。

在这个演进过程中,我们始终秉承一种原则, 能用机器去做的就不要让人去做,自动化一切可以自动化的。很多简单重复的日常运维操作,开始由研发通过运维平台来完成。

运维是很大的一个概念,里面有很多专业,这5个能力层次每一层就有很多产品组成。从云效2.0-智能化运维平台(以下简称:StarOps)产品的角度来看, 我们可以划分为两个平台,基础运维平台和应用运维平台。基础运维平台是统一的,在阿里有且只有一个,内部叫StarAgent。但是应用类型比较多,每个业务都有特殊性,所以允许除了通用的“应用运维平台”外,有多个面向业务的特色的“应用运维平台”,但也都是构建在通用的“应用运维平台”之上,内部叫Normandy。

2.1 标准化一切

运维自动化最重要的就是标准化一切

  1. OS的选择统一化,同一个项目使用同样的OS系统部署其所需要的各类软件
  2. 软件安装标准化,例如JAVA虚拟机,php,nginx,mysql等各类应用需要的软件版本,安装目录,数据存放目录,
    日志存放目录等
  3. 应用包目录统一标准化,及应用命名标准化
  4. 启动脚本统一目录和名字,需要变化的部分通过参数传递
  5. 配置文件标准化,需要变化的部分通过参数传递
  6. 日志输出,日志目录,日志名字标准化
  7. 应用生成的数据要实现统一的目录存放
  8. 主机/虚拟机命名标准化,虚拟机管理使用标准化模板
  9. 使用docker比较容易实现软件运行环境的标准化

运维是很大的一个概念,里面有很多专业,这5个能力层次每一层就有很多产品组成。从云效2.0-智能化运维平台(以下简称:StarOps)产品的角度来看, 我们可以划分为两个平台,基础运维平台和应用运维平台。基础运维平台是统一的,在阿里有且只有一个,内部叫StarAgent。但是应用类型比较多,每个业务都有特殊性,所以允许除了通用的“应用运维平台”外,有多个面向业务的特色的“应用运维平台”,但也都是构建在通用的“应用运维平台”之上,内部叫Normandy。

阿里巴巴运维能力分层图

2.2 资产管理系统(CMDB)

CMDB是所有运维工具的数据基础

如果用开源工具(openstack,jenkins,ansible,saltstack,zabbix)来搭建自动化运维平台,如何将各个工具之间的数据统一起来就非常重要,如果这些工具的数据不统一记录,那么意味着每增加一台服务器,需要将这个服务器的数据在所有的工具系统中增加一遍,那么这些数据的统一就需要CMDB,那么如何获取和更新CMDB中的数据呢,API无疑是一种非常好的方法

另外现在越来越多的公司选择将自己的服务器迁移到云上,云其实就是虚拟化的一种高级应用,这些公有云(阿里云,腾讯云,aws等)、私有云(openstack,Vmware等)都拥有比较完备的资源管理的API,这些API也就是构建一个云服务器的CMDB的基础。自动化运维平台可以基于这些云平台的API来管理和维护服务器、存储、网络、负载均衡等资源。

通过API对资源的操作需要日志记录,以备后续操作审计。

澳门新萄京官方网站 3

上图是阿里对运维领域的大致分层。每个层都会有不同平台/系统来承载,运维团队整体上会帮助业务团队搞定资源,实现高可用的架构,资源成本优化等问题。有了资源,业务就可以部署代码,对外提供服务, 代码上线后会有各种运行时的变更操作, 当然也会有横向的运维操作, 比如操作系统更新,网络升级,DNS,IP等等变更操作。监控也是分层的,横向的有服务器的监控,网络监控, IDC监控, 纵向来看, 有面向业务的监控,确保系统的各种异常能被检测到,并及时提供多种途径的报警。当业务真的发生故障时,我们也有系统需要能及时的恢复故障,定位故障,甚至能故障自愈,故障预测等。

StarOps当然不会包含所有的运维能力。但对于互联网企业或者传统企业 互联网的场景,大部分公司需要的是运维能力,StarOps会全部包含,主要集中在基础运维能力(服务器管理)到应用运维能力(PaaS平台)上。而且可以根据用户自身的需求来自定义选择。两个平台本身也具备扩展能力,可以根据我们的SDK来扩展企业自身的业务特色。

2.3 集中化批量运维工具

当你维护的服务器从几台,到几十台,再到几百台,集中化运维就势在必行了。现在有不少开源的集中化批量运维工具,比如puppet、chef、ansible、saltstack。

我们主要使用ansible和saltstack,这两个系统都是python写的,而且现在大多数运维人员都有一定的python开发能力,这两个工具提供的API或者SDK来来实现更为复杂的功能

StarOps当然不会包含所有的运维能力。但对于互联网企业或者传统企业 互联网的场景,大部分公司需要的是运维能力,StarOps会全部包含,主要集中在基础运维能力(服务器管理)到应用运维能力(PaaS平台)上。而且可以根据用户自身的需求来自定义选择。两个平台本身也具备扩展能力,可以根据我们的SDK来扩展企业自身的业务特色。

针对双11这样的大型活动,我们会做大规模全链路的压测模拟,来发现各种系统异常,为大促做好充分准备。我们也有定期的故障演练系统,来不断提升故障恢复速度。横向,纵向之外,我们还有规模化的运维,这个在大促和业务快速扩张时非常有用。

除了运维平台本身外,还包含软性的一些运维规范,故障治理的原则等。另外,我们在智能化运维方面已经有了实践, 通过算法平台融入到了两个平台的能力上。在界面上,我们提供Web, API,命令行工具,手机客户端,甚至提供大屏产品。

2.4 持续集成和部署工具

集成和部署工具,一般用jenkins的比较多,把打好的包发布至各台服务器,可以通过批量运维工具或者自定义脚本,软件应用从立项开始就需要定义好业务线,项目等,如果某个项目对,服务器的资源需求增多,只需要在对应的项目集群中增加对应的资源,这些需要和CMDB联系起来

软件发布包括文件的上传、分发、版本管理、回滚等各种操作,推荐使用SVN或者GIT对打包好的文件进行管理,然后通过脚本在各台服务器上进行发布操作,利用SVN或GIt来完成文件的上传、分发、版本管理、回滚等各种操作,这些操作对需要进行日志记录,需要在记录中来确保

另外使用docker镜像来进行持续交付会更加高效,因为docker镜像可以轻松解决环境依赖的问题

除了运维平台本身外,还包含软性的一些运维规范,故障治理的原则等。另外,我们在智能化运维方面已经有了实践, 通过算法平台融入到了两个平台的能力上。在界面上,我们提供Web, API,命令行工具,手机客户端,甚至提供大屏产品。

运维是很大的一个概念,里面有很多专业,这5个能力层次每一层就有很多产品组成。从云效2.0-智能化运维平台(以下简称:StarOps)产品的角度来看, 我们可以划分为两个平台,基础运维平台和应用运维平台。基础运维平台是统一的,在阿里有且只有一个,内部叫StarAgent。但是应用类型比较多,每个业务都有特殊性,所以允许除了通用的“应用运维平台”外,有多个面向业务的特色的“应用运维平台”,但也都是构建在通用的“应用运维平台”之上,内部叫Normandy。

基础运维平台

2.5 监控及应用性能分析工具

资源性能监控和应用性能监控,有很多重叠的地方,如CPU或者内存的使用率增高往往和应用的性能有关

常使用开源资源监控系统有Zabbix、Nagios,OpenFalcon,这些软件主要是服务器的资源性能监控(例如CPU,磁盘、网络、内存等)和服务软件的性能监控(例如JAVA虚拟机,中间件,数据库等)

APM关注于对应用程序内部及应用程序之间调用的性能分析,比如能精确定位到某应用的URL的访问速度快慢,SQL执行速度的快慢,这可以帮助开发和运维人员定位程序的应用性能瓶颈

基础运维平台

StarOps当然不会包含所有的运维能力。但对于互联网企业或者传统企业 互联网的场景,大部分公司需要的是运维能力,StarOps会全部包含,主要集中在基础运维能力(服务器管理)到应用运维能力(PaaS平台)上。而且可以根据用户自身的需求来自定义选择。两个平台本身也具备扩展能力,可以根据我们的SDK来扩展企业自身的业务特色。

基础运维平台可以说是IT运维的基础设施, 阿里非常重视运维基础设施的建设,这个系统是对众多运维系统共性部分的抽象,对上层的运维业务建设至关重要。 在前面提到的5个运维能力层次中的所有系统都要依赖他, 所以重要性也尤其突出。基础运维平台主要功能是服务器访问的通道(命令通道、文件通道、数据通道),职责是维护企业所有服务器访问的安全,这里的服务器包括物理机、虚拟机和容器。

2.6 日志集中分析工具

应用系统的问题定位方式,主要就是日志分析。但是随着业务和服务器的增长,日志的分析定位也会比较困难,系统一旦出故障,发生哪个应用,引用所在服务器以及应用的代码。日志集中分析和APM一起使用,同时可以根据CMDB中记录的应用服务相关信息,应用定位问题会更加高效。

基础运维平台可以说是IT运维的基础设施, 阿里非常重视运维基础设施的建设,这个系统是对众多运维系统共性部分的抽象,对上层的运维业务建设至关重要。 在前面提到的5个运维能力层次中的所有系统都要依赖他, 所以重要性也尤其突出。基础运维平台主要功能是服务器访问的通道(命令通道、文件通道、数据通道),职责是维护企业所有服务器访问的安全,这里的服务器包括物理机、虚拟机和容器。

除了运维平台本身外,还包含软性的一些运维规范,故障治理的原则等。另外,我们在智能化运维方面已经有了实践, 通过算法平台融入到了两个平台的能力上。在界面上,我们提供Web, API,命令行工具,手机客户端,甚至提供大屏产品。

StarOps产品里主要包含有三大系统:1.堡垒机 2.StarAgent 3. 蜻蜓

2.7 安全漏洞扫描工具

安全漏洞更多的是安全工程师的来做,运维工程师更多是去解决这些漏洞,关于安全漏洞扫描如何与CMDB结合起来使用,可以使用提供API的漏洞扫描工具,针对CMDB中记录中对安全要求很高的应用来进行扫描。

StarOps产品里主要包含有三大系统:1.堡垒机 2.StarAgent 3. 蜻蜓

基础运维平台

堡垒机

三. 资源管理系统的功能

从上面可以知道,所有的运维工具都离不开CMDB的支持,那么CMDB应该有哪些数据,可以实现什么样的功能,如何确保CMDB的准确性 ?

堡垒机

基础运维平台可以说是IT运维的基础设施, 阿里非常重视运维基础设施的建设,这个系统是对众多运维系统共性部分的抽象,对上层的运维业务建设至关重要。 在前面提到的5个运维能力层次中的所有系统都要依赖他, 所以重要性也尤其突出。基础运维平台主要功能是服务器访问的通道(命令通道、文件通道、数据通道),职责是维护企业所有服务器访问的安全,这里的服务器包括物理机、虚拟机和容器。

3.1 CMDB管理什么数据

  1. 用户信息管理,记录测试,开发,运维人员的用户表
  2. 业务信息线管理,需要记录业务的详情
  3. 项目信息管理,指定此项目用属于哪条业务线,以及项目详情
  4. 应用信息管理,指定此应用的开发人员,属于哪个项目,和代码地址,部署目录,部署集群,依赖的应用,软件等信息
  5. 集群信息管理,指定集群属于哪个项目,以及集群的Level(开发,测试,生产)
  6. 主机信息管理,包括云主机,物理机,主机属于哪个集群,运行着哪些软件,主机管理员,连接哪些网络设备,云主机的资源池,存储等相关信息
  7. 主机信息变更管理,主机的一些信息变更,例如管理员,所属集群等信息更改,连接的网络变更等
  8. 网络设备信息管理,主要记录网络设备的详细信息,及网络设备连接的上级设备
  9. IP信息管理,IP属于哪个主机,哪个网段, 是否被占用等

数据库表如下图所示:

澳门新萄京官方网站 4

cmdb 数据库表2.PNG

澳门新萄京官方网站 5

StarOps产品里主要包含有三大系统:1.堡垒机 2.StarAgent 3. 蜻蜓

堡垒机,也可以叫跳板机, 是服务器访问的一道屏障。阿里的堡垒机是全球部署的,具备统一的账号/权限/密钥等管理,访问控制,高危拦截,操作录屏等功能, 最高可以承载5000人同时在线, 并通过了ISO27001等认证。

3.2 基于CMDB实现哪些功能

基于CMDB,可以实现采集资源信息自动化,软件安装自动化,应用部署自动化,告警信息更加详细准确,应用关系拓扑图,网络拓扑图更加清晰,这些工具对运维会有很高的价值

在公司业务层面上,基于CMDB我们也可以做很多事情,最直接的就是IT资源的成本控制,另外还有集群容量弹性缩扩容,应用平台的稳定性,应用的持续交付等功能

堡垒机,也可以叫跳板机, 是服务器访问的一道屏障。阿里的堡垒机是全球部署的,具备统一的账号/权限/密钥等管理,访问控制,高危拦截,操作录屏等功能, 最高可以承载5000人同时在线, 并通过了ISO27001等认证。

堡垒机

StarAgent

3.3 确保CMDB数据的准确性

CMDB存储管理企业IT架构中设备的配置信息,它是所有的应用运行和应用交付的提供相关的资源的数据基础,所以保证CMDB数据的准确性显得非常重要

想要确保CMDB的准确性,根据自己各个公司的业务不同,来制定CMDB数据的录入流程必不可少

我们如何确保CMDB的数据准确性,公司所有的IT应用(数据库除外)全部运行在VMware虚拟机中

  1. 硬件设备的资产管理,在采购服务器或者网络设备后,需要将相关的设备手工录入CMDB系统,并且指定连接的上级网络设备,负责人
  2. 服务器需要安装的VMware软件后,通过Vcenter来管理虚拟机
  3. 新项目确立,申请服务器资源时,需要填写业务线,开发人员,git库, 测试人员,应用依赖的相关环境等详细信息,CMDB系统会关联相关的数据
  4. 运维人员在分配IP,主机名等相关信息后,将开发,测试,生产等服务器记录入CMDB, 且关联相关的数据
  5. 创建虚拟机时使用标准的模板,自动化创建,初始化虚拟机,包括安装salt客户端,监控客户端
  6. 在准备开发环境时,编写salt SLS文件,存入git库,方便安装测试和生产环境
  7. 创建jenkins job,实现自动化部署及自动化打包的相关部分的定义

我们的CMDB还有哪些不足:

  1. 网络关系拓扑图没有在CMDB中显示
  2. 没有实现应用关系拓扑图,希望可以通过APM工具来完善
  3. 资源监控做的不够到位,造成资源浪费,以及Vcenter虚拟机分配不合理
  4. 没有实现应用集成部署流水线
  5. 系统告警后,没有自动化处理相关的事件,更多的是在用人工解决
  6. CMDB没有提供API,提供给别的系统调用

StarAgent

阿里巴巴堡垒机

StarOps套件中的基础运维平台,就是在阿里巴巴运维多年实践上沉淀的结果。这个产品的名字叫**StarAgnet**,它可以当之无愧的说是**阿里巴巴IT运维的基础设施。**

StarOps套件中的基础运维平台,就是在阿里巴巴运维多年实践上沉淀的结果。这个产品的名字叫StarAgnet,它可以当之无愧的说是阿里巴巴IT运维的基础设施。

堡垒机,也可以叫跳板机,是服务器访问的一道屏障。阿里的堡垒机是全球部署的,具备统一的账号/权限/密钥等管理,访问控制,高危拦截,操作录屏等功能, 最高可以承载5000人同时在线, 并通过了ISO27001等认证。

从1万服务器发展到10万台,又逐步达到百万级服务器,基础设施重要性并不是一开始就被意识到的,是逐渐被发现的过程。无论是运维系统稳定性、性能、容量显然已经无法满足服务器数量和业务的快速增长。在2015年我们做了架构升级,StarAgent日均的访问量从1000万提升到了1亿多,系统稳定性从90%提升到了99.995%。

从1万服务器发展到10万台,又逐步达到百万级服务器,基础设施重要性并不是一开始就被意识到的,是逐渐被发现的过程。无论是运维系统稳定性、性能、容量显然已经无法满足服务器数量和业务的快速增长。在2015年我们做了架构升级,StarAgent日均的访问量从1000万提升到了1亿多,系统稳定性从90%提升到了99.995%。

StarAgent

稳定性另外体现在高可用上,我们内部有定期的断网演练,任何一个机房网络断掉,自身服务终止影响面都控制在一定范围,都不会对整体的稳定性产生影响, 只要网络、服务恢复,受影响的集群就自动恢复。这种演练在内部是常态进行的,保证我们每个版本的代码都保持健壮。

稳定性另外体现在高可用上,我们内部有定期的断网演练,任何一个机房网络断掉,自身服务终止影响面都控制在一定范围,都不会对整体的稳定性产生影响, 只要网络、服务恢复,受影响的集群就自动恢复。这种演练在内部是常态进行的,保证我们每个版本的代码都保持健壮。

StarOps套件中的基础运维平台,就是在阿里巴巴运维多年实践上沉淀的结果。这个产品的名字叫StarAgnet,它可以当之无愧的说是阿里巴巴IT运维的基础设施。

StarAgent 是安全的,我们有非常多的安全策略,比如命令执行的范围控制,账号控制,白名单、黑名单控制,高危命令审计/拦截,全链路加密签名等,在阿里内部安全部有定期的攻防演练,StarAgent无疑就是演练重点。

StarAgent 是安全的,我们有非常多的安全策略,比如命令执行的范围控制,账号控制,白名单、黑名单控制,高危命令审计/拦截,全链路加密签名等,在阿里内部安全部有定期的攻防演练,StarAgent无疑就是演练重点。

从1万服务器发展到10万台,又逐步达到百万级服务器,基础设施重要性并不是一开始就被意识到的,是逐渐被发现的过程。无论是运维系统稳定性、性能、容量显然已经无法满足服务器数量和业务的快速增长。在2015年我们做了架构升级,StarAgent日均的访问量从1000万提升到了1亿多,系统稳定性从90%提升到了99.995%。

在阿里内部如果说运维效率比较高,原因之一就是我们的StarAgent基本上统一了运维的通道,任何BU任何系统都不会擅自也不允许去建设自己的通道,统一的好处就是可以统一监管,同时也减少了不必要的重复建设。每个业务运维系统只要建设自己的业务即可。

在阿里内部如果说运维效率比较高,原因之一就是我们的StarAgent基本上统一了运维的通道,任何BU任何系统都不会擅自也不允许去建设自己的通道,统一的好处就是可以统一监管,同时也减少了不必要的重复建设。每个业务运维系统只要建设自己的业务即可。

稳定性另外体现在高可用上,我们内部有定期的断网演练,任何一个机房网络断掉,自身服务终止影响面都控制在一定范围,都不会对整体的稳定性产生影响, 只要网络、服务恢复,受影响的集群就自动恢复。这种演练在内部是常态进行的,保证我们每个版本的代码都保持健壮。

刚才提到了基础设施影响面比较大,所以在建设的时候必须有预见性,在性能方面我也对未来5年服务器和业务的增长作出了预估,使我们的这次架构升级至少5年内不需要再次重构, 我们可以在此架构之上构建更多的业务,不会让稳定性和性能羁绊运维业务的发展。目前StarAgent可以满足每分钟55万次调用,几乎对外部系统没有强依赖,数据库、缓存即使失败也不会对系统造成非常重大的影响。

刚才提到了基础设施影响面比较大,所以在建设的时候必须有预见性,在性能方面我也对未来5年服务器和业务的增长作出了预估,使我们的这次架构升级至少5年内不需要再次重构, 我们可以在此架构之上构建更多的业务,不会让稳定性和性能羁绊运维业务的发展。目前StarAgent可以满足每分钟55万次调用,几乎对外部系统没有强依赖,数据库、缓存即使失败也不会对系统造成非常重大的影响。

StarAgent 是安全的,我们有非常多的安全策略,比如命令执行的范围控制,账号控制,白名单、黑名单控制,高危命令审计/拦截,全链路加密签名等,在阿里内部安全部有定期的攻防演练,StarAgent无疑就是演练重点。

StarAgent的架构是灵活的,新的架构是基于插件的模式,插件可以是静态的(脚本、命令),也可以是动态的(后台服务),Agent Core 会保证这些插件执行的安全,同时又保证在一定的资源消耗之内, 否则就会杀掉(重启)这个插件进程,插件的开发者当然会收到消息。插件的使用者可以决定在自己的机器上(业务范围内)运行哪些插件,或者停用哪些插件,以及插件需要的版本,默认情况下插件的版本会自动更新。默认的插件当然是平台来维护的, 目前在阿里内部我们已经有了150多个插件,其中包括监控、日志服务、调度、文件分发等。每个插件都可以看作是一个运维系统,而StarAgent的职责就是守护这些运维系统的执行,保证全集团服务器和业务的安全运行。

StarAgent的架构是灵活的,新的架构是基于插件的模式,插件可以是静态的(脚本、命令),也可以是动态的(后台服务),Agent Core 会保证这些插件执行的安全,同时又保证在一定的资源消耗之内, 否则就会杀掉(重启)这个插件进程,插件的开发者当然会收到消息。插件的使用者可以决定在自己的机器上(业务范围内)运行哪些插件,或者停用哪些插件,以及插件需要的版本,默认情况下插件的版本会自动更新。默认的插件当然是平台来维护的, 目前在阿里内部我们已经有了150多个插件,其中包括监控、日志服务、调度、文件分发等。每个插件都可以看作是一个运维系统,而StarAgent的职责就是守护这些运维系统的执行,保证全集团服务器和业务的安全运行。

在阿里内部如果说运维效率比较高,原因之一就是我们的StarAgent基本上统一了运维的通道,任何BU任何系统都不会擅自也不允许去建设自己的通道,统一的好处就是可以统一监管,同时也减少了不必要的重复建设。每个业务运维系统只要建设自己的业务即可。

插件的模式同时也简化了Agent本身的运维,Agent Core 是没有任何业务属性的, 职责清晰简单,只做插件的维护和必要的自运维, 所以在版本稳定后,基本上不需要太频繁的更新, 这也符合装机镜像3个月更新一次的频率。

插件的模式同时也简化了Agent本身的运维,Agent Core 是没有任何业务属性的, 职责清晰简单,只做插件的维护和必要的自运维, 所以在版本稳定后,基本上不需要太频繁的更新, 这也符合装机镜像3个月更新一次的频率。

刚才提到了基础设施影响面比较大,所以在建设的时候必须有预见性,在性能方面我也对未来5年服务器和业务的增长作出了预估,使我们的这次架构升级至少5年内不需要再次重构, 我们可以在此架构之上构建更多的业务,不会让稳定性和性能羁绊运维业务的发展。目前StarAgent可以满足每分钟55万次调用,几乎对外部系统没有强依赖,数据库、缓存即使失败也不会对系统造成非常重大的影响。

对于一个运维百万级服务器的基础平台,本身的运维负担也是比较重的,以前至少需要3个专职的运维,尤其是阿里的网络、服务器环境比较复杂,每天答疑工作也不少。但很多工作其实可以总结出规律,提炼抽象,让机器去做, 所以目前新版的StarAgent自运维能力已经达到95%,不再需要专职的运维了。

对于一个运维百万级服务器的基础平台,本身的运维负担也是比较重的,以前至少需要3个专职的运维,尤其是阿里的网络、服务器环境比较复杂,每天答疑工作也不少。但很多工作其实可以总结出规律,提炼抽象,让机器去做, 所以目前新版的StarAgent自运维能力已经达到95%,不再需要专职的运维了。

StarAgent的架构是灵活的,新的架构是基于插件的模式,插件可以是静态的(脚本、命令),也可以是动态的(后台服务),Agent Core 会保证这些插件执行的安全,同时又保证在一定的资源消耗之内, 否则就会杀掉(重启)这个插件进程,插件的开发者当然会收到消息。插件的使用者可以决定在自己的机器上(业务范围内)运行哪些插件,或者停用哪些插件,以及插件需要的版本,默认情况下插件的版本会自动更新。默认的插件当然是平台来维护的, 目前在阿里内部我们已经有了150多个插件,其中包括监控、日志服务、调度、文件分发等。每个插件都可以看作是一个运维系统,而StarAgent的职责就是守护这些运维系统的执行,保证全集团服务器和业务的安全运行。

蜻蜓

蜻蜓

插件的模式同时也简化了Agent本身的运维,Agent Core 是没有任何业务属性的, 职责清晰简单,只做插件的维护和必要的自运维, 所以在版本稳定后,基本上不需要太频繁的更新, 这也符合装机镜像3个月更新一次的频率。

蜻蜓是基于P2P的文件分发系统,不管是什么类型的业务运维都需要文件分发,所以也是基础设施之一。它的好处是保护数据源,加速分发速度,节约跨IDC和跨国的带宽。

蜻蜓是基于P2P的文件分发系统,澳门新萄京官方网站,不管是什么类型的业务运维都需要文件分发,所以也是基础设施之一。它的好处是保护数据源,加速分发速度,节约跨IDC和跨国的带宽。

对于一个运维百万级服务器的基础平台,本身的运维负担也是比较重的,以前至少需要3个专职的运维,尤其是阿里的网络、服务器环境比较复杂,每天答疑工作也不少。但很多工作其实可以总结出规律,提炼抽象,让机器去做, 所以目前新版的StarAgent自运维能力已经达到95%,不再需要专职的运维了。

下图是一个500MB文件分发的对比测试,X轴是客户端数量,Y轴是分发时长,可以看出传统的文件分发系统随着客户端数量的增加,时长就会增加,而且到1200客户端后就没有数据了, 因为数据源已经被打爆, 在该测试中蜻蜓可以完美的支持到7000客户端,分发时长基本保持在10秒左右。

下图是一个500MB文件分发的对比测试,X轴是客户端数量,Y轴是分发时长,可以看出传统的文件分发系统随着客户端数量的增加,时长就会增加,而且到1200客户端后就没有数据了, 因为数据源已经被打爆, 在该测试中蜻蜓可以完美的支持到7000客户端,分发时长基本保持在10秒左右。

其他功能诸如Web终端,分布式定时任务等,在云效使用手册里可以找到。不再赘述。

澳门新萄京官方网站 6

手册查看:云效微信号(ali_yunxiao)菜单栏-云效产品-使用指南

在阿里内部,典型的应用场景包括:软件安装包、配置文件、数据文件、静态文件、镜像等。镜像包括了物理机镜像、虚拟机镜像、容器镜像。对于容器可以支持Docker,Pouch(阿里自研的容器技术),Hyper等。架构上非常灵活,没有侵入性,不需要对容器技术做任何改造。

澳门新萄京官方网站平常技术员如何摆脱重复劳动,无人化运行离大家有多少距离。在阿里内部,典型的应用场景包括:软件安装包、配置文件、数据文件、静态文件、镜像等。镜像包括了物理机镜像、虚拟机镜像、容器镜像。对于容器可以支持Docker,Pouch(阿里自研的容器技术),Hyper等。架构上非常灵活,没有侵入性,不需要对容器技术做任何改造。

蜻蜓

高级的功能特性还包括断点续传、智能网络流控、智能磁盘流控、动态压缩、镜像预热等。

高级的功能特性还包括断点续传、智能网络流控、智能磁盘流控、动态压缩、镜像预热等。

蜻蜓是基于P2P的文件分发系统,不管是什么类型的业务运维都需要文件分发,所以也是基础设施之一。它的好处是保护数据源,加速分发速度,节约跨IDC和跨国的带宽。

在阿里内部这个系统的业务覆盖率在95%以上,月均分发量达到了15亿次,容量达到3000TB以上。蜻蜓同时也是双11背后的支撑技术,在双11前,需要完成15GB的数据文件分发到超过1万台服务器上。

在阿里内部这个系统的业务覆盖率在95%以上,月均分发量达到了15亿次,容量达到3000TB以上。蜻蜓同时也是双11背后的支撑技术,在双11前,需要完成15GB的数据文件分发到超过1万台服务器上。

下图是一个500MB文件分发的对比测试,X轴是客户端数量,Y轴是分发时长,可以看出传统的文件分发系统随着客户端数量的增加,时长就会增加,而且到1200客户端后就没有数据了, 因为数据源已经被打爆, 在该测试中蜻蜓可以完美的支持到7000客户端,分发时长基本保持在10秒左右。

应用运维平台

应用运维平台

在阿里内部,典型的应用场景包括:软件安装包、配置文件、数据文件、静态文件、镜像等。镜像包括了物理机镜像、虚拟机镜像、容器镜像。对于容器可以支持Docker,Pouch(阿里自研的容器技术),Hyper等。架构上非常灵活,没有侵入性,不需要对容器技术做任何改造。

StarOps套件中另一个是应用运维平台,是架构在基础平台之上的混合云PaaS平台,在内部我们叫Normandy。

StarOps套件中另一个是应用运维平台,是架构在基础平台之上的混合云PaaS平台,在内部我们叫Normandy。

高级的功能特性还包括断点续传、智能网络流控、智能磁盘流控、动态压缩、镜像预热等。

应用运维平台总体上来说是有三大组成部分: 资源管理、发布部署、日常运维。

应用运维平台总体上来说是有三大组成部分: 资源管理、发布部署、日常运维。

在阿里内部这个系统的业务覆盖率在95%以上,月均分发量达到了15亿次,容量达到3000TB以上。蜻蜓同时也是双11背后的支撑技术,在双11前,需要完成15GB的数据文件分发到超过1万台服务器上。

一个应用要正常运行,需要资源,资源不仅仅是服务器(物理机、虚拟机、容器), 还包括网络(VIP、SLB、DNS等),存储,数据库,中间件等,凡是一个应用正常运行需要的所有的物理资源和服务资源都包括。

一个应用要正常运行,需要资源,资源不仅仅是服务器(物理机、虚拟机、容器), 还包括网络(VIP、SLB、DNS等),存储,数据库,中间件等,凡是一个应用正常运行需要的所有的物理资源和服务资源都包括。

应用运维平台

澳门新萄京官方网站 7

StarOps套件中另一个是应用运维平台,是架构在基础平台之上的混合云PaaS平台,在内部我们叫Normandy。

Normandy是通过资源编排实现资源的provision(生产)的,通常也被叫做Infrastructure as Code。通过代码的形式将一个应用需要的所有的物理资源和服务资源,以及他们之间的关系都编写在一段类JSON的代码里, 并保存在CMDB中,而且是版本化的, 也就是说资源的任何一次变更改动都会被记录在案。 这也就形成了用户(通常就是应用的研发)对应用部署的基础架构(infrastrucure)的基本需求或者定义。

Normandy是通过资源编排实现资源的provision(生产)的,通常也被叫做Infrastructure as Code。通过代码的形式将一个应用需要的所有的物理资源和服务资源,以及他们之间的关系都编写在一段类JSON的代码里, 并保存在CMDB中,而且是版本化的, 也就是说资源的任何一次变更改动都会被记录在案。 这也就形成了用户(通常就是应用的研发)对应用部署的基础架构(infrastrucure)的基本需求或者定义。

应用运维平台总体上来说是有三大组成部分: 资源管理、发布部署、日常运维。

Normandy对于资源的需求和资源实际情况(通常称为资源实例Instance)会做对比(difference),如果资源实例和资源的用户的定义不同,则会触发资源的生产(provision)直到资源的需求被满足。这也可以被称为自动化的资源生产,也可以被称为资源管理的自愈。如果仅仅就服务器来说,它的功能和Kubernates的ReplicaController是一致的。

Normandy对于资源的需求和资源实际情况(通常称为资源实例Instance)会做对比(difference),如果资源实例和资源的用户的定义不同,则会触发资源的生产(provision)直到资源的需求被满足。这也可以被称为自动化的资源生产,也可以被称为资源管理的自愈。如果仅仅就服务器来说,它的功能和Kubernates的ReplicaController是一致的。

一个应用要正常运行,需要资源,资源不仅仅是服务器(物理机、虚拟机、容器), 还包括网络(VIP、SLB、DNS等),存储,数据库,中间件等,凡是一个应用正常运行需要的所有的物理资源和服务资源都包括。

既然是混合云PaaS平台当然是支持企业内部IDC的同时也支持阿里云,所以应用可以是部署在自有IDC也可以部署在阿里云,也可以一部分在自有IDC,一部分在阿里云上。

既然是混合云PaaS平台当然是支持企业内部IDC的同时也支持阿里云,所以应用可以是部署在自有IDC也可以部署在阿里云,也可以一部分在自有IDC,一部分在阿里云上。

Normandy是通过资源编排实现资源的provision(生产)的,通常也被叫做Infrastructure as Code。通过代码的形式将一个应用需要的所有的物理资源和服务资源,以及他们之间的关系都编写在一段类JSON的代码里, 并保存在CMDB中,而且是版本化的, 也就是说资源的任何一次变更改动都会被记录在案。 这也就形成了用户(通常就是应用的研发)对应用部署的基础架构(infrastrucure)的基本需求或者定义。

混合的模式适合那种初步尝试公有云的企业, 也适合那种在个别时间段(比如大促场景,或者压力测试)下需要额外资源的企业,需要的时候在公有云上“弹”(scale out),用完了再缩回来(scale in)。

混合的模式适合那种初步尝试公有云的企业, 也适合那种在个别时间段(比如大促场景,或者压力测试)下需要额外资源的企业,需要的时候在公有云上“弹”(scale out),用完了再缩回来(scale in)。

Normandy对于资源的需求和资源实际情况(通常称为资源实例Instance)会做对比(difference),如果资源实例和资源的用户的定义不同,则会触发资源的生产(provision)直到资源的需求被满足。这也可以被称为自动化的资源生产,也可以被称为资源管理的自愈。如果仅仅就服务器来说,它的功能和Kubernates的ReplicaController是一致的。

澳门新萄京官方网站 8

既然是混合云PaaS平台当然是支持企业内部IDC的同时也支持阿里云,所以应用可以是部署在自有IDC也可以部署在阿里云,也可以一部分在自有IDC,一部分在阿里云上。

发布(Release)和部署(Deploy)其实是两个不太一样的概念, 发布是用户可见的,部署则未必。Normandy当然可以同时满足客户两种不同的选择。默认情况下部署就等同于发布,当然用户可以自己定制部署而不发布应用(这种需求比较小众)。

发布(Release)和部署(Deploy)其实是两个不太一样的概念, 发布是用户可见的,部署则未必。Normandy当然可以同时满足客户两种不同的选择。默认情况下部署就等同于发布,当然用户可以自己定制部署而不发布应用(这种需求比较小众)。

混合的模式适合那种初步尝试公有云的企业, 也适合那种在个别时间段(比如大促场景,或者压力测试)下需要额外资源的企业,需要的时候在公有云上“弹”(scale out),用完了再缩回来(scale in)。

Normandy支持的发布模式比较多样,发布策略也很多,这跟阿里内部需求的多样性有关。同时也支持容器发布和非容器的发布(我们叫基线模式)。此外,还支持动态配置或者开关类型的发布(需要中间件支持)。在能力上则支持2万台服务器同时发布,日均可以支持50万次发布。

Normandy支持的发布模式比较多样,发布策略也很多,这跟阿里内部需求的多样性有关。同时也支持容器发布和非容器的发布(我们叫基线模式)。此外,还支持动态配置或者开关类型的发布(需要中间件支持)。在能力上则支持2万台服务器同时发布,日均可以支持50万次发布。

阿里巴巴监控智能基线视图

在发布上我们有运维算法平台的支持,可以做到“无人值守”发布, 所谓的“无人值守”发布意味着用户不再需要盯着发布了, 发布系统如果发现系统有故障就会自动停止发布并通知用户, 如果一切正常则自动发布完成,无需人的干预。

在发布上我们有运维算法平台的支持,可以做到“无人值守”发布, 所谓的“无人值守”发布意味着用户不再需要盯着发布了, 发布系统如果发现系统有故障就会自动停止发布并通知用户, 如果一切正常则自动发布完成,无需人的干预。

发布(Release)和部署(Deploy)其实是两个不太一样的概念, 发布是用户可见的,部署则未必。Normandy当然可以同时满足客户两种不同的选择。默认情况下部署就等同于发布,当然用户可以自己定制部署而不发布应用(这种需求比较小众)。

运维越来越需要得到算法平台的帮助,将人的经验“沉淀”到系统里,不断的累积和完善数据,并依靠算法的帮助来提高运维系统的自动化程度,让人少犯错,尤其是低级的错误。而发布部署是很多故障造成的根源,这种故障给很多企业造成了巨大损失。如果能在这个地方堵住故障,将极大地提升企业运维稳定性。

运维越来越需要得到算法平台的帮助,将人的经验“沉淀”到系统里,不断的累积和完善数据,并依靠算法的帮助来提高运维系统的自动化程度,让人少犯错,尤其是低级的错误。而发布部署是很多故障造成的根源,这种故障给很多企业造成了巨大损失。如果能在这个地方堵住故障,将极大地提升企业运维稳定性。

Normandy支持的发布模式比较多样,发布策略也很多,这跟阿里内部需求的多样性有关。同时也支持容器发布和非容器的发布(我们叫基线模式)。除此外,还支持动态配置或者开关类型的发布(需要中间件支持)。在能力上则支持2万台服务器同时发布,日均可以支持50万次发布。

监控

监控

在发布上我们有运维算法平台的支持,可以做到“无人值守”发布, 所谓的“无人值守”发布意味着用户不再需要盯着发布了, 发布系统如果发现系统有故障就会自动停止发布并通知用户, 如果一切正常则自动发布完成,无需人的干预。

StarOps套件还提供了不同维度的监控系统,我们有基础监控(IDC层面)、系统监控和业务监控,可以分别部署。监控系统我们也在做智能化运维探索,比如智能基线,可以让我们彻底结束一个业务监控数十个监控配置的困扰,可以预测下一个时间点的业务走向,监控配置只要根据这个“智能基线”来配置阈值即可。同时我们的监控系统还具备智能故障定位的功能。

StarOps套件还提供了不同维度的监控系统,我们有基础监控(IDC层面)、系统监控和业务监控,可以分别部署。监控系统我们也在做智能化运维探索,比如智能基线,可以让我们彻底结束一个业务监控数十个监控配置的困扰,可以预测下一个时间点的业务走向,监控配置只要根据这个“智能基线”来配置阈值即可。同时我们的监控系统还具备智能故障定位的功能。

运维越来越需要得到算法平台的帮助,将人的经验“沉淀”到系统里,不断的累积和完善数据,并依靠算法的帮助来提高运维系统的自动化程度,让人少犯错,尤其是低级的错误。而发布部署是很多故障造成的根源,这种故障给很多企业造成了巨大损失。如果能在这个地方堵住故障,将极大地提升企业运维稳定性。

历经阿里纷繁复杂的业务和双11的各种考验,监控除了丰富的功能和稳定健壮的内核,还提供了非常炫目的视觉产品,除了传统的PC屏外,我们还有大屏产品可以独立部署。

历经阿里纷繁复杂的业务和双11的各种考验,监控除了丰富的功能和稳定健壮的内核,还提供了非常炫目的视觉产品,除了传统的PC屏外,我们还有大屏产品可以独立部署。

监控

澳门新萄京官方网站 9

StarOps套件还提供了不同维度的监控系统,我们有基础监控(IDC层面)也有系统监控和业务监控,可以分别部署。监控系统我们也在做智能化运维探索,比如智能基线, 可以让我们彻底结束一个业务监控数十个监控配置的困扰,可以预测下一个时间点的业务走向,监控配置只要根据这个“智能基线”来配置阈值即可。同时我们的监控系统还具备智能故障定位的功能。

除了前面提到的基础运维平台、应用运维平台、监控、算法平台外, StarOps套件还包括了诸如掌上运维(支持IOS, Android),ChatOps等功能。

除了前面提到的基础运维平台、应用运维平台、监控、算法平台外, StarOps套件还包括了诸如掌上运维(支持IOS, Android),ChatOps等功能。

历经阿里纷繁复杂的业务和双11的各种考验,监控除了丰富的功能和稳定健壮的内核,还提供了非常炫目的视觉产品,除了传统的PC屏外,我们还有大屏产品可以独立部署。

智能运维 AIOps

智能运维 AIOps

阿里巴巴智能化运维大屏

简单的讲运维本质是帮助业务持续稳定的运行所要做的所有维护性的工作。 在保持业务稳定性的基础上能降低运维成本,提升运维效率,是运维系统的核心本质。

简单的讲运维本质是帮助业务持续稳定的运行所要做的所有维护性的工作。 在保持业务稳定性的基础上能降低运维成本,提升运维效率,是运维系统的核心本质。

除了前面提到的基础运维平台、应用运维平台、监控、算法平台外, StarOps套件还包括了诸如掌上运维(支持IOS, Android),ChatOps等功能。

智能运维(AIOps)是需要融入在平台方方面面的。智能运维是从手工运维到自动化运维一步步走过来的一个自然的结果, 需要场景、数据和算法。

智能运维(AIOps)是需要融入在平台方方面面的。智能运维是从手工运维到自动化运维一步步走过来的一个自然的结果, 需要场景、数据和算法。

智能运维 AIOps

我个人对智能运维的理解是:利用运维算法实现运维的自动化,最终走向无人化运维。所以Gartner对AIOps的解释是Algorithm IT Operations,并不是一开始以为的人工智能(Artificial Intelligence)运维。

我个人对智能运维的理解是:利用运维算法实现运维的自动化,最终走向无人化运维。所以Gartner对AIOps的解释是Algorithm IT Operations,并不是一开始以为的人工智能(Artificial Intelligence)运维。

简单的讲运维本质是帮助业务持续稳定的运行所要做的所有维护性的工作。 在保持业务稳定性的基础上能降低运维成本,提升运维效率,是运维系统的核心本质。

我个人认为AIOps可以在两方面来帮助运维:

我个人认为AIOps可以在两方面来帮助运维:

智能运维(AIOps)是需要融入在平台方方面面的。智能运维是从手工运维到自动化运维一步步走过来的一个自然的结果, 需要场景、数据和算法。

一、稳定性:运维的本质就是维护系统的稳定性,如何能让系统平稳的运行,变更更加稳定,故障全面治理是首要考量的,所以稳定性方面的智能运维技术演进大致是:

一、稳定性:运维的本质就是维护系统的稳定性,如何能让系统平稳的运行,变更更加稳定,故障全面治理是首要考量的,所以稳定性方面的智能运维技术演进大致是:

我个人对智能运维的理解是:利用运维算法实现运维的自动化,最终走向无人化运维。所以Gartner对AIOps的解释是Algorithm IT Operations,并不是一开始以为的人工智能(Artificial Intelligence)运维。

异常检测(Reactive)-> 根因分析(Root Cause Analysis)->根源定位(real time) -> 故障自愈(auto-healing)-> 故障预测(proactive)

异常检测(Reactive)-> 根因分析(Root Cause Analysis)->根源定位(real time) -> 故障自愈(auto-healing)-> 故障预测(proactive)

我个人认为AIOps可以在两方面来帮助运维:

无人值守发布中应用的是异常检测的算法,而智能故障定位需要用到的就是后两种技术。

无人值守发布中应用的是异常检测的算法,而智能故障定位需要用到的就是后两种技术。

一、稳定性:运维的本质就是维护系统的稳定性,如何能让系统平稳的运行,变更更加稳定,故障全面治理是首要考量的,所以稳定性方面的智能运维技术演进大致是:

二、效率:在稳定的基础上我们希望能看到极致的运维的效率,极低的运维成本。

二、效率:在稳定的基础上我们希望能看到极致的运维的效率,极低的运维成本。

异常检测(Reactive)-> 根因分析(Root Cause Analysis)->根源定位(real time) -> 故障自愈(auto-healing)-> 故障预测(proactive)

智能运维的场景很多,在运维的每层都有用武之地。每个点的微创新的累积最终会给智能运维带来颠覆性的变化。真正实现这种专家经验和”拍脑袋“运维模式转变为基于算法和人工智能的自动化运维,最终走向无人化运维。

智能运维的场景很多,在运维的每层都有用武之地。每个点的微创新的累积最终会给智能运维带来颠覆性的变化。真正实现这种专家经验和”拍脑袋“运维模式转变为基于算法和人工智能的自动化运维,最终走向无人化运维。

无人值守发布中应用的是异常检测的算法,而智能故障定位需要用到的就是后两种技术。

“无人化”当然短期内只是一个“自动化程度非常高的”的代名词,在可以看到的未来,“无人化”还是由人来干预或者参与的,尤其是故障处理。

“无人化”当然短期内只是一个“自动化程度非常高的”的代名词,在可以看到的未来,“无人化”还是由人来干预或者参与的,尤其是故障处理。

二、效率:在稳定的基础上我们希望能看到极致的运维的效率,极低的运维成本。

其实自动化被叫做“自働化”更为合理, 人和机器更多是职能上的区别,需要优势互补,人不再做具体的操作了,由机器替代,但人依然是运维的灵魂,是运维的制定者和修改者,机器只是执行者,机器只是帮助人或者提醒人来完成运维操作。

其实自动化被叫做“自働化”更为合理, 人和机器更多是职能上的区别,需要优势互补,人不再做具体的操作了,由机器替代,但人依然是运维的灵魂,是运维的制定者和修改者,机器只是执行者,机器只是帮助人或者提醒人来完成运维操作。

智能参数调整系统优化

澳门新萄京官方网站 10

智能调度、扩容、限流、降级…

总结

总结

智能运维的场景很多,在运维的每层都有用武之地。每个点的微创新的累积最终会给智能运维带来颠覆性的变化。真正实现这种专家经验和”拍脑袋“运维模式转变为基于算法和人工智能的自动化运维,最终走向无人化运维。

运维对企业很重要,可以说是核心竞争力,不能让运维拖了业务的后腿。

运维对企业很重要,可以说是核心竞争力,不能让运维拖了业务的后腿。

“无人化”当然短期内只是一个“自动化程度非常高的”的代名词,在可以看到的未来,“无人化”还是由人来干预或者参与的,尤其是故障处理。

基础运维平台是运维体系建设的基础设施, 是运维成败的关键。

基础运维平台是运维体系建设的基础设施, 是运维成败的关键。

其实自动化被叫做“自働化”更为合理, 人和机器更多是职能上的区别,需要优势互补,人不再做具体的操作了,由机器替代,但人依然是运维的灵魂,是运维的制定者和修改者,机器只是执行者,机器只是帮助人或者提醒人来完成运维操作。

稳定是运维的本质, 在稳定性的基础上追求极致的运维效率和极低的运维成本。

稳定是运维的本质, 在稳定性的基础上追求极致的运维效率和极低的运维成本。

阿里巴巴智能化运维能力体系

智能运维不能一蹴而就,必须按部就班,重在场景和数据的建设。很多公司业务发展的非常好,但就是运维做的不好,导致业务非常不稳定,三天两头出故障,一出故障半天才能恢复,一做发布变更就交易跌0造成资损。如果长期这样,再好的业务也会做黄。这种例子我们看到的比较多。 随着阿里巴巴越来越重视技术,也越来越开放,运维的几个产品会逐步开源,同时也会有商业化的产品孵化,比如最近在做的云效2.0-智能化运维产品StarOps,我们希望阿里在运维领域多年来沉淀的经验、走过的弯路,能给大家带来些启发,也希望StarOps产品能真正为企业的业务保驾护航。

智能运维不能一蹴而就,必须按部就班,重在场景和数据的建设。

总结

原文链接

澳门新萄京官方网站 11

运维对企业很重要,可以说是核心竞争力,不能让运维拖了业务的后腿。

很多公司业务发展的非常好,但就是运维做的不好,导致业务非常不稳定,三天两头出故障,一出故障半天才能恢复,一做发布变更就交易跌0造成资损。如果长期这样,再好的业务也会做黄。这种例子我们看到的比较多。

基础运维平台是运维体系建设的基础设施, 是运维成败的关键。

随着阿里巴巴越来越重视技术,也越来越开放,运维的几个产品会逐步开源,同时也会有商业化的产品孵化,比如最近在做的云效2.0-智能化运维产品StarOps,我们希望阿里在运维领域多年来沉淀的经验、走过的弯路,能给大家带来些启发,也希望StarOps产品能真正为企业的业务保驾护航。

稳定是运维的本质, 在稳定性的基础上追求极致的运维效率和极低的运维成本。

原文发布时间为:2017-10-27

智能运维不能一蹴而就,必须按部就班,重在场景和数据的建设。

本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”微信公众号

云效2.0 智能化运维产品体系

很多公司业务发展的非常好,但就是运维做的不好,导致业务非常不稳定,三天两头出故障,一出故障半天才能恢复。一做发布变更就交易跌0造成资损。如果长期这样的话,再好的业务也会做黄。这种例子我们看到的比较多。

随着阿里巴巴越来越重视技术,也越来越开放,运维的几个产品会逐步开源,同时也会有商业化的产品孵化,比如最近在做的云效2.0-智能化运维产品StarOps,我们希望阿里在运维领域多年来沉淀的经验、走过的弯路,能给大家带来些启发,也希望StarOps产品能真正为企业的业务保驾护航。

原文链接

本文由澳门新萄京官方网站发布于服务器运维,转载请注明出处:澳门新萄京官方网站平常技术员如何摆脱重复劳

关键词: