运维管理员在对某组件排查问题过程中,要进入"/cloud/app/ops/OpsYum#/yum_post_check_app/current/log/"路径,OpsYum#指的是服务(Service)。
服务(Service)部署在各个集群(Cluster)上,部分配置是相同的,服务模板可以在不同的集群(Cluster)快速写入相同的配置。
OpsYum是阿里云专有云飞天企业版基础组件之一,主要负责提供Yum源服务。OpsYum提供的Yum源服务通常用于云平台服务器装机,不提供给租户侧ECS云服务器实例使用。
阿里专有云环境中OPS提供NTP Server服务,在有公网访问需求时使用客户NTP Server做为源,OPS递归到客户NTP Server。
通过阿里云专有云飞天企业版基础组件,可以对物理服务器进行定制化系统安装。每次装机会产生装机队列数据,这些数据会保存到OpsDnsEtcd中。
Aliclone、OOB、DNS、YUM、NTP都是阿里专有云系统服务基础组件,以上组件均以Docker的形式运行在OPS1上。
故障是非计划性的IT服务中断,或者IT服务性能的下降,故障管理的目的是尽快恢复服务到正常运行,并且最小化对业务运营的不利影响,尽可能地保证服务质量和可用性的水平。
专有云运维资源服务管理流程规范包含开通资源、变更资源和释放资源。其中,变更资源需要进行变更申请、变更记录和变更通知。
在阿里云专有云飞天企业版中,问题管理是对已发生的故障组织资源进行排查、诊断、定位和修复,直至恢复云产品和业务的运行正常。问题管理的目的是避免事件再次发生,同时尽量增加事件带来的影响。
在阿里云专有云飞天企业版进行变更时需要准备变更方案、信息备份、步骤细化、提前预演、灰度变更、业务验证等。