【#文档大全网# 导语】以下是®文档大全网的小编为您整理的《网络运维管理制度》,欢迎阅读!
运维工作职责及制度
工作范围:
一、 架构设计
为研发部门提供非代码方面的运维技术协助,并在产品开发初期或部署阶段与之共同设计产品运营方面的技术架构,以及架构运行程序和运维自动化软件开发。 二、 运行监控
对线上生产环境中的服务器、交换机等各类设备以及关键程序运行状态进行7x24小时轮班人力监控,如果遇到运行故障能在5分钟内获得通知,并立即开展应急处理工作。 三、 数据维护
公司业务内的各种关系和非关系数据库中持久化存储的数据备份,并将备份数据从生产服务器保存到线下公司内部的存储器中并建立数据仓库。
为运营部门建立和维护运营数据“仓库”,并开发部份运营数据挖掘工具。 四、 企业信息化建设
公司内部办公自动化设备的采购选型、维护、组装,以及协助行政或财务部对该类物品进行资产管理。办公网络系统组建,例如内部文件共享、邮件、IM等办公协同服务系统的组建和维护。
架构设计工作细则
由于不少公司的研发人员对数据库以及服务器架构方面不是很擅长,需要运维部DBA和架构师协助进行产品研发初期或产品部署阶段的协助。主要工作要点如下:
一、 数据库结构设计。数据库的分布式运算架构设计,例如读写分离;数据表的分
割存储,存储引擎的择优;数据表字段的类型及数值格式择优。
二、 服务器架构设计。常见的有服务器网络分布,服务角色合并等等。
三、 运维自动化工具开发,主要采用系统的Shell脚本或Python、C/C++语言,开发
常用的自动备份、监控警报等工具,减少人力成本,加强维护监管的精准度。
运行监控工作细则:
一、运行监控工作需7 x24小时不间断的对所有生产环境中的服务器、路由器以用服务端软件进行监控。
运维监控工作按每天24小时计算,由五名运维工程师每人轮班,假设为ABCDE五名员工,具体排班表见附件《运维轮排表》。
二、运维工作中监测到异常时需按以下流程来处理:
记录故障详情
应急处理预计处理时间超过10分钟汇报至运维负责人
10分钟内处理成功
通知运营部发布紧急维护公告
恢复运行运维部组进行后续维护
1. 记录详细的故障症状及相关输出信息 运维部会开发一套运维工作日志系统,用于记录每次故障的详情,以便日后对故障进行后续跟踪和职责过失判定。 2. 进行应急处理 运维部与研发部双方会不断交涉更新汇总出一份常见故障应急处理方法的手册,以B/S形式发放至每一位运维工程师。当出现突发故障时,运维工程师在记录下故障详情后,则按照该手册结合自己的技术经验来进行故障修复。 3. 发布紧急维护通知 当故障在10分钟内无法恢复时,应属于紧急维护,需要对外发布维护公告。根据公司制度,运维工程师需先上报至运维部负责人,再由运维部负责人通知运营部负责人发布通知。 为了防止联系不上运维或运营部负责人以及公布发布专人,运营部需有权用运营部拟定的维护公告模板来发布紧急维护公告,但是由运维部发布的维护公告,需事后由运维及运营部负责人签字确认原因是有相关负责人联系不上。 4. 运维部开始进行后续技术处理直至问题解决 较复杂的故障处理工作在发布紧急维护公告之后,运维部负责人需组织运维工程师进行
本文来源:https://www.wddqxz.cn/ed0076c0866a561252d380eb6294dd88d0d23d00.html