服务概述
性能优化服务集应用、中间件、数据库、操作系统、主机、网络、虚拟化、存储等方面专家,为业务系统提供“一站式”性能评估及优化服务。
服务内容
服务模式 | 服务内容 | 服务特点 | 服务周期 |
---|
响应式服务 | 单技术领域出现的问题后, 根据问题现象及相关日志等提供远程或现场技术诊断、分析,最终出具解决方案并指导解决问题 | 定向定量的技术支持服务 | 视需求而定 |
项目式服务 | 针对有明显性能问题的应用系统成立项目组进行原因分析和性能优化方案设计,并在相关方配合支持下,完成性能调优 | 针对业务系统提供一站式性能评估与优化服务 | 单系统3-6个月 |
主动式服务 | 基于客户多个应用系统定期进行全面检查、隐患原因分析和性能调优服务;同时设立性能基线、分析性能趋势、提供保障建议 | 长期性能保障服务 | 一年2-4次 |
管理式服务 | 提供性能管理工具平台、设立一线性能管理工程师和二线性能专家团队,实时掌控系统性能状态,并及时处理性能预警 | 提供性能管理工具平台,专人驻场支持服务 | 全年 |
客户价值
掌控系统性能状态
- 基于运行数据,建立性能基线,了解健康状态
- 充分了解系统支撑能力
- 洞察系统性能瓶颈与问题
快速故障定位与修复
- 专家团队针对问题提供一站式服务,避免”踢皮球”
- 快速故障定位,全领域的专业技术支持,缩短修复时间
防范潜在性能风险
- 采取主动措施,提前处理潜在问题
- 分析性能趋势,预防性能突变风险
- 适应业务发展,进行容量的合理规划
运维管理能力提升
- 分享专家团队在性能管理方面的技术实践,帮助企业提升运维人员技术能力
- 分享专家团队统一有效性能管理过程与方法论,提高企业性能管理能力
服务优势
经验
- 10年以上专业性能优化服务经验
- 为超过100个中国大型企业核心业务系统提供过性能评估与优化服务
- 系统提供过性能评估与优化服务
专家
- 上百名10年以上专业技术背景专家团队
- 全球优质专家资源池
工具
- 独有的性能自动化分析管理平台
- 专有的性能深度分析工具
- 经过多个行业技术组件验证过的性能分析脚本
方法
- 久经考验并持续改进的性能管理流程
- 多名专家总结得来性能管理较佳实践及方法论
服务概述
容量管理目标在于实现两个平衡:容量和成本的平衡、供应与需求的平衡。在合适的时间、合适地点,以及适当的成本提供合适的资源,定义、跟踪、预测和管控IT容量,以确保服务负载能够在可控成本与协定的服务水平级别(SLA)上运行,并满足业务持续发展需求。
传统的容量管理往往通过拍脑袋的方式,容易造成容量风险、容量配置不均衡超量采购或临时应急式的盲目采购,给企业带来重大损失。
H3C容量管理服务覆盖IT系统的整个生命周期,实现业务驱动的容量管理方式,通过对业务容量数据、服务容量数据和IT基础架构组件容量数据的分析,建立科学的容量模型,实现对容量指标的分析和预测,及时发现容量瓶颈、资源配置不均衡等问题,在确保业务系统的稳定运行的同时,节约IT基础设施的成本,为客户提供科学有效的IT采购与扩容提供科学依据,为IT资源更合理分配提供决策支持。
服务内容
容量评估服务
针对应用系统涉及的技术组件,由专家团队提供容量评估服务,通过分析容量指标数据,发现容量特征和规律,以及应用系统潜在的容量问题。
容量预测服务
收集业务容量、服务容量和IT基础架构组件容量数据,通过对容量指标数据的分析、加工并建立相关容量模型,来预测未来业务容量、服务容量和组件容量的发展趋势,进行容量预警,针对未来潜在容量问题提出扩容建议。
容量规范服务
基于ITIL容量管理最佳实践,结合客户应用情况,建立适用客户 IT 系统的容量管理流程,包括容量管理概要流程和详细流程,并制定相关容量模板。使容量管理常态化、制度化、标准化、规范化。
容量管理自动化服务
根据客户的需求,定制化开发容量管理平台,自动采集、解析、加工容量指标数据,并自动适配容量模型,进行容量预测计算,自动出具容量分析评估报告。
客户价值
-
-
合理分配资源
通过容量评估,使得应用资源分配更合理、有效。
-
业务增长预测
通过业务数据和容量模型,预测未来业务增长趋势。
-
扩容和采购决策
通过业务发展趋势分析及容量模型预测,可使基础设施扩容与采购根据科学有效。
-
性能瓶颈预测
通过性能数据和容量模型,预测未来资源性能瓶颈。
-
容量管理规范
通过容量管理服务,建立统一的容量管理流程和规范,使得IT规划更科学、有效。
某金融用户应用系统可用性评估最佳实践
客户的挑战
随着企业信息化程度的不断提升,企业生产经营越来越依赖于IT系统安全、高效、可靠的运行。而随着IT技术的快速发展,IT系统也越来越复杂,如何保障IT系统可用性是企业面临的共同课题。
我们知道,一个复杂的IT系统可能会包含多个厂商多个IT组件,而这些组件一般是跨协议的,IT系统的可用性高度依赖于每个IT组件的可用性,如:IT组件是否存在BUG?IT组件之间是否存在兼容性问题?IT组件之间是否以较优状态相互协作运行? IT组件是否存在高可用风险?IT组件是否存在性能瓶颈以及性能发展趋势如何?这些都是关乎IT系统可用性、IT运维人员必须关注的问题。而一般客户缺乏“一站式”的专家团队来评估并解决这些问题。
某金融客户,IT系统涉及十几个厂商、几十个IT组件,随着业务量的不断增长和IT架构的演进、变化,在2017中旬到2018年初,陆续发生了由于IT组件BUG导致生产系统宕机、IT组件兼容性问题导致数据丢失、IT组件配置不当导致性能衰减、文件传输服务器核心组件版本问题导致客户端经常发生数据传输失败、核心交易因抢占CPU导致业务延迟等严重问题,这些问题严重影响着公司正常业务运行,给运维部门带来了巨大的压力。
解决方案
在了解到用户的需求痛点后,新华三集团技术服务部性能优化服务专家团队(PO)快速响应,针对客户关键业务系统IT组件,进行“一站式”的可用性评估,本次基础架构可用性评估主要内容:
- IT组件高可用性评估
- 硬件微码评估
- IT组件版本/补丁包评估
- IT组件安全漏洞评估
- IT组件兼容性评估
- IT组件配置参数评估
- IT组件日志检查
- IT组件性能分析与评估
- 热点问题跟踪分析与解决
评估方法
本次项目实施过程充分参考、汲取了LEAN 6 SIGMA过程改进体系的一些方法、原则,如下图:
结合LEAN 6 SIGMA相关方法、原则, 首先由客户指定关键业务系统,通过对该业务系统设计、开发、运维人员的访谈,对该业务系统关键交易的交易路径进行了梳理,绘制数据流图,对关键交易数据流向的主要设备及技术组件类型、版本等通过绘图的形式进行标注。
然后由各技术领域专家通过脚本对标注的设备和技术组件进行数据采集和整理,并依据专家最佳实践和官方建议对现状进行评估分析,建立各技术组件可用性基线,针对存在的问题,提出可用性改进建议。
最后专家团队集中讨论,并与客户相关负责人就发现的问题进行逐一讨论和确认,达成一致意见,确定问题优先级,撰写可用性分析和整改建议报告,通过阅读技术文档结合专家团队最佳实践,采用了对相关组件升级、修改组件配置参数、修改应用程序源码等手段对问题进行修正。并对修改点进行反复测试,对比调整前、改后效果,对被优化功能点进行了持续完善、改进、提高、度量;在被优化功能点达到预期效果后,撰写优化结果报告,并对优化过程、结果进行评估、汇报,最后按流程将优化资产提交相关部门,并持续跟踪上线后运行情况。
关键组件评估内容
项目组对客户关键业务系统涉及的应用程序、操作系统、中间件、数据库、存储、网络、开源组件、VMWARE等IT组件进行了全面可用性评估,下表是关键组件的概要评估内容:
类别 | 项目 |
---|
1、应用 | 使用现状及重要问题收集 关键交易流程梳理 热点函数调用及内存使用情况分析 应用架构分析评估 |
2、中间件 | 版本适用性检查 参数配置检查 运行状况检查 系统部署评估 |
3、数据库 | 参数配置检查 各类等待事件的分析 数据库网络参数配置检查 表空间使用情况检查 资源使用情况检查 数据库安全检查 sga使用及命中率分析 告警及后台日志分析 应用对象使用情况分析(碎片/扩展/效率等) 数据库存储过程和sql等性能分析及建议 备份策略评估 版本及升级策略评估 |
4、操作系统 | CPU性能分析 内存使用情况分析 IO性能分析 操作系统版本评估 文件系统使用情况分析 swap区 使用情况分析 IPC资源使用情况分析 核心参数检查 系统日志检查 |
5、主机 | 硬件运行情况及日志检查 硬件高可用性配置检查 主机微码分析 |
6、存储 | 微码检查 存储配置规划检查 软件版本检查 存储参数设定 多路径软件设置检查 存储性能分析 存储运行日志检查 |
7、开源组件 | 运行状况及性能评估 日志检查 参数评估 版本评估 |
8、网络 | 网络性能分析 网络拓扑分析 网络配置分析 高可用配置分析 安全设置分析 版本及补丁包分析 日志检查 |
9、WMEARE | vmware兼容性检查 vmware配置检查 vmware版本检查 vmware日志检查 |
场景示例: 客户核心交易在业务高峰期,经常出现超时现象,严重影响营业厅柜台业务,多次遭到客户投诉,客户开发、运维人员及三方厂商相关人员分别从应用程序、IT组件性能等入手分析,经过一个多月的排查,仍无法准确定位问题所在。PO团队入场后,首先以核心交易为主线,对涉及的架构、流程、应用、进程、基础设施等之间的支撑关系进行了快速梳理,其次对核心交易涉及的应用程序、主机、数据库、VMWARE、存储、网络等组件进行全面性能分析及深度健康检查。最后锁定交易超时的两个线程,通过kiinfo/caliper等工具对核心交易线程进行了深度性能分析。通过对核心交易性能跟踪分析,发现在业务高峰期,经常发生其中两个交易线程轮流在SLEEPING、ON_RUNQ、RUNING状态之间切换,经过对研发人员的调研访谈及源码分析,发现这两个线程由同一个进程创建,两个线程之间存在互斥,同时发现两个核心线程存在被其他进程抢占cpu资源的情况。通过psrset将两个线程绑定不同的CPU,从而将这两个线程隔离,以减少互斥,同时可减少这两个进程CPU被抢占的情况。通过chatr指令修改应用程序内存页面大小,从而提高线程cache 命中率,从而提升核心交易性能。在不改动源码的情况下,通过“外科手术式”的配置优化,使核心交易性能提升了56%,解决核心交易超时问题。
服务成果
专家团队对客户关键业务涉及的18个技术组件、317台设备进行了全面可用性评估,发现:该客户关键业务系统所有IT组件普遍存在版本未及时升级问题、部分关键组件存在参数配置不当、核心业务存在高可用风险等严重问题,经过与客户相关负责人的最终确认,有159个可用性问题是之前客户未发现或忽视的,其中严重级别较高、建议立即整改的问题有17个。
同时专家团队定位并详细分析了存储数据丢失、文件传输服务器客户端经常发生数据传输失败、核心交易延迟、生产主机宕机等客户关心的热点问题,针对问题给出具体解决方案。并就类似问题,举一反三,对关键业务系统进行全面排查,从管理和技术层面提出了整改建议,消除了业务系统可用性隐患。
新华三PO团队在帮助客户评估关键业务可用性的同时,也帮助客户梳理了关键业务系统基础架构情况,建立关键业务系统可用性基线,使客户更加清晰了解了关键业务系统的现状。
在可用性评估完成后,新华三PO团队出具了整改建议并配合相关责任方进行整改,并跟踪整改后生产运行情况,做到了业务系统可用性评估“一站式”、“端到端”的管理。
在项目进行的同时 ,团队专家也与客户分享了应用及基础架构技术、可用性评估及性能管理等方面的最佳实践,提升了客户运维管理能力。