SRE工程师手中的利器
层面发生的问题,必须以闪电般的速度加以解决,在理想情况下,最好能让最终用户或客户完全感受不到问题的发生。而随着全球经济体系乃至社会结构的数字化转型,对事件管理能力的需求也变得愈发紧迫。 但是,尽管现代应用程序能够快速响应客户需求,但其自身的更新与修复又提出了新的速度要求,同样对基础设施可靠性形成巨大压力。一旦出现性能问题甚至数字服务中断,对现代应用程序造成的影响反而比传统应用更严重。 在管理基础设施可靠性方面,选择正确工具无疑是达成目标的重要前提。对于站点可靠性工程师(SRE)及其他员工而言,相当一部分云原生方法确实太过复杂、难以理解。因此,除了良好的可见性之外,他们还需要建立起判断问题优先级、迅速发现故障并加以解决的能力。 AIOps的意见也正在于此。随着软件与基础设施资产的迅猛拓展,AIOps能够自动检测到环境中的异常、为团队提供必要的安全性加持,保证在问题扩大化、复杂化之前及时将其解决。 值得注意的是,随着应用程序与基础设施的蓬勃发展,AIOps也开始成为一种极为重要的站点可靠性工程工具。它能够高效吸纳观察数据、参与数据以及来自第三方工具的数据,判断系统运行状态并保证其处于最佳状态。为了帮助团队识别并诊断问题,算法与机器学习工具随后会被整合至数据之内,借此充实关于现状的情报,甚至有望自动高效地完成事件响应。 着眼于现实场景,以下五种AIOps应用方法值得关注: 方法一 检测事件 这也是AIOps扩展工具包的核心用例,帮助团队快速发现问题。AI与机器学习能够自动梳理异常迹象,而后将学习结果用于观察系统及基础设施的运行态势。凭借这种自动性方法,AIOps能够及时发现预警信号,帮助运营团队在客户体验受到影响之前就及时介入。 方法二 减少及消除噪音
事件响应当中,警报疲劳一直是个大问题。警报的持续涌出往往令员工的神经变得麻木,难以发现真正紧急的状况。理想情况下,我们需要准确判断哪些警报优先级较低、哪些警报彼此关联。AIOps能够关联、精简警报并确定其优先级,借此消除警报疲劳问题、帮助团队高效处理对可靠性威胁最大的故障。 (编辑:开发网_开封站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |