登陆 | 注册 设为首页 | 加入收藏 | 联系我们
太和养老网
热词老年艺术  助老机构  养老系统  

中心区域北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 香港 澳门 台湾 全国城市养老院目录 全国县市养老院汇总目录 太和AI作品展 太和养老艺术网AI作品展示

为什么你的大多数监控策略都失败

 

2023/7/11 6:15:05 ('互联网')

作者 | Abdul Fattah Popoola

译者 | Sambodhi

策划 | 褚杏娟

未经验证的可观察性和随时待命的团队总会不可避免地遇到反应中断,而要想减少中断是很痛苦的,因为这就像蒙住双眼在大海捞针。我之所以知道这些,是因为我曾稳定了经历过混乱的团队。

未检测到的降级导致用户感到痛苦。

无休止的、海啸般的嘈杂警报。

24 小时待命压力,难以承受,不可持续。

这篇文章是针对那些因为一直救火而精疲力竭的工程师们,对想要将一项成熟技术加入到工具箱中的管理者来说,也有所帮助。毕竟有谁会不喜欢一支高效的团队呢?

1影响团队永久反应的四个原因

尽管监控系统报告的状态为“健康”,但用户的投诉仍源源不断。

缺乏主动的故障检测,只有在用户投诉时才能检测到中断。

工程师试图解释页面如何影响用户。

一位工程师意外地发现了残缺的功能。

2监控策略是怎样令用户失望的

监控的目标就是要保证用户的良好体验,主动把问题扼杀在摇篮里,或者能够迅速缓解没有捕捉到的问题。事实上,大部分方案都未能达到这个目标,原因并非是存在工具方面的差距,而是因为工具使用不当,这意味着并没有理解核心问题出在哪里。

这一问题的显著特征之一就是,疲于救火的团队数量与可观察性工具的数量相当。事实上,如果仅仅是工具的问题,那么使用 Prometheus/Nagios/geneva/kusto/ 等等,就能解决这个问题。

用户需要的是什么?举个例子,在使用文字处理软件时,我需要的是把东西写好并完成工作,我不关心内存使用情况或处理器速度。因此,偶尔的冻结或者崩溃是可以忍受的——我抱怨着重启程序,然后恢复工作。然而,如果我丢失了我的工作文件,或者如果重启或刷新或后仍然存在问题,我就会感到沮丧。

用户只有在造成不可逆转的损害时才会关心这个故障。偶尔出现的崩溃、YouTube 故障或 PC 冻结都是可以忍受的,因为它是暂时的。

可观察性策略必须回答的关键问题就是:你的用户是否满意?要回答这个问题,就需要了解你的用户,知道什么能让他们满意。对这个问题的回答将渗透到可观测性栈中,并且会对连贯的操作实践产生影响。

让用户满意的要素:

产品团队,性能、可靠性、持久性。有关更多信息,请参见 No Surprises 文章。

平台团队,不要止步于使用您服务的直接团队,还要尝试了解这些合作伙伴团队的用户。

一些用户不满意的代理指标的要素:

可靠性,由于内部系统错误而导致的故障和不可靠的结果(例如,错误对话框)。

延迟性,操作花费的时间比预期的要长(例如,一个请求需要 10 秒钟而不是 2 秒钟)。

可用性,不应向用户显示的内部错误(例如,隐晦的通用消息或对用户不友好的调试日志)。

持久性,任务关键型系统中的数据丢失(例如,无法保存)。

可用性,当需要处理请求时,系统不可用(例如,无法访问服务器)。

3为什么需要一个好的可观察性指标?

以用户为中心的可观察性指标有两个目标:

下面,让我们讨论一个经过实战检验和验证的成熟策略。

4CAR 框架

CAR 框架的三个实体:用户、应用程序和资源

展开全文

CAR 代表“用户”(Customer)、“应用程序”(Application)和“资源”(Resource),它通过建立三个实体(用户、应用程序和底层资源)之间的交互,提供监视脱节的解决方案。

它像测试金字塔一样确保了重叠的监视覆盖,从而确保了测试覆盖。

CAR 金字塔展示了用户、应用程序和资源之间的关系

资源(如虚拟机、缓存)构成了构建应用程序的基础;反过来,应用程序是为了满足用户的需求而构建的。

大多数策略都假定健康的应用程序和资源能够保证优秀的用户体验,但这种假设并不总是正确。

下图中的红色箭头显示了聚焦于单个层如何会导致监视器产生噪音。单一的绿线是穿过可观察性并将其与用户联系起来的一种方式——以用户为中心的指标是成功监控策略的关键。

使用 CAR 金字塔突出显示脱节的度量

使用 CAR 的结果

以下是跨团队应用该策略的一些成果:

识别盲点:检测以前不会被注意到的中断,揭露系统中长期隐藏和存在的缺陷,从而进行适当的架构修复。

减少工作量:事故的数量级下降(主要是由于消除了噪音监视器)。

信任:警报意味着真正的用户问题,工程师有动力去找出根本原因。这比表面处理嘈杂的监视器要好得多。

主动执行:减少事件量和暴露架构缺陷的工作量有助于团队从反应性救火转向主动、集中解决问题。

每个人都感到高兴:用户的中断次数减少,工程师接到的电话也减少了。

5结束语

大多数典型的监控策略都是“只见树木不见森林”——他们只关注资源或应用程序的健康状况,而忽略了最关键的问题:用户是否满意?

希望你从这篇文章中学到一件事——那就是确保你的监控策略与用户满意度直接挂钩,即如果你的用户不能使用你的应用程序,那 10 个 9 就不重要。

作者简介:

阿卜杜勒·法塔赫·波普拉(Abdul Fattah Popoola),具有超过 15 年的跨多个业务域和技术栈的软件开发经验的工程领导者。拥有马斯达尔学院(Masdar Institute)的计算和信息科学硕士学位以及沃洛沃大学(Obafemi Awolowo University)的计算机工程学士学位。

原文链接:

/

声明:本文为 InfoQ 翻译,未经许可禁止转载。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

腾讯QQ空间技术总监、47岁T13级前端专家被裁;GPT-4下周发布,支持视频、更具颠覆性;我国拟组建国家数据局 | Q资讯

马斯克被Twitter脆弱的代码“逼疯”,要求全部重写!网友:重构是空降领导了解当前系统最快的方式?

百度文心一言发布倒计时十天,我们和背后的工程化团队聊了聊

Meta版ChatGPT惨遭“开源”?最新大模型LLaMA被泄露,已在GitHub收获7k+星



扫码加微信详细咨询太和智慧养老产品和平台服务!



扫码加微信详细咨询太和智慧养老产品和平台服务!

 

 





版权声明:

---------------------------------------------------------------


所有信息来源于互联网,本文的版权归原作者所有,不代表本网观点和立场。

本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 81480447@qq.com 举报,一经查实,本站将立刻删除。



扫码加微信详细咨询太和智慧养老产品和平台服务!

 

养老资讯
助老机构介绍
评论
已有 0 条评论

最新评论

推荐养老院

您希望养老院位于
  • 不限
  • 东城
  • 西城
  • 崇文
  • 宣武
  • 朝阳
  • 丰台
  • 石景山
  • 海淀
  • 门头沟
  • 房山
  • 通州
  • 顺义
  • 昌平
  • 大兴
  • 怀柔
  • 平谷
  • 延庆
  • 密云
您希望的价格范围
  • 不限
  • 500以下
  • 500-1000
  • 1000-2000
  • 2000-3000
  • 3000-5000
  • 5000以上
老人的情况是
  • 不限
  • 自理
  • 半自理
  • 全护理
  • 特护

姓名

年龄

电话

全国城市养老院



关于我们 | 联系方式 | 网站地图 | 友情链接

Copyright 2010-2022 京ICP备18035644号-3 北京太和 版权所有