
近期我们发布了公共云版,开箱即用的 SREAgent,对运维而言这是一个必备的好助手,简单看下它给运维带来的一些直接的帮助。
近期我们发布了公共云版,开箱即用的 SREAgent,对运维而言这是一个必备的好助手,简单看下它给运维带来的一些直接的帮助。
在介绍能带来的一些帮助之前,要先强调下,因为运维通常是高风险的操作,SREAgent 为了避免造成问题,目前采用的避免误操作导致生产环境各种问题的方法是:
1. 给 SREAgent 配置的权限尽量是只读的,例如云账号的权限,或者其他例如运维平台的权限等,因为这个需要用户自己控制,所以 SREAgent 也只能是在配置账号的时候强调;
2. 做具体的操作时,SREAgent 内置了白名单机制,对于高危的操作直接拒绝执行。
有了这样的安全保障后,才可以放心的使用 SREAgent 来做运维的一些事情,来继续看它可以给运维带来的一些直接的帮助的事情:
1. 帮助回答研发的各种问题以及运维自己处理各种问题
运维通常要面对众多的研发,经常会需要回答各种问题,通过 SREAgent,研发则可以自助的去问各种问题,因为和环境(测试、预发或生产)是直接关联了的,所以和泛泛而问的情况是完全不同的。同样,运维自己也可以用这个来处理各种问题,无论是了解环境情况,还是排查某些问题等。
2. 自动处理众多的告警
可以给 SREAgent 配置对接一些告警源,这样 SREAgent 会自动的来接这些告警,并自动的进行排查,标识为高风险的告警,还是可忽略的,以及该怎么解决(通过将贝联珠贯团队的经验沉淀为内置的 skills,提高排查的准确性等),同样,为了避免风险,具体的操作目前阶段还是会交给人来决定和执行(在告警治理或运维大盘中都可以看到 SREAgent 处理的结果)。
告警源配置目前可支持以下几种监控系统的对接:
| 告警源 | 说明 | 同步模式 |
|---|---|---|
| AliyunCmsAlertSource | 阿里云云监控(CMS)告警 | 拉取 |
| CdhEventSource | CDH 事件源 | 拉取 |
| K8sEventSource | Kubernetes 事件源 | 拉取 |
| TencentEmrAlertSource | 腾讯云 EMR 告警 | 拉取 |
| TencentWedataAlertSource | 腾讯云 WeData 告警 | 拉取 |
| AliyunEmrAlertSource | 阿里云 EMR 告警 | 拉取 |
| DatapilotAlertSource | DataPilot 告警 | 拉取 |
| FlashcatAlertSource | Flashcat(夜莺监控)告警 | 拉取 |
| GrafanaWebhookEventSource | Grafana Webhook 事件源 | 推送 |
| ZabbixAlertSource | Zabbix 告警 | 拉取 |
| TdhAlertSource | TDH 告警 | 拉取 |
3. 自动巡检避免一些高风险或其他的潜在问题
对于不同的系统,都有一些高风险或其他需要关注的情况,对于这些情况,自动的巡检是非常的关键的,例如简单的有系统核心的功能是否可用,甚至系统的某些存储策略、架构原则是否生效,成本是否有严重浪费等,在 SREAgent 里不需要编写代码,而是可以自然语言的方式直接来写需要怎么巡检就可以,非常方便。
除了以上这些开箱即用的直接的帮助外,SREAgent 还有很多其他的能力,例如成本分析、拓扑关系分析等。如果觉得还不够用或有自己私有的环境、产品等,可通过自行开发 skill,安装到 SREAgent 中,来扩展 SREAgent 的能力。
欢迎运维岗或研发岗的都给自己配备上这个好用的帮手,具体试用 SREAgent 的方法请见 199 元,10 亿运维 token,快来抢
来源:互联网



