资讯专栏INFORMATION COLUMN

为高效 Ops 和 SRE 团队准备的 10 个开源 k8s 工具

KevinYan / 2522人阅读

摘要:渲染节点并指明它们的总体状态。为节点和提供工具提示信息。作为一个日志查看器,允许你使用选择器从匹配的流式的查看日志。日志查看器你可以基于标准的标签选择器匹配,通过名字,通过服务,通过部署,等等。使得和团队在容器排错和安全调查方面很方便。

如果你正在 Kubernetes 上工作,你的 SRE 和 Ops 团队需要正确的工具来确保Kubernetes集群的高可用和在其中运行的工作负载。这里我们列出了10个开源Kubernetes工具来使得你的SRE和Ops团队更高效的达到他们的服务水平目标(SLA)。

Kube-ops-view

Kube-ops-view为多个Kubernetes集群提供了一个通用的操作视图,对于SRE和Ops团队来说这是一个方便的工具,Kube-ops-view提供只读的系统仪表。Kube-ops-view 提供了一些非常酷的特性:

在多个Kubernetes 集群间切换。

渲染节点并指明它们的总体状态(“Ready”)。

展示节点的容量和资源利用率(CPU,内存)。

指明pods的状态(绿色:ready/running,红色:error等)。

为节点和pods提供工具提示信息。

pod创建和终止。

使用屏幕令牌在TV屏幕上提供仪表盘。

Cabin

Cabin是一个Kubernetes 的原生的手机App仪表盘。Cabin UI是使用React Native,因此可以运行在 IOS和Android硬件上。它是一个移动助手,提供了细粒度操作来维护Kubernetes 资源。Cabin app做了触摸优化。例如,你可以通过一个左滑动来删除一个pod。你也可以通过一个手指滚动来扩展部署。




Cabin 的一些有趣的特性:

无缝的支持 Google Kubernetes Engine (GKE),你可以直接在你的移动手机上创建 GKE集群。

早期支持帮助图表,你可以浏览图表库,并且通过点击移动运行图表。

访问 pod 日志,通过标签(label)搜索资源,通过改变你部署的镜像触发滚动升级等。

Kubectx

如果你工作在多k8s 集群,kubectx是另外一个必须要有的工具。Kubectx与kubens捆绑在一起,当你使用kubectl的时候,允许你在Kubernetes集群和命名空间之间切换。

kubectx 和 kubens支持在bash/zsh 环境通过 tab 来帮助你补全长的长下文名称。你不在需要记得完整的上下文名称。

Kube-shell

Kube-shell是一个和Kubernetes CLI集成的 Shell,它有一些非常漂亮的特性,比如:

自动补全命令,自我提示,联机文档。

通过使用 up/down 键盘命令访问历史命令的执行。

从kubeconfig获取当前上下文,在 集群/命名空间之间非常容易的切换。

相关工具

Kube-prompt是另外一个有自动补全特性的交互式Kubernetes客户端。它接受没有kubect前缀的命令。

另外,Kube-ps1是一个类似的脚本让你添加配置在kubectl的当前Kubernetes 上下文和命名空间到你的Bash/Zsh提示字符。

最后,Kail是一个 Kubernetes tail。作为一个Kubernetes日志查看器,kail允许你使用选择器从匹配的pods流式的查看日志。

Kail - kubernetes 日志查看器

你可以基于标准的标签选择器匹配 pods,通过名字,通过服务,通过部署,等等。

Stern是另外一个专注于 pods和 pods中容器的日志 tail 解决方案。使用 Stern,为了快速调试,结果是有颜色的。

Telepresence

Telepresence是一个开源的工具,可以让你在本地调试服务,虽然该服务与它位于远程Kubernetes集群或者是远程云服务资源(如数据库)的依赖服务保持连接。

Telepresence 本地开发和和对远程Kubernetes 集群的调试。

就个人而言,我认为Telepresence有很大的潜力,对于运行在 Kubernetes 上的服务而言,Telepresence已经是一个丰富的本地开发环境。在线调试是一个新事物,但是发展很快。

Weave Scope

Weave Scope是一个Docker 和 Kubernetes的排错&监控工具。它为你的应用自动的构建逻辑拓扑以及基础设施,以便你的SRE和Ops团队可以直观的明白,监控,控制你的容器,基于应用的微服务。

除了拓扑视图,Weave Scope也提供了一个深入视图,比如节点和进程之间的任何事情,包括部署,服务,副本集,pods 和容器。另外,你基于CPU和内存使用率应用过滤,或者是通过名字,标签,甚至路径使用搜索快速的找到节点类型,容器和进程。

PowerfulSeal

PowerfulSeal 的灵感来源于 Chaos Monkey,由 Bloomberg 工程师团队开发。它可以给你的Kubernetes集群添加混乱,如杀掉目标的pods或者是节点。它以两个模式操作:交互式和自治的。

交互式模式被设计为允许你发现你的集群组件,并且人工的停止一些事情看会发生什么。它操作在节点,pods,部署,和命名空间上。

自治模式读取一个策略文件,可以包含任意数量的pod和节点的场景。每个场景描述了在集群上匹配,过滤,和行动的列表。

策略文件是以YAML 格式编写的,包含将被自治客户端执行的场景。

相关工具

kube-monkey是用于Kubernetes集群的Netflix的Chaos Monkey
的另外一种实现方式。它随机删除在Kubernetes集群中的pods,鼓励并验证恢复服务的开发。

Marmot

Marmot是一个来自于谷歌的工作流执行引擎,用于处理SRE和Ops需要的工作流。它被设计为处理基础架构变更的工具,但它可以和Kubernetes一起使用。

它特别适用于那些有一定节奏,可能需要对健康进行状态检查的任何类型的操作。因此,比如,你正在使用大量实例发布一个新服务版本,这时你执行了一个增量在受控的发布(金丝雀发布)。

Ark

Ark 是一个用于管理从你的Kubernetes资源和卷做灾难恢复的工具。Ark提供一个简单并且鲁棒的方式来备份和从系列的检查点恢复Kubernetes资源和持久化的卷。备份文件被存储在一个对象存储服务(如,Amazon S3)。

Ark 确保你以一个高效的方式自动化以下场景:

减低灾难恢复的TTR(响应时间)。

Kubernetes API 对象提供跨云服务器商迁移。

通过复制生产环境副本,开发和测试环境的设置(+CI)。

Ark 附带一个集群服务(Ark server)和CLI(Ark 客户端),集群服务最重要的工作就是它运行所有的Ark控制器。Ark服务器执行实际的备份,校验,和把备份文件加载进云对象存储中。

Sysdig

Sysdig是一个容器排错工具,它可以捕获系统调用和来自于Linux内核的事件。简单的说,对于整个集群,Sysdig就是strace + tcpdump + htop + iftop + lsof + wireshark。

Sysdig 在物理机和虚拟机的操作系统级别使用。通过安装进Linux内核,捕获系统调用和其他操作系统事件。Sysdig 也可以为系统活动创建trace文件。

相关工具

Sysdig Inspect是一个可视化通过Sysdig收集的数据的接口。Sysdig Inspect 使得SRE和Ops团队在容器排错和安全调查方面很方便。

Inspect的用户接口被设计为直观的导航Sysdig捕获的数据,包含系统,网络和一个Linux系统的应用活动。Sysdig Inspect帮助你明白趋势,相关性的指标,和大海捞针(从一堆数据中找到关键数据)。它包含了功能设计来支持性能和安全调查,深入容器查询。

Sysdig Falco 是另外一个构建与Sysdig收集的数据基础之上的工具。Falco监控活动行为,它被设计为发现你应用中异常的活动。比如,使用Falco你可以发现活动,如:

运行在一个容器中的脚本。

一个运行在私密模式的容器。

一个挂载在敏感主机的容器。

最后的思考

Kubernetes 生态系统正在爆炸性增长。有大量的开源和商业工具可以帮助你更高效的操作非关键性的Kubernetes集群和服务。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/32662.html

相关文章

  • 高效 Ops SRE 团队准备 10 开源 k8s 工具

    摘要:渲染节点并指明它们的总体状态。为节点和提供工具提示信息。作为一个日志查看器,允许你使用选择器从匹配的流式的查看日志。日志查看器你可以基于标准的标签选择器匹配,通过名字,通过服务,通过部署,等等。使得和团队在容器排错和安全调查方面很方便。 如果你正在 Kubernetes 上工作,你的 SRE 和 Ops 团队需要正确的工具来确保Kubernetes集群的高可用和在其中运行的工作负载。这...

    Harriet666 评论0 收藏0
  • 快收藏!52篇25万字,微服务、云原生、容器、K8S、Serverless精华文章集锦

    摘要:正在走远,新年之初,小数精选过去一年阅读量居高的技术干货,从容器到微服务云原生,汇集成篇精华集锦,充分反映了这一年的技术热点走向。此文值得收藏,方便随时搜索和查看。,小数将继续陪伴大家,为朋友们奉献更有逼格的技术内容。 2017正在走远,新年之初,小数精选过去一年阅读量居高的技术干货,从容器、K8S 到微服务、云原生、Service Mesh,汇集成52篇精华集锦,充分反映了这一年的技...

    AaronYuan 评论0 收藏0
  • 崔立强:Dev无感Ops,如何做到高效软件交付

    摘要:用云效首先可以获得研发模式的标准化,我们将其命名为,这是目前应用最广最适合阿里巴巴的分支管理模式,不但具有高度自由,快速迭代的特性,还可以与流水线结合,让整个公司具有统一的软件交付规范。最终避免了的发布故障。 在2018第二届研发效能嘉年华上,阿里巴巴云效技术专家崔力强带来了如何做到高效软件交付的精彩演讲,首先介绍了阿里巴巴在近几年在交付平台上的技术经验,以及目前云上工具平台交易的趋势...

    wawor4827 评论0 收藏0
  • 他山之石——运维平台哪家强?

    摘要:当云平台出现网络故障系统故障等问题,这对云租户用户有时甚至是致命的,所以不少是由高级别开发人员转型而来。目前国内各大云厂商也基本都提供了应用运维平台,包括腾讯蓝鲸阿里华为等。 DevOps 全链路 下图是我们熟知的软件研发环节,在迭代频率高的研发组织里,一天可能要经历多次如下循环。对于用户群体庞大或者正在经历大幅业务扩张的企业研发组织,除了重点关注应用的快速上线之外,如何保障应用的高可...

    mylxsw 评论0 收藏0
  • 活动实录丨SRE在传统企业中落地实践

    摘要:坚持演习谷歌定期做的演习,如最高等级的演习是定期把数据中心强制关闭,进入维护状态。经过长期演练,谷歌内部系统的容错能力增强。 showImg(https://segmentfault.com/img/remote/1460000009390718?w=80&h=80); 王璞/数人云创始人&CEO 美国George Mason 大学计算机博士。曾先后供职于 Google、Groupon...

    沈俭 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<