技术解密Java Chassis 3超实用的可观测性

news/2024/9/29 21:23:13

本文分享自华为云社区《Java Chassis 3技术解密:实用的可观测性》,作者:liubao68。

狭义的可观测性,指日志、调用链和指标,广义的可观测性则包含更多的内容,一般的,应用程序暴露出来的便于理解其运行状态、运行轨迹、内部结构和功能集合的信息,都是可观测性的范围,本文只讨论狭义的可观测性。日志揭露了应用程序内部运行的轨迹,通过异常日志,可以理解错误产生的原因;调用链反映的是一次业务操作经过的关键处理节点,可以帮助快速确定问题发生的边界;指标反映错误发生时应用程序的当前或者历史状态,帮助分析需要一定的时间或者流量积累才会发生的问题,比如过载问题、性能问题等。可以看出,为了分析故障,具备可观测性能力非常重要。

微服务系统具备复杂的调用关系和分布式部署特征,为了更好的分析和处理日志、调用链和指标,通常会部署ELK、SkyWalking和Prometheus等外部系统。 这些系统完全搭建起来,会花费数十万每年的计算成本,而且很可能并没有显著提升日常问题定位的效率,不恰当的使用还可能会引入性能问题。针对问题定位难的情况,Java Chassis 3提供了非常简单高效,而且低成本的解决方案。由于采集的数据,都是和Java Chassis运行过程和系统架构强相关的,也避免了采集海量无关数据,使得数据对于问题分析更具有针对性,能够更加快速识别问题根因。

在下面的部分,我们首先解密如何使用可观测能力来快速定位问题,然后再解密这个能力是如何构建起来的。

问题定位流程

在很多组织里面,问题定位都是由不太熟悉系统结构和技术细节的运维人员开始的,或者是由工作交接后刚刚接触系统的新人开始的,这给快速定界问题,收集和问题相关的信息带来了巨大的挑战。一个问题从发现到传递给责任模块,数个小时的时间就过去了。 设计一个简单的问题定位流程,快速定界问题和收集关联信息,是可观测系统搭建的起点。

当用户识别到一个故障,比如交易失败,在系统层面,会对应到一次系统请求的失败。在系统设计之初,会采用一个请求标识将用户故障和系统请求关联起来,即 TraceId, 这个是所有调用链系统设计的基础。 通常建议前端在发送请求的时候,都携带 TraceId, 便于将前后端请求进行关联。在前端未按照要求携带 TraceId 的情况下,Java Chassis会在应用网关 Edge Service生成 TraceId, 并在给前端响应的HTTP头中携带 TraceId。 当用户识别到一个故障,可以通过浏览器等前端工具获取到 TraceId。 问题定位的起点是获取TraceId。

cke_114.png

在管理控制台,输入TraceId 和问题发生大概时间,可以检索出关键的调用链信息和关键日志信息。 通过调用链信息,可以知道请求的执行轨迹和发生问题的节点,通过关键日志信息,能够快速确定问题根因。 对于一些简单常见的问题,经过这个简单的步骤,就能够确定问题根因。

对于一些复杂的问题,需要获取上下文日志或者指标来进行深入的分析,运维人员可以在检索结果里面将完整的日志文件和指标信息下载下来,提供给故障服务的技术人员。

从上面的过程可以看出,运维人员在不理解系统实现细节的情况下,也能快速定界和定位一些简单问题,并能够快速收集详细的和问题强相关的信息提供给技术人员做进一步处理。

实现原理

Java Chassis在设计之初,就内置了大量的可观测能力。使用上述流程,无需部署ELK、SkyWalking和Prometheus去采集数据,也不需要集成这些工具的SDK或者Agent。 通过一些开发规范约束和可观测API就能够实现一个简单高效和易用的定位系统。

动手试试: 可以通过下载和运行 fence 项目,体验上述问题定位流程和了解本章节介绍的实现原理。 也可以在实际的业务系统中,参考该项目构筑业务需要的可观测能力。

Java Chassis通过集成 应用性能监控(https://servicecomb.apache.org/references/java-chassis/zh_CN/general-development/metrics.html) 、 微服务调用链(https://servicecomb.apache.org/references/java-chassis/zh_CN/general-development/microservice-invocation-chain.html) 来生成调用链和指标,日志则使用 slf4j 来记录。 这些数据构成了可观测的基础, 接下来就是如何存储和采集这些数据。

通过配置 log4j2 , 可以将日志、调用链和指标都输出到日志文件。 特别的,该日志配置约束了数据存储的规则、路径,为可观测API提供了简单的实现方案。

<Configuration><Properties><property name="FILE_PATH" value="./logs/admin-website"/></Properties><Appenders><Console name="Console" target="SYSTEM_OUT"><PatternLayout pattern="%-d{yyyy-MM-dd HH:mm:ss} [%X{SERVICECOMB_TRACE_ID}][%p][%t][%c:%L] %m%n"/></Console><RollingFile name="RootLog" fileName="${FILE_PATH}/root.log"filePattern="${FILE_PATH}/root-%d{yyyy-MM-dd-HH}.log"><PatternLayout pattern="%-d{yyyy-MM-dd-HH:mm:ss} [%X{SERVICECOMB_TRACE_ID}][%p][%t][%c:%L] %m%n"/><Policies><TimeBasedTriggeringPolicy interval="3"/></Policies><DefaultRolloverStrategy max="100"/></RollingFile><RollingFile name="TraceLog" fileName="${FILE_PATH}/trace.log"filePattern="${FILE_PATH}/trace-%d{yyyy-MM-dd-HH}.log"><PatternLayout pattern="%-d{yyyy-MM-dd HH:mm:ss} %m%n"/><Policies><TimeBasedTriggeringPolicy interval="3"/></Policies><DefaultRolloverStrategy max="100"/></RollingFile><RollingFile name="MetricsLog" fileName="${FILE_PATH}/metrics.log"filePattern="${FILE_PATH}/metrics-%d{yyyy-MM-dd-HH}.log"><PatternLayout pattern="%-d{yyyy-MM-dd HH:mm:ss} %m%n"/><Policies><TimeBasedTriggeringPolicy interval="3"/></Policies><DefaultRolloverStrategy max="100"/></RollingFile></Appenders><Loggers><Logger name="scb-trace" level="INFO" additivity="false"><AppenderRef ref="TraceLog"/></Logger><Logger name="scb-metrics" level="INFO" additivity="false"><AppenderRef ref="MetricsLog"/></Logger><Root level="INFO"><AppenderRef ref="Console"/><AppenderRef ref="RootLog"/></Root></Loggers>
</Configuration>

每个微服务都集成和实现可观测API。

@Path("/v1/scb/observability")
public interface ObservabilityService {String NAME = "scb-observability";@Path("/searchTrace")@GETSearchTraceResponse searchTrace(@NotNull @QueryParam("timestamp") String timestamp,@NotNull @QueryParam("traceId") String traceId);@Path("/searchLog")@GETSearchLogResponse searchLog(@NotNull @QueryParam("timestamp") String timestamp,@NotNull @QueryParam("traceId") String traceId);@Path("/downloadLog")@GETPart downloadLog(@NotNull @QueryParam("timestamp") String timestamp);@Path("/downloadMetrics")@GETPart downloadMetrics(@NotNull @QueryParam("timestamp") String timestamp);
}

最后,我们可以开发一个管理控制服务,实现管理面可观测API, 就完成了可观测能力的构建:

@Path("/v1/scb/admin/observability")
public interface AdminObservabilityService {String NAME = "scb-admin-observability";@Path("/searchTrace")@GETList<SearchTraceResponse> searchTrace(@NotNull @QueryParam("timestamp") String timestamp,@NotNull @QueryParam("traceId") String traceId);@Path("/searchLog")@GETList<SearchLogResponse> searchLog(@NotNull @QueryParam("timestamp") String timestamp,@NotNull @QueryParam("traceId") String traceId);@Path("/downloadLog")@GETPart downloadLog(@NotNull @QueryParam("timestamp") String timestamp,@NotNull @QueryParam("serviceName") String serviceName,@NotNull @QueryParam("instanceId") String instanceId);@Path("/downloadMetrics")@GETPart downloadMetrics(@NotNull @QueryParam("timestamp") String timestamp,@NotNull @QueryParam("serviceName") String serviceName,@NotNull @QueryParam("instanceId") String instanceId);
}

和传统方案的对比分析

与部署ELK、SkyWalking和Prometheus去采集数据的传统方案对比,上述方案非常简单和实用,能够帮助实时在线分析问题,该方案也无需将日志、调用链和指标等数据集中存储下来,可以节省大量的存储设备空间。 当然它的缺点也是显而易见的,对于已经下线的服务,或者对于历史问题需要追溯的情况,则采集不到相关的信息。 站在问题定位的角度,存储海量的日志、调用链和指标数据,大量数据都是和问题无关的,并且多数情况是要在第一时间完成问题定界和信息收集,因此上述方案相比于传统方案就有了非常大的竞争力优势。

客户故事:很多客户花了大量成本构建可观测能力,依然无法指导运维人员快速定界和定位问题。通过建立一个简单实用的问题定界流程和采集数据的手段,可以帮助提升问题定位效率。

 

点击关注,第一时间了解华为云新鲜技术~

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hjln.cn/news/45353.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

charles证书过期处理

证书过期 1.打开charles 重置证书 2.安装证书 3.安装后会自动打开钥匙串,把旧的证书删掉,会出现新的证书 4.双击证书,点击全部信任 5.重启charles即可

2024年6月中国数据库排行榜:榜单前三又迎新,金仓华为云跃升展雄心

墨天轮6月排行榜解读文章已发布!本月榜单前10再现变动、开源数据库继续引领潮流,此外更有一批数据库表现亮眼、迈向国际舞台。一起来看更多排名情况与解读!入夏之际,2024 年 6 月中国数据库排行榜揭晓,各大数据库产品的表现格外引人注目。榜单显示,开源数据库继续引领潮流…

PyQT5之QListWidget

实例1 import sys from PyQt5.QtCore import Qt from PyQt5.QtGui import QIcon from PyQt5.QtWidgets import QMainWindow, QMessageBox, QApplication, QWidget, QVBoxLayout, QPushButton, QListWidget, QListWidgetItemclass ListWidgetDemo(QMainWindow):def __init__(sel…

云原生技术实践营 深圳站——Serverless + AI 专场开启报名!

1.活动简介 “云原生技术实践营 深圳站 ——Serverless +AI应用开发专场” 是一场以 Serverless 为主题的技术活动,通过一个下午的时间增进对 Serverless 技术的理解,快速上手,活动受众以关注 Serverless 技术的开发者、企业决策人、云原生领域创业者为主,活动形式为演讲、…

数据平台:企业数字化转型的加速器

企业数字化转型的基本路径 数字化转型是一个逐步发展的进程,它遵循着从计算机化到连接、透明化、预测和自适应的路径。在这一进程中,企业从传统工厂向透明工厂、智能工厂转变,实现工业4.0的目标。这一转变涉及人机环境料法的各个方面,包括现场管理、制造管理、运营管理等,…

隐马尔科夫模型HMM——Python实现

隐马尔科夫模型(Hidden Markov Model, HMM)是一种统计模型,用于描述一个由隐藏的马尔科夫链驱动的随机过程,其中观测序列和状态序列之间存在某种统计依赖关系。HMM通过一组隐藏状态(隐含状态)和观测到的序列来描述系统的行为,通常用于解决时间序列分析、模式识别和自然语…

物理机开关机

关机[root@openstack017.xx.com xx]# init 0Receive Connection closedConnection websocket closed

根据业务数据计算系统并发

1、日活 访问量 活跃度 2.1 PV(Page View) 访问量, 即页面累计浏览量或点击量,衡量网站用户访问的网页数量;在一定统计周期内用户每打开或刷新一个页面就记录1次,多次打开或刷新同一页面则浏览量累计。 2.2 UV(Unique Visitor)访问用户数(去重),统计1天内访问某…