路线图
以下仅列出了我们计划实施的一些主要功能,其中一些是短期目标,另一些是长期目标。我们试图按优先级对它们进行排序,并在最后列出愿望清单。要更全面地了解计划的功能和当前工作,请查看各个仓库的问题跟踪器,例如,Jaeger 后端 。
支持 ClickHouse 作为原生数据源
支持 Clickhouse 的后端存储,它是一个用于 OLAP 用例的开源列式数据库。它对大量数据摄取和搜索非常高效和高性能,使其成为跟踪和日志数据的理想数据库。它还可以非常快速地进行聚合,这对于 Jaeger 中的几个功能非常有用。[[功能]]: ClickHouse 作为核心存储后端
与 OpenTelemetry 收集器集成
OpenTelemetry 收集器 是一种与供应商无关的服务,用于接收、处理和导出遥测数据。我们决定在 OpenTelemetry 收集器之上重建 Jaeger 后端组件(代理、收集器、引入器、一体机),这有几个好处
- 自动与 OpenTelemetry SDK 兼容
- 与 OpenTelemetry 原生数据模型向前兼容
- 基于尾部的采样
- 属性处理器
- 利用更大的社区
可以在博客文章 Jaeger 拥抱 OpenTelemetry 收集器 中找到更多信息,以及早期的文章 Jaeger 和 OpenTelemetry ,该文章概述了项目的策略。这项工作将在收集器和相关 API 更加稳定之后进行,大约在 2021 年底。
当前进度可以通过 标记为 area/otel
的问题进行跟踪。
愿望清单或长期目标
数据管道
基于 Apache Flink 的跟踪聚合和数据挖掘的后收集数据管道。部分工作已完成,可以在 jaeger-analytics-flink/ 中找到。
Jaeger 的 AI/ML 平台
- 使用跟踪/遥测数据进行 ML/AI 的社区/SIG。
- ML/AI 与 Jaeger 集成,使数据科学家能够轻松编写和评估模型(例如 Jupyter 笔记本)。
- 模型/后处理管道注册表,这些管道从跟踪数据中推导出有用的信息。
有关更多信息,请查看问题跟踪器:jaeger/issues/1639 。
跟踪质量指标
在大型组织中部署像 Jaeger 这样的分布式跟踪解决方案时,这些组织利用了许多不同的技术和编程语言,因此总会有一些问题,例如有多少架构与跟踪集成,仪器的质量如何,是否有微服务使用过时的仪器库版本等等。
跟踪质量引擎( jaeger/issues/367 )对后端收集的所有跟踪运行分析,检查它们是否存在已知的完整性和质量问题,并向服务所有者提供摘要报告,其中包含有关改进质量指标的建议以及指向展示问题的示例跟踪的链接。
动态配置
我们需要一种动态配置解决方案( jaeger/issues/355 ),它在各种情况下非常有用
- 将服务列入黑名单
- 覆盖采样概率
- 控制服务器端的降采样率
- 将服务列入黑/白名单以进行自适应采样
- 等等。
构思
- 多租户 ( 邮件组讨论 )
- 云和多数据中心策略
- 异常跟踪的标记
- 补充运营用例的警报功能