使用 Grafana 查看指标数据
Grafana 支持查看 KaiwuDB 集群及各个节点的监控指标,包括指标概览、硬件指标、运行指标、SQL 指标、存储指标、副本指标、分布式指标、队列指标和慢查询指标。
概览
概览页面展示集群和节点的关键指标。
SQL Queries
在节点视图中,该时间序列图展示指定节点处理客户端请求的 QPS(Queries Per Second,每秒查询数)。支持的类型包括查询、更新、插入、删除。采样值为
10
秒内的平均值。在集群视图中,该时间序列图展示当前集群查询负载的估计值。该估计值为每个节点最近10
秒的活动情况的汇总值。Service Latency: SQL 99th percentile
服务延迟是集群从接收到查询请求到查询结束之间的时间,不包含将查询结果传输给客户端的时间。
该时间序列图展示指定节点或者集群内所有节点的服务延迟的 99th 百分位数,即在观察时间内,百分之九十九(
99%
)的节点的服务延迟低于或等于这个值。Replicas per Node
该时间序列图展示指定节点或者集群内所有节点的副本数量。
Capacity
用户可以通过监控存储容量图来判断什么时候需要为集群添加新的存储空间。
硬件
CPU Usage
该时间序列图展示指定节点或者集群内所有节点上 KaiwuDB 进程的 CPU 使用率。
Memory Usage
该时间序列图展示指定节点或者集群内所有节点上 KaiwuDB 进程的内存使用情况。
Disk Read Bytes
该时间序列图展示指定节点或者集群内所有节点上运行的所有进程(包括 KaiwuDB 进程)读取硬盘的速率。采样值为
10
秒内 RPS(Read Per Second,每秒读取速度)的平均值。Disk Write Bytes
该时间序列图展示指定节点或者集群内所有节点上运行的所有进程(包括 KaiwuDB 进程)写入硬盘的速率。采样值为
10
秒内 WPS(Write Per Second,每秒写入速度)的平均值。Disk Read Ops
该时间序列图展示指定节点或者集群内所有节点上运行的所有进程(包括 KaiwuDB 进程)读取硬盘的速率。采样值为
10
秒内 OPS(Operations Per Second,每秒运算次数)的平均值。Disk Write Ops
该时间序列图展示指定节点或者集群内所有节点上运行的所有进程(包括 KaiwuDB 进程)写入硬盘的速率。采样值为
10
秒内 OPS(Operations Per Second,每秒运算次数)的平均值。Disk IPOS In Progress
该时间序列图展示指定节点或者集群内所有节点上运行的所有进程(包括 KaiwuDB 进程)读写队列中请求的数量。采样值为
10
秒内的平均值。Available Disk Capacity
该时间序列图展示指定节点或者集群内所有节点可用的存储容量。
Network Bytes Received
该时间序列图展示指定节点或者集群内所有节点上运行的所有进程(包括 KaiwuDB 进程)每秒接收的网络字节数的总和。采样值为
10
秒内的平均值。Network Bytes Sent
该时间序列图展示指定节点或者集群内所有节点上运行的所有进程(包括 KaiwuDB 进程)每秒发送的网络字节数的总和。采样值为
10
秒内的平均值。
运行时
Live Node Count
该时间序列图展示集群内所有活跃节点的数量。曲线下降表示存在异常节点或不可用节点。
Memory Usage
该时间序列图展示指定节点或者集群内所有节点的内存使用量。
将鼠标悬停在图表上,可以查看更多指标信息。
指标 描述 RSS KaiwuDB 内存的使用量。 Go 总计 Go 语言层管理的总内存。 CGo 总计 C 语言层管理的总内存。 Kmalloc memory request
该时间序列图展示指定节点的 Kmalloc 内存申请量或者集群内所有节点的内存申请总量。
Memory Map virtual size
该时间序列图展示指定节点占用的 Memory Map 虚拟内存量或者集群内所有节点占用的 Memory Map 虚拟内存总量。
Memory Map physical size
该时间序列图展示指定节点占用的 Memory Map 物理内存量或者集群内所有节点占用的 Memory Map 物理内存总量。
Memory Map range count
该时间序列图展示指定节点和集群内所有节点进程中连续开启的虚拟内存块的数量。单个节点中,每个内存块的大小可能不同,所有内存块的大小总和即为该节点占用的 Memory Map 虚拟内存量。所有节点的内存块的大小总和即为该集群所有节点占用的 Memory Map 虚拟内存总量。
Goroutine Count
该时间序列图展示指定节点或者集群内所有节点的当前 Goroutine 的数目。
GC Runs
该时间序列图展示指定节点或者集群内所有节点的 GC 运行次数。
GC Pause Time
在节点视图中,该时间序列图展示指定节点的 GC 阻塞时间。在集群视图中,该时间序列图展示集群中所有节点的 GC 阻塞时间总和。
CPU Time
在节点视图中,该时间序列图展示指定节点上的 KaiwuDB 用户级进程和相关系统级操作的 CPU 时间。在集群视图中,该时间序列图展示集群中所有节点的 KaiwuDB 用户级进程和相关系统级操作的 CPU 时间总和。
Clock Offset
在节点视图中,该时间序列图展示指定节点与集群其他节点的时钟偏差值的平均值。在集群视图中,该时间序列图展示集群中每个节点与集群其他节点的时钟偏差值的平均值。
SQL
Total SQL Connections
该时间序列图展示指定节点或者集群内所有节点的瞬时 SQL 连接数, 包括成功建立的连接和因密码错误或超过最大连接数等原因未能建立的连接。
Successful SQL Connections
该时间序列图展示指定节点或者集群内所有节点已建立的活跃的 SQL 连接数。
SQL Byte Traffic
SQL 字节流量视图帮助用户关联 SQL 查询数量和字节流量,特别适合监控批量数据插入或者返回大量数据的分析型查询。
该时间序列图展示指定节点或者集群内所有节点的客户端网络流量的总和,单位为 BPS(Bytes Per Second,每秒字节数)。
SQL Queries
在节点视图中,该时间序列图展示指定节点处理客户端请求的 QPS(Queries Per Second,每秒查询数)。支持的类型包括查询、更新、插入、删除。采样值为
10
秒内的平均值。在集群视图中,该时间序列图展示当前集群所有节点处理客户端请求的 QPS。SQL Query Errors
该时间序列图展示指定节点或者集群内所有节点返回计划或运行时错误的 SQL 语句数。采样值为
10
秒内的平均值。Active Distributed SQL Queries
该时间序列图展示指定节点或者集群内所有节点运行的分布式 SQL 操作数目。
Active Flows for Distributed SQL Queries
该时间序列图展示指定节点或者集群内所有节点协助执行当前分布式 SQL 操作的流的数量。
Service Latency: SQL 99th percentile
服务延迟是集群从接收到查询请求到查询执行结束之间的时间,不包含将结果传输给客户端的延迟。
在节点视图中,该时间序列图展示指定节点的服务延迟的 99th 百分位数,即在观察时间内,99% 的服务延迟低于或等于这个值。在集群视图中,该时间序列图展示集群中所有节点的服务延迟的 99th 百分位数,即在观察时间内,99% 的节点的服务延迟低于或等于这个值。
Service Latency: SQL 90th percentile
在节点视图中,该时间序列图展示每个节点的服务延迟的 90th 百分位数,即在观察时间内,90% 的服务延迟低于或等于这个值。在集群视图中,该时间序列图展示集群中所有节点的服务延迟的 90th 百分位数,即在观察时间内,90% 的节点的服务延迟低于或等于这个值。
KV Execution Latency: 99th percentile
在节点视图中,该时间序列图展示指定节点在一分钟内执行延迟的 99th 百分位数,即在观察时间内,99% 完成时间低于或等于这个值。在集群视图中,该时间序列图展示集群中所有节点在一分钟内执行延迟的 99th 百分位数,即在观察时间内,99% 的节点的完成时间低于或等于这个值。
KV Execution Latency: 90th percentile
在节点视图中,该时间序列图展示指定节点在一分钟内执行延迟的 90th 百分位数,即在观察时间内,90% 完成时间低于或等于这个值。在集群视图中,该时间序列图展示集群中所有节点在一分钟内执行延迟的 90th 百分位数,即在观察时间内,90% 的节点的完成时间低于或等于这个值。
Transactions
在节点视图中,该时间序列图展示指定节点每秒打开、提交、回滚或中止的事务总数。采样值为
10
秒内的平均值。在集群视图中,该时间序列图汇总了所有节点每秒打开、提交、回滚或中止的事务总数。Transaction Execution Latency: 99th percentile
在节点视图中,该时间序列图展示指定节点在一分钟内事务延迟的 99th 百分位数,即在观察时间内,99% 的事务延迟低于或等于这个值。在集群视图中,该时间序列图展示集群中所有节点在一分钟内事务延迟的 99th 百分位数,即在观察时间内,99% 的节点的事务延迟低于或等于这个值。
Transaction Execution Latency: 90th percentile
在节点视图中,该时间序列图展示指定节点在一分钟内事务延迟的 90th 百分位数,即在观察时间内,90% 的事务延迟低于或等于这个值。在集群视图中,该时间序列图展示集群中所有节点在一分钟内事务延迟的 90th 百分位数,即在观察时间内,90% 的节点的事务延迟低于或等于这个值。
Schema Changes
该时间序列图展示指定节点或者集群内所有节点每秒 DDL 语句的总数。
存储
Capacity
用户可以通过监控存储容量来判断是否需要为集群添加新的存储空间。
在节点视图中,该时间序列图展示指定节点的总容量(即数据库占用的磁盘空间)、时序数据库占用的磁盘空间、关系数据库占用的磁盘空间、时序和关系数据库已用总空间和磁盘剩余空间。在集群视图中,该时间序列图展示集群中所有节点的磁盘总空间、时序数据库占用的总磁盘空间、关系数据库占用的总磁盘空间、时序和关系数据库已用总空间和磁盘剩余空间。
Live Bytes
热数据指应用程序和 KaiwuDB 数据库可以读取的数据量,不包括历史数据和已删除数据。
该时间序列图展示指定节点或者集群内所有节点应用程序和系统可以读取的数据量,不包括历史数据和已删除数据。
Log Commit Latency: 99th percentile
Raft 日志提交延迟可视为对存储引擎的预写式日志执行 fdatasync 的度量。
在节点视图中,该时间序列图展示指定节点 Raft 日志提交延迟的 99th 百分位数,即在观察时间内,99% 的提交延迟低于或等于这个值。在集群视图中,该时间序列图展示集群中所有节点 Raft 日志提交延迟的 99th 百分位数,即在观察时间内,99% 的节点的提交延迟低于或等于这个值。
Log Commit Latency: 50th percentile
Raft 日志提交延迟可视为对存储引擎的预写式日志执行 fdatasync 的度量。
在节点视图中,该时间序列图展示指定节点 Raft 日志提交延迟的 50th 百分位数,即在观察时间内,50% 的提交延迟低于或等于这个值。在集群视图中,该时间序列图展示集群中所有节点 Raft 日志提交延迟的 50th 百分位数,即在观察时间内,50% 的节点的提交延迟低于或等于这个值。
Command Commit Latency: 99th percentile
在节点视图中,该时间序列图展示指定节点 Raft 命令提交延迟的 99th 百分位数,即在观察时间内,99% 的提交延迟低于或等于这个值。在集群视图中,该时间序列图展示集群中所有节点 Raft 命令提交延迟的 99th 百分位数,即在观察时间内,99% 的节点的提交延迟低于或等于这个值。
Command Commit Latency: 50th percentile
在节点视图中,该时间序列图展示指定节点 Raft 命令提交延迟的 50th 百分位数,即在观察时间内,50% 的提交延迟低于或等于这个值。在集群视图中,该时间序列图展示集群中所有节点 Raft 命令提交延迟的 50th 百分位数,即在观察时间内,50% 的节点的提交延迟低于或等于这个值。
Read Amplification
RocksDB 读放大统计用来衡量节点中每个逻辑读操作的实际读操作的平均值。
在节点视图中,该时间序列图展示指定节点 RocksDB 读放大统计。在集群视图中,该时间序列图展示集群中所有节点 RocksDB 读放大统计总和。
RocksDB SSTables
在节点视图中,该时间序列图展示指定节点在用的 RocksDB SSTable 的数目。在集群视图中,该时间序列图展示集群中所有节点在用的 RocksDB SSTable 的数目总和。
File Descriptors
该时间序列图展示指定节点或者集群内所有节点开放的文件描述符数量以及文件描述符数量的上限。
Compactions/Flushes
该时间序列图展示指定节点或者集群内所有节点每秒 RocksDB 压缩和写入硬盘的数目。
Time Series Monitoring Data Sampling Writes
该时间序列图展示指定节点或者集群内所有节点每秒写入 metrics 监控数据成功的数目和错误的数目。
Time Series Monitoring Data Written Bytes
在节点视图中,该时间序列图展示指定节点每秒 metrics 监控数据写入的字节数。在集群视图中,该时间序列图展示集群中所有节点每秒 metrics 监控数据写入的字节数总和。
注意
由于数据在磁盘上高度压缩,本视图展示的是 metrics 监控写数据产生的网络流量和硬盘活动量,不是 metrics 监控数据写占用磁盘的速率。可通过数据库页面查看 metrics 监控数据的当前硬盘使用情况。
副本
Ranges
Ranges 数目视图展示 Range 状态相关的具体信息。
该时间序列图展示指定节点或者集群内所有节点持有的 Range 的详细信息。
Replicas per Store
该时间序列图展示指定节点或者集群内所有节点的每个 store 的副本数量。
Leaseholders per Store
租赁副本指接收和协调其 Range 上所有读取和写入请求的副本。
该时间序列图展示指定节点或者集群内所有节点的每个 Store 的租赁副本数。
Average Queries per Store
每个 Store 的平均访问次数指每个 Store 的租赁副本每秒处理的 KV 批量请求的数目的指数加权平均值。记录大约最后
30
分钟的请求,用来协助基于负载的再平衡决策。该时间序列图展示指定节点或者集群内所有节点的每个 Store 的平均访问次数。
Logical Bytes per Store
该时间序列图展示指定节点或者集群内所有节点的每个 Store 的数据逻辑字节数,包含历史数据和已删除数据。
Replicas Quiescence
在节点视图中,该时间序列图展示指定节点的副本和静止副本数量。在集群视图中,该时间序列图展示集群中所有节点的副本和静止副本数量总和。
Range Operations
该时间序列图展示指定节点或者集群内所有节点的操作涉及的 Range 操作次数。
Snapshots
在节点视图中,该时间序列图展示指定节点的快照数目。在集群视图中,该时间序列图展示集群中所有节点的快照数目总和。
分布式
Batches
该时间序列图展示指定节点或者集群内所有节点的 Batch 数目。
RPCs
该时间序列图展示指定节点或者集群内所有节点的 RPC(Remote Procedure Call,远程过程调用)数目。
RPC Errors
该时间序列图展示指定节点或者集群内所有节点的 RPC 错误数。
KV Transactions
该时间序列图展示指定节点或者集群内所有节点的 KV 事务数。
KV Transaction Restarts
该时间序列图展示指定节点或者集群内所有节点的 KV 事务的重试次数。
KV Transaction Durations: 99th percentile
在节点视图中,该时间序列图展示指定节点过去一分钟 KV 事务持续时间的 99th 百分位数,即在观察时间内,99% 的持续时间低于或等于这个值。在集群视图中,该时间序列图展示集群中所有节点过去一分钟 KV 事务持续时间的 99th 百分位数,即在观察时间内,99% 的节点的持续时间低于或等于这个值。
KV Transaction Durations: 90th percentile
在节点视图中,该时间序列图展示指定节点 KV 事务持续时间的 90th 百分位数,即在观察时间内,90% 的持续时间低于或等于这个值。在集群视图中,该时间序列图展示集群中所有节点 KV 事务持续时间的 90th 百分位数,即在观察时间内,90% 的节点的持续时间低于或等于这个值。
Node Heartbeat Latency: 99th percentile
在节点视图中,该时间序列图展示指定节点心跳延迟的 99th 百分位数,即在观察时间内,99% 的心跳延迟低于或等于这个值。在集群视图中,该时间序列图展示集群中所有节点心跳延迟的 99th 百分位数,即在观察时间内,99% 的节点的心跳延迟低于或等于这个值。
Node Heartbeat Latency: 90th percentile
在节点视图中,该时间序列图展示指定节点心跳延迟的 90th 百分位数,即在观察时间内,90% 的心跳延迟低于或等于这个值。在集群视图中,该时间序列图展示集群中所有节点心跳延迟的 90th 百分位数,即在观察时间内,90% 的节点的心跳延迟低于或等于这个值。
队列
Queue Processing Failures
该时间序列图展示指定节点或者集群内所有节点的队列操作处理失败数目。
Queue Processing Times
在节点视图中,该时间序列图展示指定节点各队列处理时间。在集群视图中,该时间序列图展示集群中所有节点各队列处理时间的总和。
Replica GC Queue
在节点视图中,该时间序列图展示指定节点的 GC 副本队列数目。在集群视图中,该时间序列图展示集群中所有节点的 GC 副本队列数目总和。
Replication Queue
在节点视图中,该时间序列图展示指定节点的副本队列数目。在集群视图中,该时间序列图展示集群中所有节点的副本队列数目总和。
Split Queue
在节点视图中,该时间序列图展示指定节点的分割队列数目。在集群视图中,该时间序列图展示集群中所有节点分割队列数目总和。
Merge Queue
在节点视图中,该时间序列图展示指定节点的合并队列数目。在集群视图中,该时间序列图展示集群中所有节点合并队列数目总和。
GC Queue
在节点视图中,该时间序列图展示指定节点的 GC 队列数目。在集群视图中,该时间序列图展示集群中所有节点 GC 队列数目总和。
Raft Log Queue
在节点视图中,该时间序列图展示指定节点的 Raft 日志队列数目。在集群视图中,该时间序列图展示集群中所有节点 Raft 日志队列数目总和。
Raft Snapshot Queue
在节点视图中,该时间序列图展示指定节点的 Raft 快照队列数目。在集群视图中,该时间序列图展示集群中所有节点 Raft 快照队列数目总和。
Consistency Checker Queue
在节点视图中,该时间序列图展示指定节点一致性检查器队列数目。在集群视图中,该时间序列图展示集群中所有节点一致性检查器队列数目总和。
Metrics Monitoring Data Maintenance Queue
在节点视图中,该时间序列图展示指定节点的 metrics 监控维护队列数目。在集群视图中,该时间序列图展示集群中所有节点 metrics 监控维护队列数目总和。
Compaction Queue
在节点视图中,该时间序列图展示指定节点通过强制 RocksDB 压缩回收或可能回收的已完成或估计的存储字节。在集群视图中,该时间序列图展示集群中所有节点通过强制 RocksDB 压缩回收或可能回收的已完成或估计的存储字节。
慢查询
Slow Raft Proposals
在节点视图和集群视图中,该时间序列图展示集群中所有节点 Raft 中提案提交变缓的请求数。
Slow DistSender RPCs
在节点视图和集群视图中,该时间序列图展示集群中所有节点不同节点之间发送 RPC 变缓的请求数。
Slow Lease Acquisitions
分布式系统中,租约(Lease)通常用于协调和同步操作。
在节点视图和集群视图中,该时间序列图展示集群中所有节点的租约获取变缓的请求数。
Slow Latch Acquisitions
Latch 是一种低级别的同步机制,用于保护共享资源。
在节点视图和集群视图中,该时间序列图展示集群中所有节点的 Latch 获取变缓的请求数。