KWDB 采用预写式日志(Write-Ahead Logging,WAL),记录每个时序表的模式变更和数据变更,以实现时序数据库的数据灾难恢复、时序数据的一致性和原子性。
KWDB 默认会将保存在 WAL 日志缓存中的日志条目实时写入日志文件,每5分钟通过后台线程更新 WAL 文件和数据文件的 CHECKPOINT_LSN (检查点日志序列号),写入 CHECKPOINT WAL 日志,然后同步数据文件到磁盘。
系统正常停机时,KWDB 会主动同步数据文件到磁盘并更新 CHECKPOINT_LSN。系统出现宕机时,KWDB 重启时会从最新的 CHECKPOINT_LSN 回放日志,以保证数据完整性。这种机制确保了即使在系统崩溃的情况下,也能通过重新执行日志中的操作来恢复数据库的一致性。
KWDB 支持对以下操作进行预写式日志记录:
WAL 日志文件由多个文件组成,称为 WAL 日志文件组。默认情况下,WAL 日志文件组包含三个大小相同的日志文件,每个文件的大小为 64MB。这些日志文件保存在时序表数据同级目录下的 wal 子目录中,文件以 kwdb_wal 的形式进行命名。系统初始时会使用 kwdb_wal0 作为活动日志文件。当前日志文件写满后,系统会按照顺序创建或使用下一个日志文件,直到日志文件组中的所有文件都被写满,之后系统会重新使用 kwdb_wal0 继续写入。
KWDB 支持通过set cluster setting <parameter> = <value>
SQL 语句来开启或关闭 WAL 日志功能、设置 WAL 日志同步周期、WAL 日志缓存大小、检查点周期,以及调整日志文件组的文件数量和每个日志文件的大小。
用户为 admin 用户或 admin 用户的成员。
(1)根据需要开启或关闭 WAL日志功能,设置 WAL 日志同步周期。注意:实时写入 WAL 日志可能会显著影响数据写入速度。
SET CLUSTER SETTING ts.wal.flush_interval = <interval>;
默认值为0s,表示开启 WAL 日志功能,并且实时进行日志写入。设置值小于等于0时表示关闭 WAL 日志。设置值在0-200ms区间时,系统会实时写入 WAL 日志,设置值大于200ms时系统将根据实际设置值进行日志同步。
示例
SET CLUSTER SETTING ts.wal.flush_interval = 300 ms;
(2)根据需要设置 WAL 日志缓存大小。
SET CLUSTER SETTING ts.wal.buffer_size = <size>;
默认值为4 MiB,设置值应不小于4 MiB。
示例
SET CLUSTER SETTING ts.wal.buffer_size = 10 MiB;
(3) 根据需要设置 WAL 日志检查点周期。
SET CLUSTER SETTING ts.wal.checkpoint_interval = <interval>;
默认值为1分钟。建议在日常运行中设置大于1分钟的时间间隔。如果宕机恢复速度较慢,可以缩短此间隔,建议最小为1秒。
示例
SET CLUSTER SETTING ts.wal.checkpoint_interval = 10m;
(4)根据需要设置日志文件组的文件数量以及每个WAL日志文件的大小。
SET CLUSTER SETTING ts.wal.files_in_group = <number>; SET CLUSTER SETTING ts.wal.file_size = <size>;
文件数量默认为3个,文件大小默认值为64MiB,建议将WAL日志文件组的总大小设置为数据库日增大小的1%~3%左右,可根据以下公式计算WAL日志文件使用的磁盘空间上限:
total_wal.file_size = ts.wal.file_size * ts.wal.files_in_group * table_number * replica_number / node_number
示例
SET CLUSTER SETTING ts.wal.files_in_group = 10;SET CLUSTER SETTING ts.wal.file_size = 256 MiB;
KWDB 目前支持通过数据导入导出方式进行数据库库级别和表级别的数据备份。
KWDB 支持使用 SQL 语句导出以下信息:
• 时序表或关系表的元数据及用户数据。元数据以 meta.sql 文件形式保存,用户数据以.csv 格式保存。
• 系统表数据:具体包括用户信息表、权限信息和集群配置表
导出过程中,如果目标位置不可达,系统会直接报错;如果因其他原因导致导出中断,系统会保留已成功导出的文件。
• 用户拥有管理员权限。
• 如果要将数据导出到指定服务器,该服务器必须处于运行状态,可访问,且已开放 PUT 权限以支持文件上传。如果导出数据时需要创建文件夹以存放数据,用户还需要拥有在服务器上创建文件夹的权限。
时序表和关系表的导出语法略有不同,时序表支持先筛选表数据范围后再导出,导出表数据时设置包围符、转义符和空值的表示形式,关系表暂不支持上述设置。
• 时序表筛选范围后导出
EXPORT INTO CSV "<expt_path>" FROM select [ * | <column_list> ] FROM <table_name> [<where_clause>];
• 时序表导出
EXPORT INTO CSV "<expt_path>" FROM TABLE <table_name> WITH [ column_name | meta_only | data_only | delimiter = '<char>' | chunk_rows = '<number>' | enclosed = '<char>' | escaped = '<char>' | nullas = '<char>' ];
• 关系表导出
EXPORT INTO CSV "<expt_path>" FROM TABLE <table_name> WITH [ meta_only | data_only | delimiter = '<char>' | chunk_rows = '<number>' ];
• 用户信息表导出
EXPORT INTO CSV "<expt_path>" FROM TABLE system.users;
• 用户权限信息导出
EXPORT INTO CSV "<expt_path>" FROM SELELCT * FROM system.information_schema.table_privileges;
• 集群配置表导出
EXPORT INTO CSV "<expt_path>" FROM TABLE system.settings;
示例 1:将表的用户数据和元数据导出到本地节点
EXPORT INTO CSV "nodelocal://1/a" FROM TABLE ts_table; result ----------- succeed (1 row)
示例 2:将表的用户数据和元数据导出到指定服务器
EXPORT INTO CSV "http://172.18.10.1:8090/ts_table" FROM TABLE ts_table; result ----------- succeed (1 row)
示例 3:筛选时序表指定时间段的指定列数据后导出数据
EXPORT INTO CSV "nodelocal://1/a" FROM SELECT ts, value, site_id FROM temperature WHERE ts > '2024-02-01 09:00:00'; result ----------- succeed (1 row)
示例 4:导出时序表的非空值数据
EXPORT INTO CSV "nodelocal://1/a" FROM SELECT * from temperature WHERE value IS NOT NULL; result ----------- succeed (1 row)
示例 5:只导出表的用户数据
EXPORT INTO CSV "nodelocal://1/a" FROM TABLE ts_table WITH data_only; result ----------- succeed (1 row)
示例 6:只导出表的元数据
EXPORT INTO CSV "nodelocal://1/a" FROM TABLE ts_table WITH meta_only; resul t----------- succeed (1 row)
示例 7:导出表数据时指定分隔符
EXPORT INTO CSV "nodelocal://1/a" FROM TABLE ts_table WITH DELIMITER = '/'; result ----------- succeed (1 row)
示例 8:导出表数据时指定分隔符时报错
EXPORT INTO CSV "nodelocal://1/a" FROM TABLE ts_table WITH DELIMITER = '"'; ERROR: DELIMITER can't be "SQLSTATE: 22023
示例 9:导出表数据时限制单个文件行数
EXPORT INTO CSV "nodelocal://1/a" FROM TABLE ts_table WITH chunk_rows = '1000'; result ----------- succeed (1 row)
示例 10:导出时序表时指定包围符为单引号
EXPORT INTO CSV "nodelocal://1/a" FROM TABLE ts_table WITH enclosed = "'"; result ----------- succeed (1 row)
示例 11:导出时序表时指定转义符为反斜杠
EXPORT INTO CSV "nodelocal://1/a" FROM TABLE ts_table WITH escaped = '\'; result ----------- succeed (1 row)
示例 12:导出时序表时指定空值表现形式为 NULL
EXPORT INTO CSV "nodelocal://1/a" FROM TABLE ts_table WITH NULLAS = 'NULL'; result ----------- succeed (1 row)
用户可以将从其它 KWDB 数据库导出的时序表或关系表数据及元数据导入到另一个 KWDB 库中。目前不支持导入数据库的系统表数据。KWDB 支持以下多种导入方式及导入数据选择。
• 同时导入表的用户数据和元数据
• 仅导入表的用户数据
• 仅导入表的元数据 如果目标表中已经存在用户数据时,KWDB 支持对表数据执行增量导入。
数据导入过程中,若出现失败,系统不会回滚导入操作,但会保留已成功导入的数据。
时序数据导入报错后,系统通过系统显示写入失败的数据行数,同时将写入失败数据和错误信息记录到 reject 文件中,该文件位于导入数据文件的同级路径下。提示:
• 如果使用 sort -t <separator> -k <primary key column> <file_name>
linux 命令提前对数据文件进行数据排序,可提升数据导入效率。
• 如果待导入数据使用 GBK 字符集,则导入前需要使用SET client_encoding = 'GBK'
将客户端字符集编码设置为 GBK。
• 用户拥有管理员权限。
• 待导入表的列数和数据类型与数据库现有表的列数和数据类型一致。
时序表和关系表的导入语法略有不同,时序表支持导入表数据时设置包围符、转义符和空值的表示形式,关系表暂不支持上述设置。
• 时序表导入
• 全量导入用户数据和元数据,并根据指定的文件目录或表结构创建表:
IMPORT TABLE CREATE USING "<sql_path>" CSV DATA ("<file_path>") WITH [delimiter = '<char>' | enclosed = '<char>' | escaped = '<char>' | nullif = '<char>' | thread_concurrency = '<int>'| batch_rows = '<int>'| auto_shrink];
• 仅导入用户数据或增量导入:
IMPORT INTO <table_name> [<column_list>] CSV DATA ("<file_path>") WITH [[delimiter = '<char>' | enclosed = '<char>' | escaped = '<char>' | nullif = '<char>' | thread_concurrency = '<int>'| batch_rows = '<int>'| auto_shrink];
• 仅导入元数据:
IMPORT TABLE CREATE USING "<sql_path>";
• 关系表导入
• 同时导入用户数据和元数据
IMPORT TABLE CREATE USING "<sql_path>" CSV DATA ("<file_path>") WITH [delimiter = '<char>';
• 仅导入用户数据:
IMPORT INTO <table_name> CSV DATA ("<file_path>") WITH [delimiter = '<char>';
• 仅导入元数据:
IMPORT TABLE CREATE USING "<sql_path>";
待导入的元数据文件路径。支持nodelocal://node_id/folder_name/file_name和server_ip/folder_name/file_name 两种格式。 | |
“Null value in column %s violates not-null constraints.” 。 | |
nodelocal://<node_id>/<folder_name>/<file_name> 和<server_ip>/<dir> 两种格式。一、 nodelocal://<node_id>/<folder_name>/<file_name> :使用节点本地路径:1、node_id:节点名称,只有一个数据库节点时,需要将 node_id 指定为1。2、folder_name:用户自定义的存放数据的文件夹名称,默认为 /var/lib/kwdb/extern/。3、 file_name:待导入的文件的名称。说明:时序表导入时仅需指定到文件夹,无需指定待导入文件名,关系表导入需指定待导入文件。二、 <server_ip>/<dir> :使用服务器地址:1、 server_ip:服务器 IP 地址和端口,例如http://172.18.0.1:8090 2、dir:用户自定义的存放数据的文件夹名称。 | |
示例 1:导入本地节点的表用户数据和元数据
IMPORT TABLE CREATE USING "nodelocal://1/a/meta.sql" CSV DATA ("nodelocal://1/a"); job_id | status | fraction_completed | rows | abandon_rows | reject_rows ---------------------+-----------+--------------------+------+--------------+-------------- / | succeeded | 1 | 1 | / | /(1 row)
示例 2:导入指定服务器的表用户数据和元数据
IMPORT TABLE CREATE USING "http://172.18.0.1:8090/newdb/meta.sql" CSV DATA ("http://172.18.0.1:8090/newdb"); job_id | status | fraction_completed | rows | abandon_rows | reject_rows ---------------------+-----------+--------------------+------+--------------+-------------- / | succeeded | 1 | 1 | / | /(1 row)
示例 3:只导入表的用户数据
IMPORT INTO user_info1 CSV DATA ("nodelocal://1/a"); job_id | status | fraction_completed | rows | abandon_rows | reject_rows ---------------------+-----------+--------------------+------+--------------+-------------- / | succeeded | 1 | 1 | / | /(1 row)
示例 4:只导入表的元数据
IMPORT TABLE CREATE USING "nodelocal://1/a/meta.sql"; job_id | status | fraction_completed | rows | abandon_rows | reject_rows ---------+-----------+--------------------+------+--------------+-------------- / | succeeded | 1 | 0 | 0 | 0(1 row)
示例 5:只导入表用户数据时指定分隔符
IMPORT INTO user_info1 CSV DATA ("nodelocal://1/a") WITH delimiter = '/'; job_id | status | fraction_completed | rows | abandon_rows | reject_rows ---------------------+-----------+--------------------+------+--------------+-------------- / | succeeded | 1 | 1 | / | /(1 row)
示例 6:只导入时序表用户数据时指定包围符为单引号
IMPORT INTO user_info1 CSV DATA ("nodelocal://1/a") WITH enclosed = "'"; job_id | status | fraction_completed | rows | abandon_rows | reject_rows ---------------------+-----------+--------------------+------+--------------+-------------- / | succeeded | 1 | 1 | / | /(1 row)
示例 7:只导入时序表用户数据时指定转义符为反斜杠
IMPORT INTO user_info1 CSV DATA ("nodelocal://1/a") WITH escaped = '\'; job_id | status | fraction_completed | rows | abandon_rows | reject_rows ---------------------+-----------+--------------------+------+--------------+-------------- / | succeeded | 1 | 1 | / | /(1 row)
示例 8:只导入时序表用户数据时指定空值表现形式为 NULL
IMPORT INTO user_info1 CSV DATA ("nodelocal://1/a") WITH NULLIF = 'NULL'; job_id | status | fraction_completed | rows | abandon_rows | reject_rows ---------------------+-----------+--------------------+------+--------------+-------------- / | succeeded | 1 | 1 | / | /(1 row)
示例9:设置导入时序表的写入速率
IMPORT INTO user_info1 CSV DATA ("nodelocal://1/a") WITH thred_concurrency = '20', batch_rows = '200'; job_id | status | fraction_completed | rows | abandon_rows | reject_rows ---------------------+-----------+--------------------+------+--------------+-------------- / | succeeded | 1 | 1 | / | /(1 row)
支持一次性导出数据库中所有表的元数据及用户数据。导出的每张表是一个单独的目录。
时序数据库导出的表均位于 public 模式下,每张表是一个单独的目录,用于存放该表的用户数据(.csv 文件)。导出的时序数据库数据组织形式:
tsdb|-- meta.sql|-- public |-- t1 |-- n1.0.csv |-- t2 |-- n1.0.csv
关系数据库导出的表按其所在模式进行组织,每张表是一个单独的目录,用于存放该表的元数据信息(meta.sql)和用户数据(.csv 文件)。导出的关系库数据组织形式:
rdb|-- meta.sql|-- public |-- table1 |-- meta.sql |-- n1.0.csv |-- table2 |-- meta.sql |-- n1.0.csv|-- schema1 |-- meta.sql |-- table1 |-- meta.sql |-- n1.0.csv
• 用户拥有管理员权限。
时序数据库和关系数据库的导出语法略有不同,时序数据库支持导出数据时设置包围符、转义符和空值的表示形式,关系数据库暂不支持上述设置。
如果数据使用 GBK 字符集,则导出时需要使用 SET client_encoding = 'GBK'
将客户端字符集编码设置为 GBK。
• 时序数据库导出
EXPORT INTO CSV "<expt_path>" FROM DATABASE <db_name> WITH [ column_name | meta_only | data_only | delimiter= '<char>' | chunk_rows = '<number>' | enclosed = '<char>' | escaped = '<char>' | nullas = '<char>'];
• 关系数据库导出
EXPORT INTO CSV "<expt_path>" FROM DATABASE <db_name> WITH [ meta_only | data_only | delimiter = '<char>' | chunk_rows = '<number>'];
nodelocal://<node_id>/<dir> 和<server_ip>/<dir> 两种格式。一、nodelocal://<node_id>/<dir> :使用节点本地路径:1、 node_id:节点名称,只有一个数据库节点时,需要将 node_id 指定为1。2、 dir :用户自定义的存放数据的文件夹名称。如果文件夹不存在,导出时系统会创建相应的文件夹,路径为用户安装KWDB时自定义的KWDB数据存放路径,默认为 /var/lib/kwdb/extern/<folder_name> 。二、<server_ip>/<dir> :使用服务器地址:1、server_ip:服务器 IP 地址和端口,例如http://172.18.0.1:8090 2、 dir:用户自定义的存放数据的文件夹名称。如果文件夹不存在,导出时系统会创建相应的文件夹。 | |
示例 1:将时序数据库的用户数据和元数据导出到本地节点
EXPORT INTO CSV "nodelocal://1/ts_db" FROM DATABASE ts_db; result ----------- succeed (1 row)
示例 2:将关系数据库的用户数据和元数据导出到本地节点
EXPORT INTO CSV "nodelocal://1/rdb" FROM DATABASE rdb;filename |rows|node_id|file_num -------------------+----+-------+--------T ABLE rdb.public.t1|2 |1 |1meta.sql |1 |1 |1TABLE rdb.public.t2|2 |1 |1meta.sql |1 |1 |1(4 rows)
示例 3:将时序数据库的用户数据和元数据导出到指定服务器
EXPORT INTO CSV "http://172.18.10.1:8090/ts_db" FROM DATABASE ts_db; result ----------- succeed (1 row)
示例 4:只导出数据库的用户数据
EXPORT INTO CSV "nodelocal://1/ts_db" FROM DATABASE ts_db WITH data_only; result ----------- succeed (1 row)
示例 5:只导出数据库的元数据
EXPORT INTO CSV "nodelocal://1/ts_db" FROM DATABASE ts_db WITH meta_only; result ----------- succeed (1 row)
示例 6:导出数据库时使用指定分隔符
EXPORT INTO CSV "nodelocal://1/ts_db" FROM DATABASE ts_db WITH delimi = '/'; result ----------- succeed (1 row)
示例 7:导出数据库时限制单个 CSV 文件的行数
EXPORT INTO CSV "nodelocal://1/ts_db" FROM DATABASE ts_db WITH chunk_rows = '1000'; result ----------- succeed (1 row)
示例 8:导出时序数据库时指定包围符为单引号
EXPORT INTO CSV "nodelocal://1/ts_db" FROM DATABASE ts_db WITH enclosed = "'"; result ----------- succeed (1 row)
示例 9:导出时序数据库时指定转义符为反斜杠
EXPORT INTO CSV "nodelocal://1/ts_db" FROM DATABASE ts_db WITH escaped = '\'; result ----------- succeed (1 row)
示例 10:导出时序数据库时指定空值表现形式为 NULL
EXPORT INTO CSV "nodelocal://1/ts_db" FROM DATABASE ts_db WITH NULLAS = 'NULL'; result ----------- succeed (1 row)
用户可以将 KWDB 数据库中导出的所有表数据及元数据完整导入到另一个 KWDB 数据库中。目前支持同时导入元数据和表数据或者只导入元数据,不支持只导入所有表的用户数据。
在数据导入过程中,若出现失败,系统不会回滚导入操作,但会保留已经成功导入的数据。时序数据导入报错后,系统会将写入失败数据和错误信息记录到 reject 文件中,该文件位于导入数据文件的同级路径下。
• 用户拥有管理员权限。
• 待导入数据的文件夹包含 CSV 和 SQL 文件。
时序数据库和关系数据库的导入语法略有不同,时序数据库支持导入数据时设置包围符、转义符和空值的表示形式,关系数据库暂不支持上述设置。
如果待导入数据使用 GBK 字符集,则导入前需要使用SET client_encoding = 'GBK'
将客户端字符集编码设置为 GBK。
• 时序数据库导入:
IMPORT DATABASE CSV DATA ("<db_path>") WITH [ delimiter = '<char>' | enclosed = '<char>' | escaped = '<char>' | nullif = '<char>' | thread_concurrency = '<int>'| batch_rows = '<int>'| auto_shrink];
• 关系数据库导入:
IMPORT DATABASE CSV DATA ("<db_path>") [WITH delimiter = '<char>'];
nodelocal://<node_id>/<dir> 和<server_ip>/<dir> 两种格式。一、nodelocal://node_id/<folder_name> :使用节点本地路径:1、 node_id :节点名称,只有一个数据库节点时,需要将 node_id 指定为1。2、 dir :用户自定义的存放数据的文件夹名称,默认为 /var/lib/kwdb/extern/<folder_name> 。二、 <server_ip>/<dir> :使用服务器地址:1、 server_ip :服务器 IP 地址和端口,例如 http://172.18.0.1:8090 2、 dir :用户自定义的存放数据的文件夹名称。 | |
示例 1:导入本地数据库
IMPORT DATABASE CSV DATA ("nodelocal://1/db"); job_id | status | fraction_completed | rows | abandon_rows | reject_rows ---------------------+-----------+--------------------+------+--------------+-------------- / | succeeded | 1 | 1 | / | /(1 row)
示例 2:导入指定服务器的数据库
IMPORT DATABASE CSV DATA ("http://172.18.0.1:8090/newdb"); job_id | status | fraction_completed | rows | abandon_rows | reject_rows ---------------------+-----------+--------------------+------+--------------+-------------- / | succeeded | 1 | 1 | / | /(1 row)
示例 3:导入数据库时指定分隔符
IMPORT DATABASE CSV DATA ("nodelocal://1/db") WITH delimiter = '/'; job_id | status | fraction_completed | rows | abandon_rows | reject_rows ---------------------+-----------+--------------------+------+--------------+-------------- / | succeeded | 1 | 1 | / | /(1 row)
示例 4:导入时序数据库时指定包围符为单引号
IMPORT DATABASE CSV DATA ("nodelocal://1/db") WITH enclosed = "'"; job_id | status | fraction_completed | rows | abandon_rows | reject_rows ---------------------+-----------+--------------------+------+--------------+-------------- / | succeeded | 1 | 1 | / | /(1 row)
示例 5:导入时序数据库时指定转义符为反斜杠
IMPORT DATABASE CSV DATA ("nodelocal://1/db") WITH escaped ='\'; job_id | status | fraction_completed | rows | abandon_rows | reject_rows ---------------------+-----------+--------------------+------+--------------+-------------- / | succeeded | 1 | 1 | / | /(1 row)
示例 6:导入时序数据库时指定空值表现形式为 NULL
IMPORT DATABASE CSV DATA ("nodelocal://1/db") WITH NULLIF = 'NULL'; job_id | status | fraction_completed | rows | abandon_rows | reject_rows ---------------------+-----------+--------------------+------+--------------+-------------- / | succeeded | 1 | 1 | / | /(1 row)
以上就是 KWDB 容灾与备份的内容分享,更多精彩后续欢迎关注我们!