KaiwuDB CTO 魏可伟：万物互联，探索新一代数据底座-KaiwuDB

搜索

免费试用

KaiwuDB 新闻速递

KaiwuDB CTO 魏可伟：万物互联，探索新一代数据底座

2023-10-31

10月28-29日，第八届中国开源年会（COSCon's23）在四川成都高新区菁蓉汇成功举办。作为开源领域的年度盛会，本次以“开源：川流不息、山海相映”为主题，吸引了众多行业学者、技术专家、开源爱好者的共同到场，KaiwuDB CTO 魏可伟受邀于主论坛发表《万物互联，探索新一代数据底座》主题演讲。

KaiwuDB CTO 魏可伟：万物互联，探索新一代数据底座(图1)

开源年会现场

以下为演讲部分精彩实录 ↓↓↓

AI4DB—从数据中获取“知识”，提升数据活力

万物互联时代激发了数据应用的多样可能性，但同时也对数据管理这一课题提出更多诉求。在 IoT 场景下，数据的获取、交换和处理是核心，随着数据量的激增，数据的边际价值下降，为了从这些工业数据中获取价值，AI 与 IoT 的结合显得尤为重要。

在 IoT 领域中，我们通常会把“A”加在前面，形成我们熟悉的 AIoT。究其原因，数据本身并不能为企业带来价值，但当通过不断学习，从数据中获取“知识”，数据才具有生命力。更重要的是，万物互联时代所带来的成本和其所产生的收益，无法有效支撑企业形成良性发展，如果缺少 AI 加持，整个行业发展或将受阻。

回归到用户本位，技术背后的关键在于我们能否为用户提供行之有效的解决方案。实际情况中，技术存在很多不可控的问题阻碍用户使用；前期昂贵的基础设施投入，似乎也不是真的在帮用户降低成本。

KaiwuDB CTO 魏可伟：万物互联，探索新一代数据底座(图2)

AI 赋能 DB

因此，KaiwuDB 在立足于技术、产品及行业需求的基础上，主张“化繁为简”，重视培养“原生 AI”能力，包括：智能生命周期管理、降采样、智能预计算等功能，帮助企业构建数据获取、数据交换、数据处理分析的全链路能力，为终端用户提供挖掘更多数据价值的解决方案，以满足用户的实际需求。

智能生命周期管理

用以实现存储成本与数据价值之间的需求匹配。以时序数据为例，存储成本随着时间的推移不断加大，因此如何进行数据生命周期的管理至关重要。

其中，压缩是一种常用方法，但是压缩会带来性能上的消耗，因此需要权衡新旧数据的需求，利用 AI 技术对时间较长的数据进行压缩以减小存储空间，近期的数据可以存储在较大的空间中，合理平衡存储成本和数据的价值。

降采样

即减少数据采集频率。面临海量数据的场景，此时可以将高频率的数据采集降低为低频率，以减少存储成本。选取方式可以是随机选择或其他方式，核心目标是在尽可能保留表示趋势和重要信息的同时，减少数据存储量和处理开销。

在数据管理中，为了保留有价值的数据部分，可以利用 AI 技术介入，进行数据特征提取和信息压缩。例如 AI 可以根据应用需求分析数据行为模式，帮助用户选择更优的降采样策略，以保留具有代表性的数据。

智能预计算

即通过分析数据行为和查询模式，提前准备数据并优化聚合操作，从而提升查询性能。以时序数据场景为例，会以时间维度进行数据的聚合分析，这背后的一项关键技术就是智能预计算—即利用 AI 大脑预判用户会对哪些内容会做聚合分析，提前把结果“知识”计算好。

这一能力可快速实现结果反馈，极大程度提升性能；在生命周期管理方面，也可以通过 AI 对用户使用情况做出预判，如果 AI 预判用户对某一类数据不再频繁调用，可以自动挪到冷存储上，降低资源占用。

DB4AI—数据更活跃，用户低负担

在IoT 领域有一些常见的算法，比如常见的时间序列预测、图像识别等，这些都是我们在 AIoT 领域中比较关心的话题；与此同时，我们还需要解决数据库和 AI 两大生态割裂的问题，即如何实现从数据库里的数据产生的模型能够在数据库里用起来，同时避免让数据工程师、数据科学家们觉得有很多额外负担。

为此，KaiwuDB 提供了原生预测分析能力。我们希望提供一个平台，能够实现数据库和算法的紧密结合。比如，支持数据库中的函数调用平台上的模型训练、模型推理等能力。这样从数据库开发人员和管理人员的操作层面来看，他们相当于只在使用我们数据库的一个基本能力，并不会产生额外负担。另一方面，我们也可以为数据科学家开放接口，让他们能够把训练出来的模型，放进数据库中。通过上述方式，可以把各类数据库相关人员紧密联系起来。

KaiwuDB CTO 魏可伟：万物互联，探索新一代数据底座(图3)

DB 赋能 AI

此外，我们还提供一项生命周期管理引擎能力—Modelops in Database。举个例子：我们的 AI 模型，它本身是有时效性的。比如，用去年的数据训练出来的模型，今年未必适用。这个时候谁能够第一时间发现这个问题？应该是数据库。因为当我们发现数据分布已经发生明显的变化的时候，可以推测出该模型的性能可能也将处于风险之中，这个也是 KaiwuDB 在做 DB For AI 的关键思路。

KaiwuDB CTO 魏可伟：万物互联，探索新一代数据底座(图4)