湖仓一体解决方案

通过 SelectDB 灵活对接各类数据湖、数据仓库、数据库,并进行高性能实时分析处理

方案优势
在数字化浪潮中,企业面临高效管理和处理多媒体数据的迫切需求,但自建方案往往困难重重。技术复杂、扩展性不足以及高昂的成本是主要障碍。企业需在存储架构、数据处理和系统集成等方面取得突破,而不断增加的多媒体文件对系统的灵活扩展和性能优化提出了更高要求。此外,硬件、软件及运维的高成本对预算有限的公司造成压力,使得寻找更高效的解决方案刻不容缓。

深度湖仓融合

SelectDB 深度融合 Iceberg、Paimon 等开放湖仓格式,结合向量化执行引擎、物化视图和现代化的查询优化器,能够获得极佳的湖仓数据分析体验。

丰富的数据源连接器

SelectDB 不仅支持 MySQL、PostgreSQL、Oracle、Clickhouse 等多种 JDBC 协议的数据库和湖仓系统,实现快捷的多数据源联邦分析,同时还具有 ZeroETL 能力。

统一的多负载管理

基于无状态的计算节点,SelectDB 可以按需创建不同的计算组资源,在共享湖仓数据的同时,隔离计算资源,按需应对不同的业务负载需求。

阿里云 SelectDB 方案对比 Trino/Presto 方案
对比项Trino/PrestoSelectDB
物化视图

功能单一,依赖外部组件

仅支持手动和全量的物化视图刷新,并且依赖开放湖格式提供存储能力。

增量更新和透明加速

高效支持各个数据源的物化视图构建,以及物化视图的增量更新和查询透明加速能力,极大提升查询效率。

查询优化器

复杂查询优化效果差

基于代价和规则的查询优化器,支持复杂SQL优化,但不支持统计信息的自动收集。

复杂查询精准优化

基于代价和规则的查询优化器。拥有丰富的统计信息自动收集和采样能力,能够获得更精准的查询规划。

缓存能力

依靠第三方组件

依赖外部组件如 Alluxio 提供缓存能力。

开箱即用

内置基于内存和本地高速磁盘的数据缓存能力,并拥有丰富的缓存预热与淘汰策略。

应用场景

适用场景单一

仅作为查询引擎。

适用场景丰富

云原生数据仓库,内置高性能表格存储,既可支持低延迟的高并发查询,又可作为湖仓查询引擎进行交互式查询分析。

架构与部署

本方案通过 SelectDB 在 OSS(对象存储)上构建 Iceberg 湖格式的 TPC-H 100G 测试数据集,来验证 SelectDB 对于开放湖格式 Iceberg 的数据写入能力和分析加速能力。同时,通过 DTS(数据传输服务)将云数据库 RDS MySQL 版实例中的业务数据实时同步到 SelectDB 中,并利用 SelectDB 的异步物化视图和透明改写的功能,进行 SelectDB 内表、MySQL 表、Iceberg 表的联邦分析查询和多数据源的轻量级 ETL。通过湖仓分析加速、湖仓数据处理和多源联邦分析三个典型场景,实现了基于 SelectDB 湖仓一体的最佳实践。

部署

立即部署
技术方案的广泛应用场景