数据湖生态和 Iceberg 简介
-
对于一个成熟的数据湖生态而言:首先我们认为成熟的数据湖生态应该具备海量存储的能力,常见的有对象存储,公有云存储以及 HDFS;并且在此之上之上,一个优秀的数据湖生态也需要支持丰富的数据类型,包括非结构化的图像视频,半结构化的 CSV、XML、Log,以及结构化的数据库表;除此之外,需要高效统一的元数据管理,使得计算引擎可以方便地索引到各种类型数据来做分析。最后,我们需要支持丰富的计算引擎,包括 Flink、Spark、Hive、Presto 等,从而方便对接企业中已有的一些应用架构。
Iceberg的设计初衷是:以类似于SQL的形式高性能的处理大型的开放式表, 联想HIVE工具!其对类似hive作了优化 !
特点:模式演化支持添加,删除,更新或重命名,并且没有副作用;隐藏分区可以防止导致错误提示或非常慢查询的用户错误;分区布局演变可以随着数据量或查询模式的变化而更新表的布局;快照控制 可实现使用完全相同的表快照的可重复查询,或者使用户轻松检查更改;版本回滚使用户可以通过将表重置为良好状态来快速纠正问题;快速扫描数据 无需使用分布式SQL引擎即可读取表或查找文件;数据修剪优化 使用表元数据使用分区和列级统计信息修剪数据文件;兼容性好 ,可以存储在任意的云存储系统和HDFS中。
西南地区IT社群(QQ)
- 云南
- 【昆明网页设计交流吧】243627302
- 【昆明nodejs交流吧】 243626749
- 【VUE】838405306
- 【云南程序员总群】343606807
- 【昆明UI设计】104031254
- 【云南软件外包】15547313
- 贵州
- 【PHP/java源码/站长交流群】55692114
- 四川
- 【成都Java/JavaWeb交流】86669225
- 【vaScript+PHP+MySql】116270060
- 【UI设计/设计交流学习群】135794928
- 重庆
- 【诺基亚 JAVA游戏博物馆】 559479780
- 【PHP,Java,Python,C++接单】 442103442
- 西藏