西南IT社区
    • 注册
    • 登录
    • 搜索
    • 主页
    • 问答
    • 话题
    • 热门
    • 圈子
    • 工作机会
    • 活动
    • 项目

    数据湖生态和 Iceberg 简介

    极客生涯
    iceberg 数据湖生态和 iceberg
    1
    1
    28
    正在加载更多帖子
    • 从旧到新
    • 从新到旧
    • 最多赞同
    回复
    • 在新帖中回复
    登录后回复
    此主题已被删除。只有拥有主题管理权限的用户可以查看。
    • linluo521
      linluo521 最后由 编辑

      对于一个成熟的数据湖生态而言:首先我们认为成熟的数据湖生态应该具备海量存储的能力,常见的有对象存储,公有云存储以及 HDFS;并且在此之上之上,一个优秀的数据湖生态也需要支持丰富的数据类型,包括非结构化的图像视频,半结构化的 CSV、XML、Log,以及结构化的数据库表;除此之外,需要高效统一的元数据管理,使得计算引擎可以方便地索引到各种类型数据来做分析。最后,我们需要支持丰富的计算引擎,包括 Flink、Spark、Hive、Presto 等,从而方便对接企业中已有的一些应用架构。

      beeb24da-a5cc-4980-859c-a99c4ec3036b-image.png

      Iceberg的设计初衷是:以类似于SQL的形式高性能的处理大型的开放式表, 联想HIVE工具!其对类似hive作了优化 !
      特点:模式演化支持添加,删除,更新或重命名,并且没有副作用;隐藏分区可以防止导致错误提示或非常慢查询的用户错误;分区布局演变可以随着数据量或查询模式的变化而更新表的布局;快照控制 可实现使用完全相同的表快照的可重复查询,或者使用户轻松检查更改;版本回滚使用户可以通过将表重置为良好状态来快速纠正问题;快速扫描数据 无需使用分布式SQL引擎即可读取表或查找文件;数据修剪优化 使用表元数据使用分区和列级统计信息修剪数据文件;兼容性好 ,可以存储在任意的云存储系统和HDFS中。

      9683a398-6a27-40d0-9df9-5226d166cb7f-image.png

      1 条回复 最后回复 回复 引用 0
      • First post
        Last post
      使用HTML构建办公软件 使用HTML构建办公软件 使用HTML构建办公软件
      成
      Y
      洋
      书
      Y
      D
      U
      Y
      娇
      玩
      1
      光
      A
      庆
      小
      U
      Y
      L
      I
      Z
      I
      Y
      C
      Z

      西南地区IT社群(QQ)
      云南
      【昆明网页设计交流吧】243627302
      【昆明nodejs交流吧】 243626749
      【VUE】838405306
      【云南程序员总群】343606807
      【昆明UI设计】104031254
      【云南软件外包】15547313
      贵州
      【PHP/java源码/站长交流群】55692114
      四川
      【成都Java/JavaWeb交流】86669225
      【vaScript+PHP+MySql】116270060
      【UI设计/设计交流学习群】135794928
      重庆
      【诺基亚 JAVA游戏博物馆】 559479780
      【PHP,Java,Python,C++接单】 442103442
      西藏
      社群
      昆明网页设计交流吧
      友情链接
      • Funtask
      • Funtask 社区
      • SUWIS
      ©2019-2021 滇ICP备20006698号