内存数据交换格式Apache Arrow
-
Apache Arrow数据交换格式是Apache基金会下一个全新的开源项目,同时也是一个顶级项目。它存在的目的是想要作为一个跨平台的数据层来加快大数据分析项目的运行速度。很多用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也很看重分析系统的扩展性和性能。
在过去几年,开源社区已经发布了很多工具来完善大数据分析的生态系统,这些工具涵盖了数据分析的各个层面。Arrow内存数据交换格式则是最新加入的一员,它提供了一种跨平台跨应用的内存数据交换格式。提高了大数据分析性能的一个重要手段是对列式数据的设计和处理。
列式数据处理借助向量计算和SIMD使我们可以充分挖掘硬件的潜力。Apache Drill这一大数据查询引擎是以列的方式存在的无论是在硬盘还是在内存中数据,而Arrow数据格式就是由Drill中Value Vector这一数据格式发展而来。除了列式数据之外,Apache Arrow还能够支持关系型和动态数据集,这使它成了处理物联网等数据时的理想格式选择。
Apache Arrow为大数据生态系统带来了无穷多的可能性。有Apache Arrow做为今后的标准数据交换格式,各个数据分析的系统和应用之间的交互性可以说是上了一个新的台阶。过去大部分的CPU周期都花在了数据的序列化和反序列化上,现在我们则能够实现不同系统之间数据的无缝共享。这意味着用户在将不同的系统结合使用时再也不用为数据格式多花心思了。
西南地区IT社群(QQ)
- 云南
- 【昆明网页设计交流吧】243627302
- 【昆明nodejs交流吧】 243626749
- 【VUE】838405306
- 【云南程序员总群】343606807
- 【昆明UI设计】104031254
- 【云南软件外包】15547313
- 贵州
- 【PHP/java源码/站长交流群】55692114
- 四川
- 【成都Java/JavaWeb交流】86669225
- 【vaScript+PHP+MySql】116270060
- 【UI设计/设计交流学习群】135794928
- 重庆
- 【诺基亚 JAVA游戏博物馆】 559479780
- 【PHP,Java,Python,C++接单】 442103442
- 西藏