Greenplum目前为EMC的一个开源数据库解决方案。处于Gartner数据仓库魔法象限领导地位,连续三年被Gartner评为数据仓库领域最先进的软件产品。软件产品采用主流分布式无共享并行处理架构,遵循国际及国内相关技术标准和规范,在业界得到广泛使用。
Greenplum不仅支持PB级,甚至ZB级数据处理,常用来处理海量结构化,半结构化,以及非结构化的数据,构建复杂、高效的数据仓库分析系统。例如电信行业的信令数据分析系统、金融行业的用户消费轨迹分析系统等。
高可用性 Greenplum 产品自身包含多层次容错和冗余能力,这是云计算架构软件的一个重要特征。该功能保证整个系统在遇到硬件、软件的故障的情况下,仍然自动继续运行,数据依旧完整。
多种压缩技术支持 Greenplum 数据库是业界领先能同时支持按行、按列存储压缩的数据库。用户可以在建表或分区的DDL语句中,根据不同的应用场景,指定按行或按列存储。基于这个功能,还可以实现混合存储,即同一个表的不同分区,采用不同的存储方式,例如,历史数据分区采用按列存储,近期分区采用按行存储。
Greenplum数据库内置多种压缩算法,包括Zlib、Quicklz和rel。
可管理易维护性 Greenplum 提供图形化管理和监控工具Commander Center,能统一监控整个集群的实时状态,包括机器的健康状态,里面包括硬件、网络、CPU、Raid卡电池、电源等等,都包括在Commander Center的Health Dashboard中。
产品兼容性 Greenplum在业界有广泛应用,产品有良好的兼容性,支持标准的数据接口,包括ODBC、JDBC、Perl DBI、OLEDB、.NET等,支持主流第三方软件产品。对主流ETL工具如Informatica 和IBM datastage,具有特定优化接口,即Native 接口。
产品扩展能力 EMC Greenplum可通过扩展服务器节点来线性增长集群的容量和处理性能,满足用户不同阶段的持续发展需求。
强大的并行数据加载能力 Greenplum可以达到16TB每小时的加载性能,两个机架可达32TB每小时的加载性能,真正的打破了加载的性能瓶颈。
数据导出备份特性 Greenplum提供并行备份工具gp_dump,可以对master instance及每个有效的segment instance同时进行备份,所以备份恢复的效率可以随着节点数目的增加而线性的增长。
并行数据处理能力 Greenplum数据库完全基于无共享技术实现数据库快速访问、计算,利用最优秀的并行数据库查询算法把工作负载平均分担到各Segment Instance(计算节点中的最少计算单位),并且随着节点数的增多,并行数据处理能力能够得到线性的扩展。
移植性 Greenplum数据仓库产品遵循SQL2003标准,只要是SQL标准语法或函数均可在Greenplum数据库上直接执行。