Greenplum 用户案例

Greenplum 经过十多年发展,有大量活跃客户,大量数百节点集群为全球2000强企业生产系统提供服务,具有很高的稳定性

借助大数据技术,证券业迎来升级转型良机

经历了电子化、网络化和数字化的三波科技浪潮后,中国证券行业进入到全新的发展时代。各种新型信息技术,尤其是云计算、大数据和人工智能的应用,为金融业和资本市场的发展带来了全新的机遇。

自2013年成立中国公司以来,全球首个开源大数据分析平台Greenplum吸引了众多的中国合作伙伴。

来自金融中心上海的上海掌数科技有限公司(新意科技成员企业,以下简称:掌数科技),是一家聚焦于证券和大资管行业的金融科技企业,它致力于大数据、人工智能技术在金融科技领域的应用研究,目前在证券行业的覆盖率高达60%以上。而掌数科技的制胜关键,正是基于Greenplum的人工智能快速应用平台掌数群贤VAG(Visual AI on Greenplum)。

为云上迁移提供全面支撑

对于Greenplum,很多人肯定不会陌生,这是全球首个开源的大数据分析平台,具备极强的经典数据和实时数据分析能力。假如客户想在全球排名前十的方案里选择一款开源的产品,Greenplum将会“不战而胜”——只此一家,别无分号。

或许二者之间没有必然的联系,不过事实上在近三年前选择开源之后,Greenplum的影响力和功能性就日趋走强。

今年3月份全球权威研究和顾问公司Gartner发布的2019数据分析管理产品和解决方案行业报告显示,Greenplum大数据平台的排名已经从2018年的第9位,飙升至今年的第4位,这充分体现了Greenplum的厚积薄发。

Greenplum在经典数据分析领域排名第四

Pivotal大中华区Greenplum业务总监程良表示,Greenplum的排名快速提升不外乎来自两个因素,其一是技术创新,其二是用户满意度和认可度的节节攀升。

过去两年多的时间里,Greenplum内核不断演进和升级,与PostgreSQL开源社区充分融合,满足了用户在大数据和云计算时代的数字化转型战略需求。目前,Greenplum大数据平台可以支持主流公有云上的部署和运行,包括国际上的AWS、Azure、GCP,以及国内的阿里云、腾讯云、百度云等。

architecture
Greenplum大数据分析平台一览

不止是公有云,为了更好地帮助客户将应用和数据向云上迁移,Pivotal提供了更多的部署选项,包括私有IaaS和PaaS云上的部署。为此,Greenplum今年还于19年发布了容器化的版本,支持K8S,实现快速部署和弹性扩展能力,方便企业用户使用和维护。

“在技术创新方面,我们过去两年里做了很多工作。值得一提的是,Pivotal非常重视本地支持,很多Greenplum的创新都是由中国区的研发团队来完成的。”程良表示。

虽然开源是最近三年的事情,不过Greenplum毕竟是一款有着十几年发展历史的产品,安全可靠、性能强劲,因此长期以来吸引了大量忠实客户。与此同时,强大的Greenplum拥有简单易用、易于开发和快速上手等显著特点,这也是客户亲近它的缘故之一。

算力、算法和场景的快速应用

从业16年来,掌数科技总经理刘建一直专注于银行和证券基金行业,具有丰富的行业知识和实践经验,以及对金融科技创新落地方法论的深入理解。在他看来,大数据正在改写、优化甚至是颠覆传统的证券行业。

作为实时数据最密集的应用领域之一,在大数据之前,证券行业的海量数据只是在事后用来汇总报表或图表,数据的价值根本无从体现,因此投资行为的预测和分析,往往只是基于既往的经验或是感觉,缺乏足够的客观性。

Greenplum的出现,令刘建感到眼前一亮。

通过对Greenplum的深入了解,刘建发现它内置了机器学习的算法库,并且对各种主流的学习框架有着非常好的整合能力。这就意味着,掌数科技能够在数据的原生之地,快速地对之进行建模、分析和应用,而无需独立成若干个平台,事半而功倍。

刘建认为,Greenplum是一个强有力的集群,首先它能够做到算力的快速应用。譬如最消耗算力的模型训练环节,一般是盘外时间或是市场不再交易的时间段,这个时候Greenplum集群可以弹性地将剩余算力充分调动起来。

其次是算法的快速应用。Greenplum平台上,内置了Pivotal公司与伯克利大学合作的开源机器学习库MADlib,其中包括50多种经典算法。在此基础上,掌数科技也外延和发展了50多种算法,足以覆盖大部分常见的智能化场景。

据介绍,掌数群贤VAG是非常友好的,只需将开源代码切过来,分分钟就可以产生新的算法供系统调用,成本很低、效率很高,这同样也得益于Greenplum上佳的集成性。

最后是场景的快速应用。掌数群贤VAG内置了大量的产品案例模板,基础的模型和数据结构放在里面,客户可以通过拖拽的方式进行算法的调整,只需根据公司后台的表结构进行简单的变更即可。

MPP+分布式的美好未来

很多市场和分析人士认为,Greenplum采用的MPP(大规模并行处理)分布式架构,可以说是代表了企业架构的未来。

分布式架构出现在2000年前后,正好是互联网浪潮的第一波,出于成本以及应用的考虑,互联网公司开始采用这种新的架构,企业级的客户此时往往是驻足远观,他们基本仍是盘亘在传统的大型机和小型机上。

然而,昂贵的集中式应用系统,终归难以满足来自用户量、交易量以及数据量的狂野冲击,疲态尽显。而此时的分布式架构越来越成熟,能支撑和承载的应用也是越来越多,客户向x86的迁移逐渐成为主流。

目前包括银行、证券在内的很多金融机构,都已经开启了从原先的专有系统向开放的x86平台的迁移。据程良介绍,Greenplum从诞生之初就专注于通过分布式架构来实现海量数据的处理和分析,并且在发展过程中,增加了很多特性来支持新的业务场景,如对文本,日志,地理信息,JSON等非结构化的数据的支持,以及不断集成丰富的开源机器学习和深度学习算法,因此在数字化时代得到了广大企业级客户的欢迎。

与SMP相比,MPP系统在海量数据的决策支持和数据挖掘方面,优势明显。尤其是Pivotal Greenplum新的版本里,加入了诸多企业客户亟需的新特性,譬如OLTP性能的几十倍提升,基于WAL的日志复制,在线动态扩容,与流计算的集成等,为企业灾备和双活集群打下坚实基础,对于极其看重数据安全的金融企业来说,这无疑是福音。

Greenplum的另一大特色还在于,通过库内挖掘技术,减少数据移动,使得分析和挖掘在自身库内完成,因此能提供最好的资源利用率和业务表现力。

通过对OLAP+OLTP混合处理能力的显著优化,Greenplum可以达到每秒百万级记录处理和分析,其数据加载能力也被公认为业界最强,每小时单机柜加载能力达到16TB以上,能够达到Hadoop的2-5倍。

“Greenplum不只是数据仓库,而是一个全面的大数据平台,通过OLTP能力的增强,不仅能够帮助企业决策层看到过去,预测未来,还能决定现在。”程良特意强调了这一点。

优势互补促进生态共赢

基于Pivotal Greenplum,掌数群贤VAG能够打通人工智能与大数据分析技术生态链上的全部环节,为客户提供一站式智能化整体解决方案,支持面向垂直领域的智能化场景共享,客户精准营销、投资研究分析、投资风险防范以及合规审计管理等均涵盖其中,刘建表示。

群贤平台

譬如在某券商的合规系统中,需要对手写体的签字进行审核,以便进行业务的确认。通过对五十个工作人员数千份签字素材进行增强学习训练后,另行抽样案例进行测试,掌数群贤VAG可以做到平均95%的有效性。目前,无论结构化数据,亦或是非结构化数据,该平台均可以通过模型加以处理,而且模型也具备不断学习的能力。

据程良介绍,Greenplum与掌数科技在2017年达成战略合作。不过,平台型厂商+行业性伙伴的有机组合,显然为Greenplum和掌数科技的合作模式,提供了坚实的基础与广阔的发展空间。

“Greenplum是一个以技术见长,而不是以市场见长的产品,因此特别看重的一点,就是借助合作伙伴将优秀的技术延伸到企业级客户中。”程良表示。

刘建认为,如果说Greenplum提供的是底盘和发动机的话,那么掌数科技专注的就是车体、UI和操控。两家的分工非常明确,合作越来越紧密,渗透性也越来越强,产品的优秀特性及应用能力,已经得到了很多客户的验证。

未来,Greenplum期待着与更多像掌数科技这样的伙伴共同合作,推进Greenplum在金融,以及更多行业的落地与应用,为企业与个人提供创新和全面的产品服务,重塑各行业的新格局和新形态,带来资本市场的新变革,助力产业的数字化转型和智能化升级。