专访大数据专家韩健:分布式大数据技术与银行业的融合
韩健,大数据处理与银行应用领域的资深IT专家。多年从事数据仓库建设、银行数据分析与决策支持、银行数据化运营、利用大数据防控银行风险等银行IT领域的工作。 2008 年毕业于北京邮电大学,并获得管理科学与工程硕士学位,是国内最早开展利用算法控制风险、防控银行信用风险的数据专家。先后担任美国格理集团(GLG)高级IT顾问、邮政储蓄银行高级数据存储专家、民生银行高级数据分析专家等职位,主导过邮政储蓄银行储蓄集中项目、邮政储蓄银行公司业务项目、民生银行集中运营规划与检视数据项目、银监会EAST现场检查项目、民生银行与人民法院执行查控专线项目等多个全国性商业银行的大型项目。同时,还通过了Hitachi Data Systems Certified Storage Manager日立高级存储认证、HP-CSE 惠普高级认证等多项国际IT认证,致力于利用信息技术和分布式大数据技术改造现代商业银行业务流程,降低银行运营成本,提升风险防控水平。目前主要负责商业银行信息系统、海量基础架构运营系统、云平台和大数据分析平台等系统的规划、研发及运营,在银行业务流程优化、IT产品规划、银行应用系统建设和大数据存储和处理等领域有丰富经验。 Q:请您介绍您的职业历程 - 在邮储银行、民生银行等知名大型商业银行的工作经历为您带来什么影响和感悟? 韩健:要说感悟的话,两个字概括一下就是“感恩”,无论是邮储银行还是民生银行都给了我非常广阔的平台。我有幸见证了以大数据、云平台为代表的各种IT技术给传统银行业带来的巨大变化,同时让自己拥有了跨界的能力,将IT技术与传统银行业务更好的融合。从我个人的职业历程来讲,主要经历了两个阶段: 第一阶段是 2008 年到 2014 年在邮储银行的职业经历,我作为项目的主导者带领团队完成了利用小型机集群替代大型机构建核心系统的建设,搭建分布式的大数据存储平台,这项技术在国内银行业的首次成功尝试,且在开放式平台上建设如此庞大规模的业务核心系统,在全球尚无成功案例;第二阶段是 2014 年至今在民生银行的职业经历,我作为高级数据专家参与行内的凤凰计划大型项目,与行内同事一起利用大数据平台自主研发数据分析模型,在内控合规、反欺诈、运营流程优化等方面均取得了卓有成效的研究成果。 Q:刚才您提到的利用小型机替代大型机的分布式集群技术,这项技术得到了工信部、人民银行、银监会等国家部委及监管机构的高度认可,能否可以简单谈一下这项技术的内容以及它的意义? 韩健:好的。一直以来,我国商业银行主要是基于大中型主机、以集中式架构构建其业务系统,这种架构具有技术成熟、系统可靠、应用实现相对简单等优点,同时也存在核心技术由国外供应商所垄断、系统投入成本高等缺点。随着开放平台处理能力的大幅提升、高速网络技术的日益成熟,以及云计算、分布式存储等新技术的快速发展和应用,基于开放平台、采用分布式架构建设业务系统,由于具有成本低、易扩展、自主可控等优势,也成为商业银行架构转型的趋势。 这项工程于 2011 年 6 月 16 日正式启动,整个工程历时三年,于 2013 年 5 月 26 日在陕西成功试点上线,此后经过三省试点、五批推广、 27 轮预演后,共完成了全国 30 个省(区、市)的切换上线。 自启动推广工作以来,业务处理正常,交易成功率均值始终保持在98%以上,系统成功率均值始终保持在99%以上。这项工程是银行信息科技领域迄今技术最复杂、建设难度最大的工程。以小型机集群替代大型机构建核心系统的技术路线取得圆满成功,是在国内同业的首次成功尝试,且在开放式平台上建设如此庞大规模的业务核心系统,在全球尚无成功案例。因此,工信部等多个部委也表示这项技术为国家实现核心技术“自主可控”的安全战略作出了积极探索,在维护金融和信息安全可靠方面迈出了关键一步。而我本人也非常有幸作为该项目的主导者获得了“ 2011 年度中国邮政集团公司科学技术奖”。 Q:提到分布式的存储技术,您认为现在比较主流的大数据存储技术有哪些?具体到银行业哪种比较好? 韩健:目前大数据存储技术路线最典型的共有三种:采用MPP架构的新型数据库集群、基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术以及大数据一体机,一种专为大数据的分析处理而设计的软、硬件结合的产品。前两种技术的都是分布式的存储,第三种是集中式的。从我个人的角度,分布式存储是未来大数据的发展方向。具体到这两种分布式存储技术的比较,MPP分布式数据库较Hadoop分布式系统在复杂逻辑的结构化数据处理上具有一定的优势,且可基于SQL开发,对于有较丰富SQL经验的银行系统开发者开发与运维更容易,但这并不意味着MPP分布式数据库就是大数据处理的最佳解决方案。因为在银行系统数据中,结构化数据价值密度通常高于非结构化或半结构化数据,而在银行数据中非结构化数据占用了大量的存储资源。这是因为银行系统中结构化数据以账务数据为主,而非结构化数据则主要集中在凭证影像等数据。当然结构化数据中也包括部分日志信息等价值密度不高的数据,而数据存储与处理技术正在由“一种架构支持所有应用”向“多种架构支持多类应用”转变。 Q:在新一代系统架构中,大数据是核心要素。这在搭建大数据平台时,需着手大数据治理相关建设。对于银行业大数据治理您有什么看法? 韩健:我先谈谈什么是大数据治理。数据治理本身分狭义和广义两个区别,狭义的治理主要是组织、制度、流程这些,而广义的治理包括数据质量、数据标准这些。数据治理强调两点,一是高层支持,二是各部门广泛参与。银监会有数据质量的良好标准,并且会进行非现场检查加现场检查,这是银行数据治理工作最大的督导。 2017 年,中国银监会启动了商业银行数据标准化的工作,我作为银监会监管数据标准化规范小组的专家成员正在进行这方面的研究,会对商业银行的前中后台各个业务领域的数据进行规范。从这个角度来看,无论是监管层还是银行本身,都对大数据治理的重要性都有了清楚的认识。 Q:您深耕银行IT数据多年,作为这个领域的先行者和杰出贡献专家,您认为在银行开展大数据工作的方向和团队建设上的建议? 韩健: 大数据技术的发展日新月异,数据的人才储备和技术积累却不能一蹴而就,需要相当力度的持续投入。人才储备方面,应本着“引进一批,培养一批,储备一批”的原则,引进一小批高层次技术人才,通过具体的项目实施,培养大量的存量技术人员,并通过面向高校和社会的大数据技术竞赛、资助开源社区等方式,形成广泛而有效的人才储备。 (编辑:孝感站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |