欧伟杰博士:不做追随者,“内核”的厚度决定“产品”的高度
引言
深圳计算科学研究院核心骨干,崖山科技公司团队创始人之一、技术副总裁欧伟杰受邀InfoQ《C位面对面》,介绍100% 自研的崖山数据库YashanDB是如何突出重围的。
谈突围
01
“根”技术和产品力 缺一不可
Q
InfoQ:据2023年初国内一家媒体的统计,国内目前有200多家数据库厂商。您认为国产数据库产业需要克服的关键难题是什么?YashanDB作为一款面世不久的数据库产品,有何独特之处或竞争优势?
谈落地
02
一比一平替O
为客户提供“兜底能力”
Q
InfoQ:据2023年初国内一家媒体的统计,国内目前有200多家数据库厂商。您认为国产数据库产业需要克服的关键难题是什么?YashanDB作为一款面世不久的数据库产品,有何独特之处或竞争优势?
欧伟杰:目前,我们产品已经与政务、金融、能源、交通、智能制造等关键行业建立了合作,包括深圳市政府、华润集团、深燃集团、深智城等代表性企业。
对此YashanDB交出了一份满意的答卷,在替换原有的数据库系统后,YashanDB不仅保障了迁移过程的平滑安全,更在多个关键指标上实现了性能的提升,是“1比1”平替的绝佳选择,对客户来说是个“降本增效”的事情。
Q
InfoQ:前不久,YashanDB 举办了 2023 新品发布会,我们看到了团队在技术、产品方面取得了很多突破,尤其是共享集群产品。YashanDB共享集群其实是瞄准核心系统替代的一款产品,团队为什么认为该产品可以突破目前国产替代的困境?它具备哪些关键优势?
欧伟杰:核心系统的高可用能力和业务连续性是用户最为关心的问题,共享集群可以实现当某个节点出现故障时,其他节点无感接管业务的能力,这对业务本身而言上了“双保险”。
1:1平替是分布式数据库的重大挑战之一。具体来说,分布式数据库和共享集群在“高可用”方面的底层逻辑是不一样的——共享集群的数据是一体的,所有节点是完整的数据集合,而分布式的单个实例是一个数据分片,二者的业务复杂性不在一个层次上。那么对于传统业务,特别是银行的核心交易系统,存在多系统之间的业务交集,其复杂性相当之高。如果要把这种基于集中式的业务改造成一个分布式的业务,对传统业务而言是一个颠覆式的改造,风险很高。所以,对用户来说,共享集群是实现“1:1”平替较为理想的方案。
作为商业数据库的技术的制高点,共享集群到底难在哪里?共享集群本身的难度在于它的存储组织,会涉及到数据的存储、事务处理等,是交易型系统的核心底层机制。如果在开源技术的基础上去开发,受限于其架构和技术路线,往往很难实现共享集群这一形态。实现共享集群,需要对存储等底层机制和核心技术有完全的掌控。
在去年,我们经过原型验证和多次迭代,成功推出共享集群产品,提供面向应用无状态的计算扩展能力,透明多写多读,像使用集中式一样简单方便;另外,在高效处理的数据规模、事务处理吞吐量和高可用能力等关键指标实现与国际标杆Oracle并跑并迈向领跑,高可用能力方面,RPO(数据丢失量)为 0,能够确保故障切换不丢数据,故障恢复时间 RTO 小于 20 秒;同时,替换过程业务不中断、上层应用无改造,完全满足核心系统对高可用的要求。当前产品也已经应用在金融、运营商等国计民生领域中,有效降低“断供”风险,真正实现高端应用场景1:1平替。
谈趋势
03
跨模计算已成为AI时代的下一个重要考验
Q
InfoQ:现在业界对于多模态数据的处理也做了很多探讨,那么YashanDB对多模态数据的处理的整体的思考和洞察背后的逻辑是什么?
欧伟杰:我最早接触到的一款多模数据库产品是微软的Cosmos DB,它虽然是多模数据库产品,但每一种模态的数据是基于烟囱式的方式,彼此之间不进行交互,这是原有多模数据库产品的一个局限性。但我们现在更多提到是“跨模态”,即不同模态的数据之间进行交互、计算。就像这几年大家都提到的“湖仓一体”,它在一定程度上可以实现跨模态,但要对两个模态数据进行计算,需要先统一成同一模态,再进行计算,这在实时性、转换成本方面还是比较高的,因此“湖仓一体”也存在一定的局限性。而针对这一问题,YashanDB的原创跨模计算理论,在研究更多不同模型之间的对象关联,基于跨模实体链接技术,提供基于语义联结的统一查询方法,避免数据模型转换,提升查询效率,真正实现了海量多源多模异构数据的高性能查询。