专访深算院CTO陈志标:释放“AI ”新质生产力,深算院如何“把大数据变小”?
前言
近期,南都·湾财社推出《新质·中国造》栏目,深入千行百业,遍访湾区企业,解锁湾区新质生产力,共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标,探讨国产数据库如何实现创新突围,抢抓数字经济时代的新机遇。
以下是专访内容:
01
如何应对AI时代所面临的算力挑战?
Q
南都·湾财社:数据、算力和算法是发展人工智能的三要素,深算院做了怎样的前瞻性布局?
陈志标:今年,政府工作报告中首次提及开展“人工智能+”行动,人工智能产业发展提升至国家战略的层面。数据是人工智能发展的基础性战略资源,深算院重点围绕“数据”领域,针对当前面临的一些重大挑战进行技术攻关,致力为人工智能的长远发展打牢基础、夯实根基。
首先是海量数据带来的计算挑战。面向人工智能和数字化浪潮带来的海量数据,为了突破数据库系统的能力边界,深算院基于原创的有界计算理论,真正做到使用小资源实现大数据实时分析,即“大数据变小”,节省大量传统计算算力。深算院YashanDB在工程应用中融入这一理论研究成果,经实测,面向从10GB增长到1TB的不同规模数据量,YashanDB实现响应时延维持亚秒级,性能提升千倍以上且未衰减,极大地节约了计算资源,为AI时代所面临的算力挑战带来新解法。
再者是数据质量方面的挑战。高质量数据是释放人工智能的价值的前提,如何用自动化的技术手段提高数据的准确性、公正性和健壮性是当前学术界和工业界的研究热点。数据作为AI模型的“燃料”,训练语料质量、多样性和完备性变得愈发重要。基于此,我们一方面通过数据采集与分类、数据清洗、数据合成与扩充,以形成领域模型和高质量语料库;另一方面,当大模型应用在某个特定的领域和任务进行微调时,基于已积累的领域模型和高质量语料库,我们提出一种基于模型驱动的迭代框架,进一步提升下游模型的“纠错”能力,从而实现性能提升。
最后是数据多样性挑战。面对来源多样、格式复杂的数据,如何消除不同模态数据之间语义上的鸿沟快速进行整合和计算是另一个难点。当前主流方案考虑将数据按原始形态保存,在必要时通过转换统一为关系数据再做分析,这类方法需要转换大量无关数据,难以支撑数据的快速变化。针对多模“间接计算”模式的实时性难题,我们做了一些新的尝试——基于语义实体连接,实现关系表中元组与图数据中节点的对应,这样可以针对特定实体进行跨模计算,以“直接计算”代替“间接计算”,提升分析效率。
02
破解中小企业大数据应用门槛高的难题
Q
南都·湾财社:数据已经被列为重要的生产要素,在您看来,如何激活大数据在产业发展中的新动能,释放新质生产力?
陈志标:随着大数据、云计算等数字化技术的飞速发展和广泛应用,越来越多的企业开始依赖数据支撑业务运转,数据应用场景也随之增多,让大企业用得好大数据,让中小企业用得起大数据,才能真正助力企业充分释放数据价值、激活产业发展新动能。
虽然大企业已经建立了较完善的数据管理体系,但在整个数据利用方面还存在一些障碍,例如原始数据质量不高、数据共享不足、价值未被充分挖掘等等;那对中小企业而言,受限于预算和技术团队等现状,最显著的问题是数据的使用门槛很高,无法享受大数据赋予的红利,例如在大数据环境下处理PB级甚至是EB级数据对算力的要求十分高,这让大多数中小企业对大数据计算依然可望而不可即,也会导致数字鸿沟的进一步扩大。
要进一步释放产业发展中的数据价值,一方面,基础设施安全是企业用好数据的底线,数据库等基础软件系统作为关键基础设施,必须实现安全可信和持续演进,才能支持各行业在产业升级和转型过程中的需求;另一方面,从数据的存、算、管、用全链条助力企业更简单地管理数据,通过提供一站式数据管理解决方案,让用户简化学习及运维成本,能够聚焦在业务创新,充分将数据要素转化为生产力。
03
以数据为中心的新型数据管理技术
或将成为重要方向
Q
南都·湾财社:我们看到数字经济的浪潮风起云涌,人工智能的发展也进入大模型时代。站在您的角度,也可以结合深算院的发展情况,谈谈感受到一些时代发展的机遇或者说风口?
陈志标:如果说数据是数字经济时代的“石油”,那么数据管理就好比“发动机”,共同构成了面向千行百业的核心能力。在海量数据供给、活跃创新生态和巨大市场需求的多重推动下,尤其随着AI大模型的快速发展,必将催生新的市场和更多应用场景,企业创新创业势能将持续增强。
与此同时,随着新应用场景的涌现,对数据质量、数据多样性、数据处理的新鲜度和融合性等提出了更高的要求,这也将给数据管理带来更多挑战。基于传统计算模式开发的产品难以应对庞大的计算体量、解决计算复杂性等问题,因此以数据为中心的新型数据管理技术或将成为重要方向。
深算院作为新型科研机构,致力于打破一直以来存在的理论研究与工程转化之间的鸿沟。秉承“理论和系统并重”的初衷,我们坚持从0到1的基础软件开发,具备从产品定义、代码实现到质量保障端到端的工程实现能力,目前已开发从理论到工程全自研的崖山、采石矶、钓鱼城三款战略性基础软件系统并实现落地应用。
以数据库领域为例,作为现代信息技术领域的三大核心基础之一,数据库是数字经济的重要底座。深算院全自研的崖山数据库系统YashanDB,就是将原创理论突破与成熟工程化能力有机结合的产品。一方面,针对行业国产化替代需求,我们将产品的内核能力做深做足做实,攻克了高端领域技术制高点——共享集群技术,通过引入自适应异步并行、细粒度多版本并发控制支持高吞吐并发数据读写;通过抽象全局缓存,提供统一、透明的数据快速访问,降低实例间的网络开销,提升访问效率;通过全局资源运行时调度降低多实例间并发冲突,因此可以提供与国外系统相当的内核性能和高可用性保障,实现1:1的平替效果,有力解决“卡脖子”问题,目前YashanDB已经在金融、政府、能源等国计民生行业的核心业务系统中提供了自主可控的底层技术支撑;另一方面,面向大数据与人工智能时代的新应用场景,我们积极探索有界计算、跨模融合计算等前沿大数据技术的落地和应用,例如基于有界计算理论的数据尺度无关查询处理技术突破了关系理论限制,有效解决了数据规模对算力的依赖问题,有望为大数据处理带来革命性的进步,在我们的最新发布版本中已实现了有界计算的能力。