有界计算理论

——将大数据变小

多数计算不需要访问全部数据,只需要取其中的小数据集就能得到我们想要的答案。基于访问约束的有界计算模型与理论,把大数据计算规约成小数据上的处理。相关成果获2018 年英国皇家学会 Wolfson 研究奖。
依托有界计算所研发的新型数据库YashanDB(崖山数据库),经实测,
91%的查询任务适用于有界计算,可提高通信数据查询速度25-10万倍,极大地节约了计算资源。

近似计算理论

——数据近似查询

突破传统近似计算瓶颈,研究数据驱动的近似算法及理论,可在硬件规模投入有限的情况下,实现大数据精确高效查询。在大数据资源有限的情况下,为我们提供实时分析。

自适应异步并行理论

——新型计算资源调度

针对数据库系统事务吞吐量随着计算核数的增加反而降低等难题,提出了自适应的异步并行任务调度机制,将传统的分区方法变革为新型的调度方法,大幅度降低了多核之间的事务冲突协调开销。
相对于同步调度和异步调度,自适应异步并行调度分别提高了
14.7 倍4.8 倍

跨模融合理论

——以直接计算代替间接计算

随着互联网的兴起和知识图谱在各类产品中的应用,非结构化数据的价值也在迅速增长。针对多模“间接计算”模式的实时性难题,结合机器学习与逻辑推理,定义了数据实体增强计算的理论框架,以此识别图模型与关系模型之间的跨模数据关联性(NPxspace-complete)、一致性(coNPxspace-complete)和可满足性(Πp2 -complete),提出了跨模数据链接、语义级跨模关联等理论方法。
相对于拓扑和机器学习方法,跨模关联识别方法的准确率分别提高了
91.3%80.9%,速度分别提升了 40.4倍24.4倍

结构化数据与半结构化数据的整合分析是困扰国际学术界多年的未解问题。

 

---PODS 2017

并发事务调度理论

——高效并行任务执行

基于事务代价的并发事务调度方法以及针对多核架构下事务处理的调度和处理流程,可有效降低锁等待和乐观并发控制(OCC)重试成本。实验表明,可提高吞吐量和重试次数分别为137%42.5%,最高可达321%58.1%