Hubble数据库-企业级分布式数据库-自主研发国产分布式 HTAP数据库

硬核技术

LSM Tree存储格式

（1）LSM Tree是什么 LSM Tree，即日志结构合并树(Log-Structured Merge-Tree)，是一种被精心设计的数据结构，常用于处理大量写入的场景。通过对写入操作进行顺序写入优化实现性能提升。LSM tree 是很多数据库内部的核心数据结构。（2）为什么要用LSM Tree 传统关系型数据库使用B-Tree或一些变体作为存储结构，能高效进行查找，但保存在磁盘中时它也有一...

硬核技术

混合逻辑时钟

（1）什么是混合逻辑时钟混合逻辑时钟即混合了物理时钟PT和逻辑时钟LC，实质上，是对逻辑时钟的增强。物理时钟是机器本地的时钟，由于系统对时间流逝的感知和度量会出现频率稍高或稍低的状况，因此系统时间会比标准时间稍快或稍慢，一天的误差可能有毫秒甚至秒级。逻辑时钟是通过happened-before关系确定事件的逻辑时钟，从而确定事件的偏序关系。在分布式场景下，不同机器的时间可能存在不一致，没办法对跨...

硬核技术

存储和查询统一实例

（1）什么是存储和查询统一实例实例是“内存”和“后台进程”的集合。数据库是数据的物理存储。特别注意，一个实例可以用于一个数据库，多个实例也可以同时用于一个数据库，实例和数据库的关系是一对多的关系，存储和查询统一实例就是指存储和查询共用一个实例。（2）为什么要存储和查询统一实例？查询和存储如果分离，就好比为两个大的水库中间由一个水渠连接起来。那么水库之间的水量交换就取决于水渠的大小，如果其中一...

硬核技术

多源异构

（1）多源异构是什么简单来说就是多个数据源，不同的数据存储架构。多个数据来源，这里的来源可能是 Mysql,Oracle这些数据库中文件；也可能是一些非结构化的 HDFS，ES这些非结构化数据库中的文件；还有一些就是通过 WEB 页面传递过来的 RESTful,Josn 字符串。异构主要指数据结构上的差异性。数据结构层把纷繁复杂的数据归为三大类，针对每一类数据设计了相应的数据存储模型，确保了城市阅读更多…

由hubble，3 年2022年3月16日前

硬核技术

混合存储

（1）什么是混合存储混合存储又称行列混合存储，TP 和 AP 传统来说仰赖不同的存储格式：行存对应 OLTP，列存对应 OLAP，混合存储简单理解就是AP+TP混合存储。（2）为什么需要混合存储 OLTP需要处理涉及频繁写操作的事务型查询，OLAP侧重于处理涉及大量读操作的分析型查询，列存储在读操作中有较大的优势，适合OLAP查询，但不适合OLTP查询。随着大数据存储时代的到来，人们对于大容量阅读更多…

由hubble，3 年2022年3月16日前

硬核技术

分布式SQL

（1）什么是分布式SQL 分布式SQL可以称为分布式任务，分布式SQL是指SQL语句到任务执行的时候分布在多个机器上执行。（2）为什么要用分布式SQL SQL是关系型数据库的通用语言，关系型数据库是单体式的，从架构而言它们无法在多个实例之间自动地分配数据和查询。分布式SQL在查询上可以被自动地分配到目标群集的多个节点上，有效地避免了单个节点成为查询处理中的瓶颈问题。分布式SQL内置具有可扩容性阅读更多…

由hubble，3 年2022年3月16日前

硬核技术

数据一致性

（1）什么是数据一致性事务机制ACID和CAP理论是数据库和分布式系统中两个重要的概念，这两个概念中都有相同的“C”代表 “Consistency” 一致性。ACID体现在数据库领域，其中ACID中的“C”数据一致性是指事务的执行不能破坏数据库数据的完整性和一致性，一个事务在执行之前和执行之后，数据库都必须处于一致性状态。比如：A向B转账，A扣款的同时B到账。CAP体现阅读更多…

由hubble，3 年2022年3月16日前

硬核技术

去中心化技术

（1）数据中心化的问题 a)数据中心化在查询涉及多关联场景时，会导致查询性能严重低下。b)当大量数据存在于同一个数据库时会容易造成数据库访问瓶颈，从而影响数据访问性能，并为系统可用性埋下隐患。（2）为什么需要去中心化 a)在云计算、大数据等新技术的带动下，越来越多的企业需要对结构化的数据进行查询、分析、处理和更新。b)随着创新业务的不断增加，业务的复杂及庞大的体量会产生错综复杂且规模巨大的结构化阅读更多…

由hubble，3 年2022年3月16日前