多源异构

(1)多源异构是什么 简单来说就是多个数据源,不同的数据存储架构。多个数据来源,这里的来源可能是 Mysql,Oracle这些数据库中文件;也可能是一些非结构化的 HDFS,ES这些非结构化数据库中的文件;还有一些就是通过 WEB 页面传递过来的 RESTful,Josn 字符串。异构主要指数据结构上的差异性。数据结构层把纷繁复杂的数据归为三大类,针对每一类数据设计了相应的数据存储模型,确保了城市 阅读更多…

混合存储

(1)什么是混合存储 混合存储又称行列混合存储,TP 和 AP 传统来说仰赖不同的存储格式:行存对应 OLTP,列存对应 OLAP,混合存储简单理解就是AP+TP混合存储。 (2)为什么需要混合存储 OLTP需要处理涉及频繁写操作的事务型查询,OLAP侧重于处理涉及大量读操作的分析型查询,列存储在读操作中有较大的优势,适合OLAP查询,但不适合OLTP查询。随着大数据存储时代的到来,人们对于大容量 阅读更多…

分布式SQL

(1)什么是分布式SQL 分布式SQL可以称为分布式任务,分布式SQL是指SQL语句到任务执行的时候分布在多个机器上执行。 (2) 为什么要用分布式SQL SQL是关系型数据库的通用语言,关系型数据库是单体式的,从架构而言它们无法在多个实例之间自动地分配数据和查询。分布式SQL在查询上可以被自动地分配到目标群集的多个节点上,有效地避免了单个节点成为查询处理中的瓶颈问题。分布式SQL内置具有可扩容性 阅读更多…

数据一致性

(1)什么是数据一致性 事务机制ACID和CAP理论是数据库和分布式系统中两个重要的概念,这两个概念中都有相同的“C”代表 “Consistency” 一致性。ACID体现在数据库领域,其中ACID中的“C”数据一致性是指事务的执行不能破坏数据库数据的完整性和一致性,一个事务在执行之前和执行之后,数据库都必须处于一致性状态。 比如:A向B转账,A扣款的同时B到账。CAP体现 阅读更多…

去中心化技术

(1)数据中心化的问题 a)数据中心化在查询涉及多关联场景时,会导致查询性能严重低下。b)当大量数据存在于同一个数据库时会容易造成数据库访问瓶颈,从而影响数据访问性能,并为系统可用性埋下隐患。 (2)为什么需要去中心化 a)在云计算、大数据等新技术的带动下,越来越多的企业需要对结构化的数据进行查询、分析、处理和更新。b)随着创新业务的不断增加,业务的复杂及庞大的体量会产生错综复杂且规模巨大的结构化 阅读更多…

【Hubble × ACMUG】 技 术 分 享 活 动

活动回放 klustron内核研发-吴夏 甲骨文MySQL解决方案首席工程师-徐轶韬 天云数据专家工程师-乔旺龙 腾讯专家工程师-陈开旺 阿里云PolarDB高级技术专家-蔡畅 华为云数据库软件总工-彭立勋 感谢大家! ACMUG简介 ACMUG,全称为中国MySQL用户组 (All China MySQL User Group) ,是MySQL和MariaDB在中国最大的技术社区,是得到了Ora 阅读更多…

2023(第一期)技术分享讨论会

天云数据-Hubble 数据库团队第一期技术分享会于 2023 年 2 月 26 日在天云数据一楼大厅成功举办,这是一场纯技术干货的分享会,从五个部分带你走进分布式数据库的世界,第一部分:我国分布式数据库的产业现状如何?第二部分:分布式数据库逐渐成为主流;第三部分:分布式数据库解决的问题;第四部分:数据库的定位;第五部分:数据库技术发展的路线图,现将精心制作的讲解视频分享出来,与大家共同学习,如果 阅读更多…

Oracle 数据迁移到Hubble数据库

Oracle 数据迁移 Oracle映射到hubble数据类型 使用之前创建的SQL文件,编写IMPORT TABLE与要导入的表数据的模式匹配的语句。删除所有特定于Oracle的属性,重新映射所有Oracle数据类型,重构所有CREATE TABLE语句以包括主键。使用下表进行数据类型映射: Oracle数据类型 hubble数据类型 BLOB BYTES 1个 CHAR(n),CHARACTE 阅读更多…

MySQL数据迁移到Hubble数据库

MySQL单表迁移至Hubble 步骤一:导出需要迁移的表 步骤二:将导出的数据文件放置于集群可访问到的位置 Hubble集群中的每个节点都需要访问到需导入的数据文件。可使用httpd服务。 URL必须使用以下格式: 当前支持的类型如下: 类型 schema host 参数 示例 http http 主机地址 N/A http://localhost:8080/mydatest.sql NFS/L 阅读更多…

历史数据查询解决方案

需求背景 随着互联网时代的到来,人们足不出户用手机就可以在手机银行中办理各种业务,便捷的网上交易使得银行系统中积累的数据量越来越大,为了保证核心数据存储系统能正常工作,该银行无法实时查询交易五年以上的历史数据,需要预约等待查询。如遇到公安办案、监管部门查交易明细等紧急重要的情况下,无法满足实时查询的需求,会出现影响办案的时效性等问题,历史数据查询难度日益增加。 银行数据存贮现状 银行核心系统可能发 阅读更多…

独占空间和非独占空间

(1)什么是独占空间和非独占空间 数据库底层是表,表分为大表(类似银行交易表,数据量非常大)和小表(可维护的表,数据量比较小)。独占空间是指表存储在一个独立空间里;非独占空间是指各类表共用一个空间。 (2)为什么需要独占空间和非独占空间 a)由于小表数据量比较少,占一个独立空间会造成资源浪费,非独占空间会把大量小表存储在一起,共同占用一个空间;b)大表数据量非常大,一般单独存储在独占空间中,大表和 阅读更多…

事务隔离级别——可串行化

(1)什么是事务隔离级别可串行化 事务隔离级别,就是为了解决解决隔离级别中“脏读可能性、不可重复读可能性、幻读可能性、加锁读”的问题。事务隔离级别越高,在并发下会产生的问题就越少,但同时付出的性能消耗也将越大,因此很多时候必须在并发性和性能之间做一个权衡。所以设立了几种事务隔离级别,以便让不同的项目可以根据自己项目的并发情况选择合适的事务隔离级别,对于在事务隔离级别之外会产生的并发问题,在代码中做 阅读更多…

海关总署缉私局 跨境电商风险分析

利用海关跨境电商进口业务数据,经过本体定义及数据处理、融合,完成复杂网络的构建。将订单、支付单、运单、清单等近30GB的数据进行数据清洗、编码转换及数据关联。对跨境电商业务数据进行统计和分析,找出跨境交易中存在偷税漏税行为的电商企业。

泰州公安 感知系统升级

公安系统原有数据库无法实时查询三个月以上的历史数据,当并发量高时需要排队查询,时间较长,影响用户的使用情况。这种情况下就需要数据库既可以做到高效存储、高并发量快速查询,便于扩容又可以同时支持业务读写和统计分析。

泰康保险公司 个性化营销项目

采用大数据及AI技术,解决客户流失率上升的问题,分析流失原因,帮助挽留客户。提前预测客户流失倾向并针对性推荐手段挽留,做的千人千面,个性化挽留。能让收展员对自己客户的收缴保费情况一目了然,指引收展员关注当前需要重点关注的客户。

中国人寿 大数据点击流系统方案

点击流数据指用户访问网站时的所有访问、浏览、点击行为数据。而所有这些信息都可被保存在网站日志中,通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准,数据与决策下沉,实现一线信息穿越。