05-TiDB 之 HTAP 快速上手

news/2024/5/19 14:01:24 标签: tidb, HTAP, 混合事务分析过程

混合型在线事务与在线分析处理 (Hybrid Transactional and Analytical Processing, HTAP) 功能

  • HTAP 存储引擎:行存 与列存 同时存在,自动同步,保持强一致性。行存 OLTP ,列存 OLAP
  • HTAP 数据一致性:作为一个分布式事务型的键值数据库,TiKV 提供了满足 ACID 约束的分布式事务接口,并通过 Raft 协议保证了多副本数据一致性以及高可用。TiFlash 通过 Multi-Raft Learner 协议实时从 TiKV 复制数据,确保与 TiKV 之间的数据强一致。
  • HTAP 数据隔离性:TiKV、TiFlash 可按需部署在不同的机器,解决 HTAP 资源隔离的问题。
  • MPP 计算引擎:从 v5.0 版本起,TiFlash 引入了分布式计算框架 MPP

1、部署试用环境

参考 02-部署本地测试集群 完成快速部署

tiup playground --tag v7.5.0 --host 192.168.1.1

2、准备试用数据

使用以下命令安装数据生成工具:

tiup install bench

使用以下命令生成数据:

tiup bench tpch --sf=1 prepare

此过程耗时较长(10多分钟),生成完后。会在test查看相关表及数据

当命令行输出 Finished 时,表示数据生成完毕。

运行SQL 查看生成的数据:

SELECT CONCAT(table_schema,'.',table_name) AS 'Table Name', table_rows AS 'Number of Rows', 
CONCAT(ROUND(data_length/(1024*1024*1024),4),'G') AS 'Data Size', 
CONCAT(ROUND(index_length/(1024*1024*1024),4),'G') AS 'Index Size', 
CONCAT(ROUND((data_length+index_length)/(1024*1024*1024),4),'G') AS'Total' 
FROM information_schema.TABLES WHERE table_schema LIKE 'test';

从输出中可以看到,一共生成了八张表,最大的一张表数据量有 600 万行(由于数据是工具随机生成,所以实际的数据生成量以 SQL 实际查询到的值为准)。

这是一个商业订购系统的数据库。其中,

test.nation 表是国家信息、test.region 表是地区信息、test.part 表是零件信息、

test.supplier 表是供货商信息、test.partsupp 表是供货商的零件信息、

test.customer 表是消费者信息、test.orders 表是订单信息、test.lineitem 表是在线商品的信息。

3、使用行存查询数据

执行以下 SQL 语句 TiDB 的表现:

SELECT l_orderkey,SUM( l_extendedprice * (1 - l_discount)) AS revenue,o_orderdate,o_shippriority
FROM customer,orders, lineitem
WHERE c_mktsegment = 'BUILDING'
AND c_custkey = o_custkey
AND l_orderkey = o_orderkey
AND o_orderdate < DATE '1996-01-01'
AND l_shipdate > DATE '1996-02-01'
GROUP BY l_orderkey, o_orderdate, o_shippriority
ORDER BY revenue DESC, o_orderdate
limit 10;

用于给出在指定日期之前尚未运送的订单中收入最高订单的优先权和潜在的收入。

潜在的收入被定义为 l_extendedprice * (1-l_discount) 的和。订单按照收入的降序列出。

列出潜在查询收入在前 10 的尚未运送的订单。

4、同步列存数据

TiFlash 部署完成后并不会自动同步 TiKV 数据,

在 MySQL 客户端向 TiDB 发送以下 DDL 命令指定需要同步到 TiFlash 的表。

指定后,TiDB 将创建对应的 TiFlash 副本。

ALTER TABLE test.customer SET TIFLASH REPLICA 1;
ALTER TABLE test.orders SET TIFLASH REPLICA 1;
ALTER TABLE test.lineitem SET TIFLASH REPLICA 1;

如需查询 TiFlash 表的同步状态,请使用以下 SQL 语句:

SELECT * FROM information_schema.tiflash_replica WHERE TABLE_SCHEMA = 'test' and TABLE_NAME = 'customer';
SELECT * FROM information_schema.tiflash_replica WHERE TABLE_SCHEMA = 'test' and TABLE_NAME = 'orders';
SELECT * FROM information_schema.tiflash_replica WHERE TABLE_SCHEMA = 'test' and TABLE_NAME = 'lineitem';

以上查询结果中:

  • AVAILABLE 字段表示该表的 TiFlash 副本是否可用。1 代表可用,0 代表不可用。副本状态变为可用之后就不再改变。
  • PROGRESS 字段代表同步进度,在 0.0~1.0 之间,1 代表 TiFlash 副本已经完成同步。

5、使用 HTAP 更快地分析数据

再次执行第 3 步中的 SQL 语句

对于创建了 TiFlash 副本的表,TiDB 优化器会自动根据代价估算选择是否使用 TiFlash 副本。

如需查看实际是否选择了 TiFlash 副本,可以使用 desc 或 explain analyze 语句,例如:

explain analyze SELECT
    l_orderkey,
    SUM(
        l_extendedprice * (1 - l_discount)
    ) AS revenue,
    o_orderdate,
    o_shippriority
FROM
    customer,
    orders,
    lineitem
WHERE
    c_mktsegment = 'BUILDING'
AND c_custkey = o_custkey
AND l_orderkey = o_orderkey
AND o_orderdate < DATE '1996-01-01'
AND l_shipdate > DATE '1996-02-01'
GROUP BY
    l_orderkey,
    o_orderdate,
    o_shippriority
ORDER BY
    revenue DESC,
    o_orderdate
limit 10;

如果结果中出现 ExchangeSender 和 ExchangeReceiver 算子,表明 MPP 已生效。

此外,你也可以指定整个查询的各个计算部分都只使用 TiFlash 引擎,详情请参阅使用 TiDB 读取 TiFlash。

使用后效率


http://www.niftyadmin.cn/n/5348427.html

相关文章

有关链表的题目

目录 1.环形链表的约瑟夫问题 2.链表的中间节点 3.合并两个有序链表 4.反转链表 5.移除链表元素 1.环形链表的约瑟夫问题 环形链表的约瑟夫问题_牛客题霸_牛客网 (nowcoder.com) 思路&#xff1a;题目给出结构是环形链表&#xff0c;且题目已经定义好了环形链表的结构。 1…

x-cmd pkg | httpx - 为 Python 设计的下一代 HTTP 客户端库

目录 简介首次用户功能特点进一步探索 简介 HTTPX 是一个为 Python 设计的下一代 HTTP 客户端库&#xff0c;由 Tom Christie 创建。它提供了同步和异步的 API&#xff0c;并支持 HTTP/1.1 和 HTTP/2 协议。与 Requests 库类似&#xff0c;但增加了对异步请求的支持和 HTTP/2 …

【笔记】顺利通过EMC试验(16-41)-视频笔记

目录 视频链接 P1:电子设备中有哪些主要骚扰源 P2:怎样减小DC模块的骚扰 P3:PCB上的辐射源究竟在哪里 P4:怎样控制PCB板的电磁辐射 P5:多层线路板是解决电磁兼容问题的简单方法 P6:怎样处理地线上的裂缝 P7:怎样降低时钟信号的辐射 P8:为什么IO接口的处理特别重要 P9…

外卖跑腿系统开发:构建高效、安全的服务平台

在当今快节奏的生活中&#xff0c;外卖跑腿系统的开发已成为技术领域的一个重要课题。本文将介绍如何使用一些常见的编程语言和技术框架&#xff0c;构建一个高效、安全的外卖跑腿系统。 1. 技术选择 在开始开发之前&#xff0c;我们需要选择适合的技术栈。常用的技术包括&a…

Jenkins CLI 任意文件读取漏洞复现(CVE-2024-23897)

0x01 产品简介 Jenkins 是一个开源的自动化服务器软件,用于构建、测试和部署软件项目。它提供了一种强大的方式来自动化软件开发和交付流程,以提高开发团队的效率和生产力。 0x02 漏洞概述 漏洞成因 命令行接口文件读取: Jenkins内置的命令行接口(CLI)存在一个特性,允…

ElasticSearch 开发总结(九)——SearchType:DFS_QUERY_THEN_FETCH和QUERY_THEN_FETCH

ElasticSearch 开发总结&#xff08;九&#xff09;——SearchType&#xff1a;DFS_QUERY_THEN_FETCH和QUERY_THEN_FETCH-CSDN博客 1.SearchType ES的搜索类型 有一个类SearchType&#xff08;如下图示&#xff09;&#xff0c;关于该类的描述&#xff1a; Search type repre…

解救数据:保护免受.POPPPPPJ 勒索病毒威胁的策略

导言&#xff1a; 在数字化的时代&#xff0c;勒索病毒已然成为网络安全领域的一大挑战&#xff0c;而.POPPPPPJ 勒索病毒作为其中的一员&#xff0c;其破坏性和隐蔽性更是令人担忧。本文将深入介绍.POPPPPPJ 勒索病毒的工作机制、传播途径&#xff0c;并为受害者提供解密数据…

1.22SVM(对偶性,KKT条件,核函数(高斯核函数RBF,参数伽马),软间隔问题(对误差容忍,参数C),总结,例题),SVM流程,代码,划分指定类数

就是说数据有多维的特性&#xff0c;然后依据特性在坐标系种存在点&#xff0c;就是画一个面来分割不同的点&#xff0c;从而实现数据的分类 将两类数据区分开 W为X对应的权重 分割线&#xff08;超平面&#xff09;所在&#xff0c;就是决策边界 可以转化为求解两类数据的最…