大数据-160 Apache Kylin 构建Cube 按照日期构建Cube 详细记录

CSDN 2024-10-24 09:37:01 阅读 69

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis （已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已更完）Kudu（已更完）Druid（已更完）Kylin（正在更新…）

章节内容

上节我们完成了如下的内容：

Apache Kylin 构建Cube 准备数据Apache Kylin 构建Cube 测试数据

在这里插入图片描述

Cube 介绍

Apache Kylin 是一个开源的分布式分析引擎，专注于提供大数据的实时OLAP（在线分析处理）能力。Cube（立方体）是 Apache Kylin 的核心概念之一，通过预计算大规模数据的多维数据集合，加速复杂的 SQL 查询。下面详细介绍 Cube 的关键点：

Cube 的基本概念

Kylin 中的 Cube 是通过对一组事实表（通常是业务数据表）进行多维建模后，生成的预计算数据结构。Cube 涉及对多维数据的度量和维度的组合，从而可以在查询时通过检索预先计算的结果来显著减少计算开销。

维度（Dimension）：数据中用于分组、筛选和切片的数据字段，例如时间、地区、产品等。度量（Measure）：通常是需要进行聚合计算的数据字段，例如销售额、订单数等。Cuboid：每个 Cube 由多个 Cuboid 构成，Cuboid 是一个特定维度组合的子集。Cube 中每种维度组合都会生成一个 Cuboid，每个 Cuboid 存储了该组合下的预聚合结果。

Cube 的创建过程

数据建模：首先在 Kylin 中创建一个数据模型（Data Model），这个模型定义了事实表和维度表之间的关系，类似于星型或雪花型模式。模型中也定义了需要聚合的度量字段。Cube 设计：基于数据模型设计 Cube，指定 Cube 的维度和度量。Kylin 会根据定义自动计算所有可能的维度组合（Cuboid）。构建 Cube：构建过程会读取底层数据源（如 Hive、HBase、Kafka），然后根据指定的维度和度量生成每个 Cuboid 的预计算数据。这些预计算结果存储在 HBase 或其他存储引擎中。

Cube 的查询与优化

查询加速：当有 SQL 查询请求到达时，Kylin 会根据查询所涉及的维度组合，选择合适的 Cuboid 返回结果，避免了实时计算，极大地提高了查询性能。Cube 优化：为了控制 Cube 大小和加速构建，Kylin 支持裁剪 Cube，通过配置仅生成部分 Cuboid，这称为“Aggregation Group”，可以减少冗余计算。

实时 OLAP

Kylin 4.0 引入了对实时 OLAP 的支持，使用 Kafka 作为实时数据流输入，构建实时 Cube。通过使用 Lambda 架构，Kylin 可以支持实时和批处理数据的整合分析。

Cube 的典型应用场景

大规模数据分析：Cube 适用于分析超大规模的数据集，通过预计算方式加速查询。实时分析：实时 Cube 允许用户在近乎实时的基础上分析流数据。商业智能（BI）工具的集成：Kylin 提供与 Tableau、Power BI 等常见 BI 工具的集成，用户可以使用熟悉的 SQL 查询语言进行复杂的多维分析。

维度表优化

要具有数据一致性，主键值必须是唯一的（否则Kylin构建过程会报错）维度表越小越好，因为Kylin会将维度表加载到内存中供查询使用，过大的表不适合作为维度表，默认的阈值是300MB改变频率低，Kylin会在每次构建中试图重用维度表的快照（Snapshot），如果维度表经常改变的话，重用就会失效，这就会导致要经常对维度表创建快照维度表最好不要是Hive视图（View），因为每次都需要将视图进行物化，从而导致额外的时间开销

事实表优化

移除不参与Cube构建的字段，可以提升构建的速度，降低Cube构建结果的大小尽可能将事实表进行维度拆分，提取公用的维度保证维度与事实表的映射关系，过滤无法映射的记录

创建Cube(按日期)

核心步骤

DataSource => Model => Cube

Model：描述了一个星型模式的数据结构，定义事实表（FactTable）和维度表（LookUpTable），以及它们之间的关系基于一个Model可以创建多个Cube，可以减少重复工作

Cube设计

维度：日期度量：订单商品销售量、销售总金额

select date1, sum(price), sum(amount)

from dw_sales

group by date1;

结构图如下：

在这里插入图片描述

执行步骤

创建项目Project（非必须）创建数据源（DataSource），指定有哪些数据需要进行数据分析创建模型（Model），指定具体要对哪个事实表、维度表进行数据分析创建立方体（Cube），指定对哪个数据模型执行预处理，生成不同维度的数据执行构建等待构建完成再执行SQL查询，获取结果，从Cube中查询结果。