您好,欢迎来到刀刀网。
搜索
您的当前位置:首页数仓基础概念

数仓基础概念

来源:刀刀网

有网友碰到这样的问题“数仓基础概念”。小编为您整理了以下解决方案,希望对您有帮助:

解决方案1:

数仓基础概念

数仓,即数据仓库,是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策过程。以下是数仓的基础概念详解:

一、数据仓库分层模型

数据仓库的分层模型是为了保证数据的稳定性、屏蔽对下游的影响,并避免链路过长。常见的分层模型包括三层:

ODS(Operational Data Store,操作数据层)

定义为存储层,以快照形式保留历史数据,不做任何转换,与业务侧DB实体保持同构。

主要作用是把基础数据引入到计算存储中,并基于维度建模理念思想,建立整个企业的一致性维度。

CDM(Common Data Model,公共维度模型层)

又细分为DWD和DWS。

DWD(Data Warehouse Detail,明细数据层):对数据进行规范化处理(如编码转换、清洗、统一格式、脱敏等),不做横向整合。

DWS(Data Warehouse Summary,汇总数据层):对DWD各信息进行关联整合,输出主题宽表,集中建设通用性维度和指标,降低业务需求开发成本。

DIM(维度表):建立一致数据分析维表,降低数据计算口径和算法不统一风险。

ADS(Application Data Service,应用数据层)

面向业务需求进行定制开发,包含复合派生指标和标签。

二、数据仓库实施流程

数仓模型从设计到实施构建上线的整体流程包括五个主要环节:

数据调研

对业务体系和数据进行盘点,了解核心业务的数据现状。

收集和理解业务方需求,确保现有数据能够支持业务需求。

模型设计

根据需求和业务调研结果对模型进行初步归类,选择合适的主题域进行模型存放。

确定主题后进入数据模型的设计阶段,考虑总线结构构建、模型规范定义等关键问题。

模型构建

物理模型设计以逻辑模型为基础,兼顾存储性能等因素。

模型设计完成后需要输出表结构进行需求匹配的验证。

包含数据映射、计算实现、测试验证等开发过程。

测试验收

单元测试完成后,通知业务方一起对模型数据进行业务验证。

对验证问题做收集,返回验证模型设计的合理性。

发布应用

完成验证后的模型在线上生产环境进行部署。

通过数据源的方式接入到数据分析平台进行自助查询和可视化分析,或配置API接口服务提供给业务系统调用。

为模型配置监控,及时掌握为业务提供数据服务的状况。

三、数据仓库基本概念

业务板块

定义了数据仓库的多种命名空间,是一种系统级的概念对象。

当数据的业务含义存在较大差异时,可以创建不同的业务板块让各成员管理不同的业务。

主题域

主要用于存放同一业务板块内不同概念的指标。

例如,商品域、交易域、会员域等。

业务过程

业务活动中所有的事件,一般为不可拆分的事件。

创建业务过程是为了从顶层视角规范业务中的事务内容的类型及唯一性。

维度

进行统计的对象,通常是实际存在、不因事件发生就存在的实体。

维度及维度组合也是派生指标的统计粒度。

指标

分为原子指标和派生指标。

原子指标:对指标统计口径、具体算法的一个抽象。

派生指标:基于原子指标组合构建,是业务中常用的统计指标。

业务限定

统计的业务范围,筛选出符合业务规则的记录(类似于SQL中where后的条件,不包括时间区间)。

统计周期

统计的时间范围,也可以称为时间周期(类似于SQL中where后的时间条件)。

统计粒度

统计分析的对象或视角,定义数据需要汇总的程度。

粒度是维度的一个组合,指明统计范围。

四、数仓各层在数据处理过程中的应用

以销售主题为例,数仓各层在数据处理过程中的作用如下:

ODS层:存储原始的销售数据,包括订单、交易等。DWD层:对原始数据进行清洗、转换,生成规范的明细数据表。DWS层:对明细数据进行汇总、整合,生成主题宽表,如按商品、按地区等维度的销售汇总表。ADS层:基于DWS层的数据,根据业务需求定制开发派生指标和标签,如销售额增长率、客户留存率等。

综上所述,数仓基础概念涉及数据仓库的分层模型、实施流程以及基本概念等多个方面。理解这些概念对于构建高效、稳定的数据仓库至关重要。

Copyright © 2019- gamedaodao.com 版权所有 湘ICP备2022005869号-6

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务