利用UDW构建企业级数据仓库和BI系统
副标题[/!--empirenews.page--]
背景 随着大数据应用的发展与普及,越来越多的企业认识到企业运行中所产生数据本身也是一种高价值资产。并且,商业智能在企业的经营与决策中所扮演的角色,既可以是操作层中的数据指导,也可以是战术层与战略层上的决策顾问。 商业智能——即Business Intelligence,其所关注与解决的问题是如何将数据转化为知识,帮助企业将纷繁浩杂的数据整合加工,从而为决策/管理等提供精准的支持及预测发展趋势。BI系统从不同的应用中将数据汇聚到核心存储服务中,并对这些数据进行加工和多维度分析,最终将分析结论以报表或可视化的方式展现给决策者。 在大数据时代的BI系统中,数据的价值被更多的人们所发现,并且,伴随着数据源的日益丰富,数据的体量及增长速率也变得越来越大。所以,数据仓库不但在整个BI系统中起到了支柱的角色,更是企业和组织海量数据收集、存储、分析的核心。 BI的演进BI系统也在IT技术发展的过程中经历了多次演变,其中最为重要的就是从传统商务智能(BI)到Just In Time BI(实时BI)的变更。 在传统商务智能场景下,BI系统侧重对历史中所产生的数据进行离线分析。而Just In Time BI场景,则是实时数据分析需求所产生的,要求分析能够在任意时点,立即给出分析结果。所以实时BI必须要基于动态数据仓库,并侧重业务数据流的实时整合,以便根据当下的数据,及时对运营决策进行优化与调整。 传统数据仓库面临的挑战在大数据和实时BI时代,数据源不断增多,数据访问和数据同步变得复杂,开始包括非结构化与半结构化数据;数据量增大、应用不断增加,运行沉重缓慢,不堪重负;数据处理延时长,无法看到实时运营情况;先前的逻辑数据模型不能支撑数据快速分析和价值发现。 下面我们先分析传统的数据仓库对大数据、实时BI中的不足。 基于Oracle、MySQL等关系型数据库
基于DB2/Sybase IQ/Oracle+小型机+阵列
面对数据快速增长、BI的实时运营分析的挑战,这就要求底层支撑平台数据仓库可以实现动态数据仓库,具备强大的数据流动和交换能力、存储能力、线性扩展能力以及数据分析能力,从而支持数据的高效的数据采集和处理、多模式数据的准确实时共享以及面对需求变化的快速响应。 基于UDW数据仓库和BI解决方案UDW采用无共享的MPP架构,是大规模并行处理数据仓库产品,提供Greenplum和Udpg两种可选的类型。Greenplum是EMC开源的数据仓库,Udpg是基于PostgreSQL开发的大规模并行、完全托管的PB级数据仓库服务。UDW可以为简单、高效,为互联网、物联网、金融、电信等行业BI系统提供有力的支持。 上图是基于UDW的数据仓库和BI解决方案,通过ETL过程把不同来源的数据加载批量、实时准实时的加载到UDW,基于UDW的数据仓库、用户可以对历史的数据进行定时分析、展示,对当前的业务数据进行实时准实时分析、挖掘,加快需求响应速度,能够让企业快速的感知市场的变化,加快决策与实施。 下面我们分析一下UDW如何面对海量数据、实时BI需求的挑战。 支持海量数据存储和分析UDW采用无共享的MPP架构,同时使用多台机器存储和计算,极大的提高了海量数据的存储能力和并行处理能力。面对数据的快速增长,通过增加节点就可以线性的提高系统的存储和计算能力。UDW支持百GB到上PB级别的数据存储和分析。 丰富的数据加载方式当今时代,数据的来源越来越多,我们的数据有来自业务DB数据、系统日志、运维日志等内部数据,也有来自移动数据、社交媒体数据、爬虫数据等外部数据。为了支持不同来源数据的加载,UDW除了可以使用insert和copy的方式加载数据外,还提供了丰富的数据导入方式。我们可以通过mysql2udw把MySQL中的数据全量或增量导入到UDW;通过外部表并行的加载外部文本文件,极大的提高了数据加载速度;使用sqoop或者HDFS外部表把HDFS中的数据加载到UDW;创建UFile的外部表、把UFile中的数据导入到UDW。 动态的数据加载传统的数据仓库都是先把数据加载好,再去支撑业务查询。大数据实时BI时代的数据仓库要求能够动态的加载数据,动态加载数据的要求是在加载数据的同时不荷不能影响用户使用数据仓库。UDW并行的处理能力、充分利用每个节点的存储和计算能力,大大提高了数据吞吐能力。 支持实时BIUDW通过准实时、实时的数据加载,实现对数据仓库的实时更新,利用数据分布式分布、任务并行执行、节点线性扩展能力增加UDW的处理能力来轻松应对海量数据的查询和分析;利用列存储、分区、索引降低磁盘IO的方式减少查询和分析时处理的数据量来提高数据分析效率。UDW利用这些特性,可以轻松的实现动态的数据仓库,能够让企业敏锐感知市场的变化,加快决策支持的反应速度。 UCloud基于UDW的数据仓库需求分析目标实现公司统一的数据服务平台 需求
|