`
文章列表
此文为翻译的文档,英文连接为 https://cwiki.apache.org/confluence/display/Hive/Design#Design-HiveArchitecture   Hive 查询流程图如下 图中可以看出查询主要组件包含 UI(user interface) –用户提交查询或者其他操作,现在标准UI有CLI(command line interface),Thrift Serve,Hive web interface(HWI)。 Driver(驱动) –负责接收查询及其他操作,Driver 实现了会话句柄的概念,并提供在基于JDBC / ODBC ...
准备把blog搬到CSDN去了
       最近一直在忙面试的事情,面试过程中碰到几家公司都问到了Hive,但是由于最近三年一直在忙海外数据仓库的事情,对于大数据的只限于了解,未有实际的使用,为了更好的面试,特总结了下Hive的相关知识 (1)什么是Hive         1.1 Hive是Hadoop工具家族中一个重要成员,可以将结构化的数据文件(HDFS)映射为一张数据库表。         1.2 Hive 定义了简单的类 SQL 查询语言,被称为 HQL,实现方便高效的数据查询         1.3 Hive的本质是将HQL,转换成MapReduce任务,完成整个的数据的ETL,减少编写MapRedu ...
产品化,标准化,工业化,这个是比较沉重的话题,也是我们国产软件走出国门,走上世界的一个痛点。我没有参与到商务谈判,也没有参与当时整个数据仓库的选型,这个可能是我的遗憾吧,据说当时选型的时候,客户直接 ...
有段句话说的对:管理既是一门科学,又是一门艺术,管理的科学性在于管理作为一个活动过程,其间存在着一些列基本客观规律,有一套分析问题、解决问题的科学方法论,并在实践中得到不断地验证和丰富,可复制和学习,并可指导人们视线有效的管理.管理的艺术性就是强调其实践性和创新性.要有效地实现管理,管理者比需要管理实践中发挥积极性、主动性和创造性,因地制宜地将管理知识与具体管理活动相结合.管理既是一门科学,又是一门艺术,是科学与艺术的有机结合体.管理的科学性是管理艺术性的前提与基础,管理的艺术性是管理科学性的补充与提高,有成效的管理艺术是以管理者对它所依据的管理理论的理解为基础,出色的管理者必须通过大量的实 ...
为啥想起这个话题呢,这个主要是在海外数据仓库(EDW)项目有机会接触到一些国际同行 (1)IBM模型设计师 (2)海外对端项目经理 (3)海外架构/技术顾问 (4)海外业务咨询顾问 (5)Teradata模型设计师 (6)海外测试经理 (7)海外业务客户 等等 在整个项目的实施过程,思想和理念一次次碰撞,外国人的做事方式和做事态度,产品化,标准化给我带来比较大的震撼,也让我看到我们和外国同行的差异。 接下来我会写从以下方面写下我这次海外项目的方方面面 (1)漫谈团队管理 (2)漫谈产品化,标准化 (3)漫谈对于做事的方式 (4)漫谈对于做事的态度 (5)漫谈架构 ...
《STAR SCHEMA完全参考手册:数据仓库维度设计权威指南》 《Hadoop- The Definitive Guide, 4th Edition》 《数据挖掘导论》  
1)在数据仓库领域有一个概念叫Transaction fact table,中文一般翻译为“事务事实表”。 事务事实表是维度建模的数据仓库中三种基本类型事实表中的一种,另外两种分别是周期快照事实表和累积快照事实表。  事务事实表与周 ...
数据仓库之父的W.H.Inmon将数据仓库定义为:“数据仓库是一个面向主题的、集成的、相对稳定的和随时间的数据集合,用于支持管理决策和商务智能。”数据仓库技术,简单的说,就是将企业内外部的数据进行全面的集成、清洗 ...
数据仓库架构方案概念图          
多维分析可以对以多维形式组织起来的数据进行上卷、下钻、切片、切块、旋转等各种分析操作,以便剖析数据,使分析者、决策者能从多个角度、多个侧面观察数据库中的数据,从而深入了解包含在数据中的信息和内涵。多维分析方式适合人的思维模式,减少了混淆,并降低了出现错误解释的可能性。 多维数据分析通常包括以下几种分析方法。 1.切片 在给定的数据立方体的一个维上进行的选择操作就是切片(slice),切片的结果是得到一个二维的平面数据。例如,在例2-1中对图2-1所示数据立方体分别使用条件:“委托方式=现场”、“营业部编号=02”、“时间=2011-01”进行选择,就相当于在原来的立方体中切片,结果分别 ...
客户流失问题是现在通讯行业比较关注的一个问题,也是在电信行业中挖掘中最基本的案例,在我做的EDW海外项目中,在挖掘部分就有该部分,但是我们的做的那部分的复杂度要大于我转载的文章,对于学习来说,转载的这篇更具有学习的模板性。  这篇文章简单构建一个综合的客户流失预警体系,能够快速、高效并且运用较低的成本去识别高风险流失客户预警模型(由于版权的问题,只能链接转载,不能直接copy,所以请大家移步)。 移动通讯行业客户流失预警研究
In the OLAP world, there are mainly two different types: Multidimensional OLAP (MOLAP) and Relational OLAP (ROLAP). Hybrid OLAP (HOLAP) refers to technologies that combine MOLAP and ROLAP. MOLAP           This is the more traditional way of OLAP analysis. In MOLAP, data is stored in a multidimensi ...
挺好的一篇文章,直接转过来了 Jerome 20061210 最近大家对数据仓库架构的讨论又多了起来,我在这里对一些架构进行一下简单的整理。目的是给大家树立一个靶子,大家可以在这篇文章后尽情的批判和补充。 我把我听说过的架 ...
自从去年调整部门到海外事业部。 (1)是由于工作岗位的调整,由BSS业务研发调整到BI研发部门 (2)这次海外项目客户要求比较严格,指定了ETL,存储,报表等工具都已经指定厂家(全是IBM)。 (3)我没有参与技术方面的攻坚,而是把我调整到模型组。 (4)为了配合IBM模型设计,花了大量的时候理解IBM的模型(英语不是太好,有的时候和IBM工程师沟通费劲)及我们BSS的原始模型 基于以上原因,我一直没有更新blog.今天是没有时间偶尔想起了我的blog,所以登陆下,看了一下我自己写的blog。坐着想了想,还是的把blog写下去,写的内容包含 (1)原来技术的积累 (2)BI的一些 ...
Global site tag (gtag.js) - Google Analytics