BI、DW与DM
BI是企业对商业数据的搜集、管理和分析的系统过程,目的是使企业的各级决策者获得知识或洞察力,帮助他们做出对企业更有利的决策。BI是数据仓库、OLAP(OnLine Analytical Processing,联机分析处理)和DM(Data Mining,数据挖掘)等相关技术走向商业应用后形成的一种应用技术。
DW,即数据仓库(Data Warehouse),是一个面向主题的、集成的、非易失的、反映历史变化的数据集合,用于支持管理决策。
数据仓库的特征如下:
(1)数据仓库是面向主题的。传统的操作型系统是围绕公司的应用进行组织的。如对一个电信公司来说,应用问题可能是营业受理、专业计费和客户服务等,而主题范围可能是客户、套餐、缴费和欠费等。
(2)数据仓库是集成的。数据仓库实现数据由面向应用的操作型环境向面向分析的数据仓库的集成。由于各个应用系统在编码、命名习惯、实际属性、属性度量等方面不一致,当数据进入数据仓库时,要采用某种方法来消除这些不一致性。
(3)数据仓库是非易失的。数据仓库的数据通常是一起载入与访问的,在数据仓库环境中并不进行一般意义上的数据更新。
(4)数据仓库随时间的变化性。
数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
数据挖掘技术可分为描述型数据挖掘和预测型数据挖掘两种。描述型数据挖掘包括数据总结、聚类及关联分析等。预测型数据挖掘包括分类、回归及时间序列分析等。
(1)数据总结:继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统统计方法如求和值、平均值、方差值等都是有效方法。另外,还可以用直方图、饼状图等图形方式表示这些值。广义上讲,多维分析也可以归入这一类。
(2)聚类:是把整个数据库分成不同的群组。它的目的是使群与群之间差别很明显,而同一个群之间的数据尽量相似。这种方法通常用于客户细分。由于在开始细分之前不知道要把用户分成几类,因此通过聚类分析可以找出客户特性相似的群体,如客户消费特性相似或年龄特性相似等。在此基础上可以制订一些针对不同客户群体的营销方案。
(3)关联分析:是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性;序列模式与此类似,寻找的是事件之间时间上的相关性,如对股票涨跌的分析等。
(4)分类:目的是构造一个分类函数或分类模型(也称为分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1, v2, ...,vn;c),其中vi表示字段值,c表示类别。
(5)回归:是通过具有已知值的变量来预测其他变量的值。一般情况下,回归采用的是线性回归、非线性回归这样的标准统计技术。一般同一个模型既可用于回归,也可用于分类。常见的算法有逻辑回归、决策树、神经网络等。
(6)时间序列:时间序列是用变量过去的值来预测未来的值。
各省软考办 | ||||||||||