发表于:2006.12.01 12:00
分类: Data Warehouse
出处:http://echooooo.itpub.net/post/25716/233594
---------------------------------------------------------------
1、描述型数据挖掘
创建预言模型
数据种类:连续的、离散的(可排序的、标称的)
1.1聚集(分群)
比较常用的聚集算法:神经元网络和K-均值
聚集与分类的区别:在分类之前,你已经知道要把数据分成哪几类,每个类的性质是什么,聚集则恰恰相反。
1.2关联分析
寻找数据库中值的相关性。
常用技术:
关联规则:寻找在同一个事件中出现的不同项的相关性(一次购买活动中所买不同商品的相关性)。
A==>B 买锤子的人也会买钉子
某一特定关联(“锤子”和“钉子”)在数据库中出现的频率称为支持度。
非常低的支持度可能意味着此关联不是很重要,或出现了错误数据(如:“男性和怀孕”)
要找到有意义的规则,还需要考察规则中项及其组合出现的相对频率。当已有A时,B发生的概率时多少?即概率论中的条件概率。“当一个人已经买了锤子,那他有多大的可能也会买钉子?”条件概率在数据挖掘中也称为可信度,计算方法为百分比:
(A与B同时出现的概率)/(A出现的概率)
改善度(lift)是另外一个描述规则价值的数值。
改善度是一个比值:(A==>B的可信度)/(B出现的频率)
改善度越高A的出现对B出现的可能性影响越大。
指定项的概念层次。
序列模式:寻找事件之间事件上的相关性(股票涨跌分析)
2.预言型数据挖掘
数据挖掘概念分层:
² 商业目标
充分了解企业需求和目标有助于建立目标
² 预言种类
(1) 分类:预测一个特定的客户或事件属于哪一类
(2) 回归(regression):预测一个变量的值
² 模型类型
选择:神经网络做回归,决策树做分类,还是统计模型。
² 算法
用回馈函数或radial basis函数建立神经网络
用CART,C5.0,QUEST,CHAID等建立决策树
² 产品
选择数据挖掘软件产品时,要注意软件所采取的算法虽然名称可能完全一样,但实现方法通常都是不一样的。可能造成性能上的差异。
术语:
预言模型中,要预测的值或所属类别称为响应变量、依赖变量或目标变量;用于预测的输入变量是预测变量或独立变量。
2.1分类
2.2回归
2.3时间序列
3.数据挖掘模型和算法
几乎所有的数据挖掘技术都可称为是数据驱动的,而不是用户驱动的。也就是说,用户在使用这些算法时,只要给出数据,不用告诉算法程序怎么做和期待得到什么结果,一切都是算法自身从给定的数据中自己找出来的。
3.1神经网络
神经网络常用于两类问题:分类和回归。
结构上可以划分为:输入层、输出层和隐含层。输入层节点对应预测变量,输出层节点对应目标变量,隐含层的参数和每层节点个数决定了神经网络的复杂度。
除了输入层的节点,神经网络的每个节点都与很多它前面的节点(称为此节点的输入节点)连接在一起,每个连接对应一个权重Wxy,此节点的值就是通过它所有输入节点的值与对应连接权重乘积的和作为一个函数的输入而得到,这个函数称为活动函数或挤压函数。

节点4输出到节点6的值可以通过如下计算得到:
W14*节点1的值+W24*节点2的值
神经网络中,最常用的是前向传播式神经网络。
3.2决策树
决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。
决策树的基本组成部分:决策节点、分支和叶子。
决策树中最上面的节点称为根节点,是整个决策树的开始。
常用的算法有CHAID、CART、Quest和C5.0。
决策树很擅长处理非数值型数据,与神经网络只能处理数值型数据相比,免去很多数据预处理工作。
4.数据挖掘过程
很多软件供应商和数据挖掘顾问公司提供了一些数据挖掘过程模型,指导用户一步步的进行数据挖掘工作。
如SPSS的5A-评估(Assess),访问(Access),分析(Analyze),行动(Act),自动化(Automate)
SAS的SEMMA-采样(Sample),探索(Explore),修正(Modify),建模(Model),评估(Assess)
基本数据挖掘步骤包括:
1、 定义商业问题
2、 建立数据挖掘库
数据准备工作大概要花去整个数据挖掘项目的50%到90%的时间和精力。
直接在公司的数据仓库上进行数据挖掘是不合适的。最好建立一个独立的数据集。
建立数据挖掘库分成下面几个部分:
a. 数据收集
数据搜集报告
b. 数据描述
数据描述报告
c. 选择
源数据的子集。
d. 数据质量评估和数据清理
要想得到好的模型必须用好的数据。
e. 合并与整合
f. 构建元数据
g. 加载数据挖掘库
h. 维护数据挖掘库
定期备份;监视性能;增加存储空间。
3、 分析数据
4、 准备数据
a. 选择变量
b. 选择记录
如果数据量特别大,进行抽样是一个很好的主意。
c. 创建新变量
d. 转换变量
5、 建立模型
6、 评价模型
a. 模型验证
b. 外部验证
在现实世界中测试模型。先在小范围内应用,取得测试数据,满意后再向大范围推广。
7、 实施






