数据仓库复习整理

Posted 2025-12-3 Updated 29 days ago

By Administrator

48~61 min read

【注】：与ai对话的提示词可以在https://github.com/HappynessI/Prompts_For_All_Work/blob/main/System%20Prompt/Review%20for%20exams找到

【注】：资料在：https://pan.baidu.com/s/10YKfym7x2axrRAPAWXLGyw?pwd=1895

第7章数据挖掘概述

知识发现、数据挖掘
数据挖掘主要功能
数据挖掘过程模型

7.1 知识发现、数据挖掘

【什么是数据库中的知识发现（KDD）】：

KDD 或数据挖掘是一个从数据集中识别出有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程（烹饪大餐的全过程）

有趣性：有效性、新颖性、潜在有用性、最终可理解性的综合

【数据挖掘（DM）】：

数据挖掘是一门综合性技术，受许多学科领域影响，但受数据库、机器学习和数理统计3个领域影响最大

【例题】：

1. 根据性别划分公司的顾客

答案：不是
助教解析：这只是简单的数据库查询（Query）操作（类似于 SQL 中的 SELECT ... WHERE gender = 'F'）。性别是数据中显式存在的字段，不需要挖掘“隐含”的模式。

2. 计算公司的总销售额

答案：不是
助教解析：这是联机分析处理（OLAP）或简单的统计计算。虽然它很有用，但它只是对现有数据的累加，没有发现“新颖的知识”或建立“预测模型” 。

3. 按学生的标识号对学生数据库排序

答案：不是
助教解析：这是典型的数据管理操作（Sorting）。排序不会产生任何新知识，只是改变了数据的展示顺序。

4. 使用历史记录预测某公司未来的股票价格

答案：是
助教解析：这是典型的**趋势分析（Trend Analysis）或预测（Prediction）**任务。PPT 中明确提到“对主要股票的交易价格进行预测”属于趋势分析的应用。它利用历史数据建立模型，来预测未知的未来值。

5. 监视病人心率的异常变化

答案：是
助教解析：这是**异常检测（Anomaly Detection）**任务。PPT 中提到了异常检测用于识别“显著不同于其他数据的观测值”，并列举了“疾病的不寻常模式”作为应用场景。

第9章关联分析

认识关联分析
关联规则算法
关联规则变换
序列模式挖掘

【主要内容】——关联分析相关定义、关联规则核心算法（Apriori/FP-Tree）、关联规则的度量、序列模式挖掘

9.1 关联分析相关定义

要是看不懂下面几个名词建议去看PPT

项目、事务、项集、支持度计数、支持度、频繁项集、关联规则

强规则、候选项集

分类属性、数值属性、量化关联规则、离散化

布尔型关联规则、量化型关联规则；单层关联规则、多层关联规则；单维关联规则、多维关联规则；

分类方式	关注点	举例
层 (Level)	深度/粒度	牛奶 => 面包 (同层) 光明酸奶 => 全麦面包 (低层)
维 (Dimension)	广度/种类	买A => 买B (单维，只有"买") 年龄20 => 买游戏机 (多维，"年龄"+"买")

分类方式

关注点

举例

层 (Level)

深度/粒度

牛奶 => 面包 (同层)

光明酸奶 => 全麦面包 (低层)

维 (Dimension)

广度/种类

买A => 买B (单维，只有"买")

年龄20 => 买游戏机 (多维，"年龄"+"买")

9.2 关联规则核心算法

Brute-force方法
Apriori方法
FP-Tree方法

1.Brute-force方法：没什么好说的，计算量太大，不可能考

2.Apriori方法：没什么好说的，迭代算法而且得扫描n+1次，做PPT上练习估计一面A4写不下，不太可能考计算

3.FP-Tree方法：往年考过，练习出现过，计算量很小，需要掌握

1.Brute-force方法：

核心思想：把格结构（Lattice Structure）中所有的项集都作为候选项集。将每一个候选项集都去和每一个事务（小票）进行比对，计算支持度。

复杂度：计算复杂度为 O(NMw)，其中 N 是事务数，M 是候选项集数量，w 是事务宽度。这个开销非常巨大。如果项目数 d 增加，规则总数呈指数级增长。

2.Apriori方法：

核心原理：

先验原理 (Apriori Principle)：如果一个项集是频繁的，则它的所有子集一定也是频繁的；反之，如果一个项集是非频繁的，它的所有超集也一定是非频繁的。利用这个性质进行基于支持度的剪枝 (Support-based pruning)。

工作流程：

策略：广度优先搜索 (Breadth-first search, BFS)。

逐层迭代：先找频繁1-项集，再生成候选2-项集，验证后再生成候选3-项集…。

产生-测试：每次迭代都要生成新的候选项集，然后扫描数据库验证。

缺点 (瓶颈)：
- 产生巨大的候选项集：比如10000个1-项集可能生成 10⁷ 个2-项集。
- 多次扫描数据库：如果最长模式长度为 n，需要扫描 n+1 次数据库。

【例题（参考书）】：计算频繁项集+产生关联规则

3.FP-Tree方法

数据结构：
- 使用 FP-Tree 将数据库高度压缩。
- FP-Tree 是完备的（包含所有挖掘信息）且紧密的（去除不相关信息）。

工作流程 (考试常考步骤)：

第一次扫描：统计1-项集支持度，排序，过滤非频繁项。
第二次扫描：构建 FP-Tree 。
挖掘：从头表（Header Table）开始，寻找每个项的条件模式基 (Conditional Pattern Base)，递归构建条件 FP-Tree 进行挖掘。

性能：
- 通常比 Apriori 快一个数量级。
- 只需要扫描数据库 2次

【例题】：

9.3 关联规则的度量

熟悉PPT即可

客观度量：支持度、置信度、提升度、杠杆度、皮尔逊相关系数、IS度量、确信度、卡方、全置信度、极大置信度、K度量

主观度量

9.4 序列模式挖掘

熟悉PPT即可，暂时不知道有没有练习

应用领域：客户购买行为模式预测、Web访问模式预测、疾病诊断、自然灾害预测、DNA序列分析

第10章分类

分类
决策树
贝叶斯分类
近邻法
支持向量机
人工神经网络

【核心内容】：剪枝、朴素贝叶斯、K-近邻、BP模型、深度学习、Boosting

10.1 分类

评估分类器的方法
分类模型性能评估

10.2 决策树

构造决策树
“最佳”判定属性
剪枝：预剪枝与后剪枝

【部分名词】：（不懂去看PPT）

Gain信息增益（ID3）、Gain Ratio增益率（C4.5）、Gini Index基尼指标；

非监督离散化、监督离散化；

二元属性、标称属性、序数属性；

训练误差、泛化误差；欠拟合、过拟合；

预剪枝、后剪枝（误差降低剪枝REP）；

【决策树的例子】：

【“最佳”判定属性例题】：

计算量比较大，记住：

信息增益越大越好
增益率越大越好
基尼指数越小越好

ID3、C4.5算法可以多支划分

CART算法只能二分递归，生成二叉树

【误差降低剪枝】：看懂下面这个就行

降低误差就删，没有就不删；节点的属性在决策树创建的时候就已经确定好了

10.3 贝叶斯分类

贝叶斯定理
朴素贝叶斯分类

【例题】：

注意统计数量的时候不要出错

10.4 近邻法

KNN算法

从最近邻到K-最近邻

k一般选择奇数，以方便投票表决

可以理解为维护一个元素个数为K的列表(dis_a),B(dis_b),C(dis_c),...]，一开始为空，填满K个之后再维护这个列表，小于max_dis的样本替换掉max_dis的样本，直到算完。

【KNN特点】：

懒惰学习：计算量、存储量大，预测慢
K值的选择：一方面要求大一些的K值以减小错误率，一方面要求K个近邻靠近X
- K值过大：（如 K=全部）：就变成了算总人数，这就变成了谁的数量多就猜谁，完全忽略了局部特征，容易欠拟合
- K 太小（如 K=1）：容易受噪声影响（如果最近的一个正好是个标错的特例，就分错了），容易过拟合
举例计算：常使用欧式距离（直线距离），需要进行数据归一化

10.5 支持向量机

SVM算法

【核心名词】：

支持向量、函数间隔、几何间隔、间隔边界

线性可分SVM、线性SVM、非线性SVM、硬间隔、软间隔、核技巧

一般来说，一个点距离分离超平面的远近可以表示分类预测的确信程度，越远越确信

【例题】：

有一说一，考试难度估计也就是这样了

找到最近的正负样本对，连接这两个点，做中垂线，一般就是最大间隔分离超平面

（先把（1）（3）式取等号，然后w1=w2得到）

【线性SVM拓展到非线性SVM的方式】：将线性SVM对偶形式中的内积换成核函数

【SVM构造方法】：

【总结】：最大化分类间隔的思想是SVM方法的核心；在SVM决策中其决定作用的是支持向量；少数支持向量避免了“维度灾难”，具有较好的“鲁棒性”

10.6 人工神经网络ANN

ANN模型
BP模型
深度学习
集成学习：Bagging、Boosting、Adaboost
Random Forest算法

【核心名词】：成本函数、激活函数

【优缺点】：

优点：准确率高、健壮性好、输出多样、学习目标函数的快速评估

缺点：训练时间长、可解释性差、参数多且靠经验

【连接方式】：前馈神经网络、反馈神经网络（BP）、层内有互联的神经网络

【BP模型】：

训练过程：正向传播+误差反向传播

训练方法：梯度下降算法

优点：可以逼近非线性映射关系、泛化能力强

缺点：收敛速度慢、局部极值、hidden_layer和node个数难确定

【例题】：

宇宙机

License: CC BY 4.0

第7章 数据挖掘概述

7.1 知识发现、数据挖掘

1. 根据性别划分公司的顾客

2. 计算公司的总销售额

3. 按学生的标识号对学生数据库排序

4. 使用历史记录预测某公司未来的股票价格

5. 监视病人心率的异常变化

第9章 关联分析

9.1 关联分析相关定义

9.2 关联规则核心算法

9.3 关联规则的度量

9.4 序列模式挖掘

第10章 分类

10.1 分类

10.2 决策树

10.3 贝叶斯分类

10.4 近邻法

10.5 支持向量机

10.6 人工神经网络ANN

第7章数据挖掘概述

第9章关联分析

第10章分类