avatar

Wang's Blog

Be Open, Share Knowledge, Keep Learning

  • 首页
  • 数理基础
  • 宇宙机
  • LLM
  • 管理与经济
  • 游戏
Home 数据仓库复习整理
文章

数据仓库复习整理

Posted 2025-12-3 Updated 29 days ago
By Administrator
48~61 min read

【注】:与ai对话的提示词可以在https://github.com/HappynessI/Prompts_For_All_Work/blob/main/System%20Prompt/Review%20for%20exams找到

【注】:资料在:https://pan.baidu.com/s/10YKfym7x2axrRAPAWXLGyw?pwd=1895

第7章 数据挖掘概述

  • 知识发现、数据挖掘

  • 数据挖掘主要功能

  • 数据挖掘过程模型

7.1 知识发现、数据挖掘

【什么是数据库中的知识发现(KDD)】:

KDD 或数据挖掘是一个从数据集中识别出有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程(烹饪大餐的全过程)

有趣性:有效性、新颖性、潜在有用性、最终可理解性的综合

【数据挖掘(DM)】:

数据挖掘是一门综合性技术,受许多学科领域影响,但受数据库、机器学习和数理统计3个领域影响最大

【例题】:

1. 根据性别划分公司的顾客

  • 答案:不是

  • 助教解析:这只是简单的数据库查询(Query)操作(类似于 SQL 中的 SELECT ... WHERE gender = 'F')。性别是数据中显式存在的字段,不需要挖掘“隐含”的模式。

2. 计算公司的总销售额

  • 答案:不是

  • 助教解析:这是联机分析处理(OLAP)或简单的统计计算。虽然它很有用,但它只是对现有数据的累加,没有发现“新颖的知识”或建立“预测模型” 。

3. 按学生的标识号对学生数据库排序

  • 答案:不是

  • 助教解析:这是典型的数据管理操作(Sorting)。排序不会产生任何新知识,只是改变了数据的展示顺序 。

4. 使用历史记录预测某公司未来的股票价格

  • 答案:是

  • 助教解析:这是典型的**趋势分析(Trend Analysis)或预测(Prediction)**任务。PPT 中明确提到“对主要股票的交易价格进行预测”属于趋势分析的应用 。它利用历史数据建立模型,来预测未知的未来值。

5. 监视病人心率的异常变化

  • 答案:是

  • 助教解析:这是**异常检测(Anomaly Detection)**任务。PPT 中提到了异常检测用于识别“显著不同于其他数据的观测值”,并列举了“疾病的不寻常模式”作为应用场景 。

第9章 关联分析

  • 认识关联分析

  • 关联规则算法

  • 关联规则变换

  • 序列模式挖掘

【主要内容】——关联分析相关定义、关联规则核心算法(Apriori/FP-Tree)、关联规则的度量、序列模式挖掘


9.1 关联分析相关定义

要是看不懂下面几个名词建议去看PPT

项目、事务、项集、支持度计数、支持度、频繁项集、关联规则

强规则、候选项集

分类属性、数值属性、量化关联规则、离散化

布尔型关联规则、量化型关联规则;单层关联规则、多层关联规则;单维关联规则、多维关联规则;

分类方式

关注点

举例

层 (Level)

深度/粒度

牛奶 => 面包 (同层)

光明酸奶 => 全麦面包 (低层)

维 (Dimension)

广度/种类

买A => 买B (单维,只有"买")

年龄20 => 买游戏机 (多维,"年龄"+"买")


9.2 关联规则核心算法

  • Brute-force方法

  • Apriori方法

  • FP-Tree方法

1.Brute-force方法:没什么好说的,计算量太大,不可能考

2.Apriori方法:没什么好说的,迭代算法而且得扫描n+1次,做PPT上练习估计一面A4写不下,不太可能考计算

3.FP-Tree方法:往年考过,练习出现过,计算量很小,需要掌握


1.Brute-force方法:

核心思想:把格结构(Lattice Structure)中所有的项集都作为候选项集。将每一个候选项集都去和每一个事务(小票)进行比对,计算支持度。

复杂度:计算复杂度为 O(NMw),其中 N 是事务数,M 是候选项集数量,w 是事务宽度。这个开销非常巨大。如果项目数 d 增加,规则总数呈指数级增长。

2.Apriori方法:

  • 核心原理:

先验原理 (Apriori Principle):如果一个项集是频繁的,则它的所有子集一定也是频繁的;反之,如果一个项集是非频繁的,它的所有超集也一定是非频繁的。利用这个性质进行基于支持度的剪枝 (Support-based pruning)。

  • 工作流程:

策略:广度优先搜索 (Breadth-first search, BFS)。

逐层迭代:先找频繁1-项集,再生成候选2-项集,验证后再生成候选3-项集…。

产生-测试:每次迭代都要生成新的候选项集,然后扫描数据库验证。

  • 缺点 (瓶颈):

    • 产生巨大的候选项集:比如10000个1-项集可能生成 107 个2-项集。

    • 多次扫描数据库:如果最长模式长度为 n,需要扫描 n+1 次数据库。

【例题(参考书)】:计算频繁项集+产生关联规则

3.FP-Tree方法

  • 数据结构:

    • 使用 FP-Tree 将数据库高度压缩 。

    • FP-Tree 是完备的(包含所有挖掘信息)且紧密的(去除不相关信息) 。

  • 工作流程 (考试常考步骤):

  1. 第一次扫描:统计1-项集支持度,排序,过滤非频繁项 。

  2. 第二次扫描:构建 FP-Tree 。

  3. 挖掘:从头表(Header Table)开始,寻找每个项的条件模式基 (Conditional Pattern Base),递归构建条件 FP-Tree 进行挖掘 。

  • 性能:

    • 通常比 Apriori 快一个数量级 。

    • 只需要扫描数据库 2次

【例题】:

9.3 关联规则的度量

熟悉PPT即可

客观度量:支持度、置信度、提升度、杠杆度、皮尔逊相关系数、IS度量、确信度、卡方、全置信度、极大置信度、K度量

主观度量

9.4 序列模式挖掘

熟悉PPT即可,暂时不知道有没有练习

应用领域:客户购买行为模式预测、Web访问模式预测、疾病诊断、自然灾害预测、DNA序列分析

第10章 分类

  • 分类

  • 决策树

  • 贝叶斯分类

  • 近邻法

  • 支持向量机

  • 人工神经网络

【核心内容】:剪枝、朴素贝叶斯、K-近邻、BP模型、深度学习、Boosting

10.1 分类

  • 评估分类器的方法

  • 分类模型性能评估

10.2 决策树

  • 构造决策树

  • “最佳”判定属性

  • 剪枝:预剪枝与后剪枝

【部分名词】:(不懂去看PPT)

Gain信息增益(ID3)、Gain Ratio增益率(C4.5)、Gini Index基尼指标;

非监督离散化、监督离散化;

二元属性、标称属性、序数属性;

训练误差、泛化误差;欠拟合、过拟合;

预剪枝、后剪枝(误差降低剪枝REP);

【决策树的例子】:

【“最佳”判定属性例题】:

计算量比较大,记住:

  • 信息增益越大越好

  • 增益率越大越好

  • 基尼指数越小越好

ID3、C4.5算法可以多支划分

CART算法只能二分递归,生成二叉树

【误差降低剪枝】:看懂下面这个就行

降低误差就删,没有就不删;节点的属性在决策树创建的时候就已经确定好了

10.3 贝叶斯分类

  • 贝叶斯定理

  • 朴素贝叶斯分类

【例题】:

注意统计数量的时候不要出错

10.4 近邻法

  • KNN算法

从最近邻到K-最近邻

k一般选择奇数,以方便投票表决

可以理解为维护一个元素个数为K的列表(dis_a),B(dis_b),C(dis_c),...],一开始为空,填满K个之后再维护这个列表,小于max_dis的样本替换掉max_dis的样本,直到算完。

【KNN特点】:

  • 懒惰学习:计算量、存储量大,预测慢

  • K值的选择:一方面要求大一些的K值以减小错误率,一方面要求K个近邻靠近X

    • K值过大:(如 K=全部):就变成了算总人数,这就变成了谁的数量多就猜谁,完全忽略了局部特征,容易欠拟合

    • K 太小(如 K=1):容易受噪声影响(如果最近的一个正好是个标错的特例,就分错了),容易过拟合

  • 举例计算:常使用欧式距离(直线距离),需要进行数据归一化

10.5 支持向量机

  • SVM算法

【核心名词】:

支持向量、函数间隔、几何间隔、间隔边界

线性可分SVM、线性SVM、非线性SVM、硬间隔、软间隔、核技巧

一般来说,一个点距离分离超平面的远近可以表示分类预测的确信程度,越远越确信

【例题】:

有一说一,考试难度估计也就是这样了

找到最近的正负样本对,连接这两个点,做中垂线,一般就是最大间隔分离超平面

(先把(1)(3)式取等号,然后w1=w2得到)

【线性SVM拓展到非线性SVM的方式】:将线性SVM对偶形式中的内积换成核函数

【SVM构造方法】:

【总结】:最大化分类间隔的思想是SVM方法的核心;在SVM决策中其决定作用的是支持向量;少数支持向量避免了“维度灾难”,具有较好的“鲁棒性”

10.6 人工神经网络ANN

  • ANN模型

  • BP模型

  • 深度学习

  • 集成学习:Bagging、Boosting、Adaboost

  • Random Forest算法

【核心名词】:成本函数、激活函数

【优缺点】:

优点:准确率高、健壮性好、输出多样、学习目标函数的快速评估

缺点:训练时间长、可解释性差、参数多且靠经验

【连接方式】:前馈神经网络、反馈神经网络(BP)、层内有互联的神经网络

【BP模型】:

训练过程:正向传播+误差反向传播

训练方法:梯度下降算法

优点:可以逼近非线性映射关系、泛化能力强

缺点:收敛速度慢、局部极值、hidden_layer和node个数难确定

【例题】:

宇宙机
License:  CC BY 4.0
Share

Further Reading

May 22, 2025

C++

Github https://github.com/HappynessI/review-material.git 百度网盘 https://pan.baidu.com/s/1126SzftiswpK6n7Ciu99Cg?pwd=1895 微北洋 #MP262207

Dec 3, 2025

数据仓库复习整理

【注】:与ai对话的提示词可以在https://github.com/HappynessI/Prompts_For_All_Work/blob/main/System%20Prompt/Review%20for%20exams找到 【注】:资料在:https://pan.baidu.com/s/10

Sep 28, 2025

实时通信技术

技术特性对比表

OLDER

代码阅读与运行1

NEWER

Hello World

Recently Updated

  • C++
  • Hello World
  • 数据仓库复习整理
  • 代码阅读与运行1
  • 大模型入门(6)——Agent、MCP、FunctionCall

Trending Tags

Halo 前端 强化学习 Python obsidian

Contents

©2026 Wang's Blog. Some rights reserved.

Using the Halo theme Chirpy