数据挖掘与分析应用期末考试复习知识点,数据挖掘概念,方法,分类,聚类,关联规则,时间序列分析
创始人
2025-05-28 09:45:50
0

数据挖掘与分析应用期末考试复习知识点,数据挖掘概念,方法,分类,聚类,关联规则,时间序列分析

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲


文章目录

  • 数据挖掘与分析应用期末考试复习知识点,数据挖掘概念,方法,分类,聚类,关联规则,时间序列分析
    • @[TOC](文章目录)
  • 数据挖掘定义
  • 数据挖掘的分类
  • 数据挖掘的过程
  • 数据挖掘的研究方法
  • 分类算法:概念,方法,决策树
  • 决策树
  • 基于信息增益的ID3算法
  • 基于信息增益率的C4.5算法
  • 基于基尼系数Gini系数的CART算法
  • 聚类的概念
  • 聚类的方法
  • 层次聚类
  • 总结

数据挖掘定义

在这里插入图片描述

数据挖掘的分类

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据挖掘的过程

在这里插入图片描述
净化,将异常数据去除
集成,统一
变换,转换编码
归约,降维,降低数据量

数据才是最重要的吧?
在这里插入图片描述
可视化结果,好说
在这里插入图片描述

数据挖掘的研究方法

在这里插入图片描述
A,B,C,y=f(A,B,C)
回归分析
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

分类算法:概念,方法,决策树

在这里插入图片描述
在这里插入图片描述
比如
按照成绩分组学生
90以上:优秀
80-90:良好
60-80:及格
60以下:垃圾

这就是分类
在这里插入图片描述
分别分开

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

决策树

在这里插入图片描述
在这里插入图片描述
反正每个节点都要满足条件,各个特征就会区分开

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于信息增益的ID3算法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
其余特征了,OK的吧
这能听懂?

基于信息增益率的C4.5算法

在这里插入图片描述
在这里插入图片描述

基于基尼系数Gini系数的CART算法

在这里插入图片描述
在这里插入图片描述
二叉树哦

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
10个训练集
6个是,4个否
则总的基尼系数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
三种分组情况,看看谁基尼系数更小呢?
在这里插入图片描述
在这里插入图片描述
天气这种最合适
在这里插入图片描述
第一次分叉

继续,对晴和阴雨划分
在这里插入图片描述
再看左边
只看别的仨特征
在这里插入图片描述

在这里插入图片描述
俩都行的
在这里插入图片描述
右边的话
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
每一个特征都是二叉树
在这里插入图片描述

在这里插入图片描述
这样按照不同的特征就组合分开了,这就决策树
美滋滋了

预测阶段
在这里插入图片描述
按照规则划分即可

这样就搞定了决策树
怎么说

如果样本量太少,肯定没法训练
样本需要足够大,才能训练出来哦

聚类的概念

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

聚类的方法

在这里插入图片描述
在这里插入图片描述
可是聚类是不知道有多少类的

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

层次聚类

在这里插入图片描述
举例
考察业绩——年盈利额

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这就是基于层次聚类了
骚吧

在这里插入图片描述
反过来,就是分裂
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

合体
done


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
有效的括号 一、题目 给定一个只包括 '(',')','{','}'...
【Ctfer训练计划】——(三... 作者名:Demo不是emo  主页面链接:主页传送门 创作初心ÿ...