设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1527|回复: 0

五分钟读懂数据挖掘的相关理论和技术

[复制链接]

18

主题

125

金钱

209

积分

入门用户

发表于 2019-4-22 15:57:44 | 显示全部楼层 |阅读模式


数据挖掘是近年来数据库应用技术中相当热门的议题,看似神奇,听来时髦,实际上却并不是什么新东西,因其所用之诸如预测模型、数据分割,连接分析(Link Analysis)、偏差侦测(Deviation Detection)等,美国早在二次大战前就已应用运用在人口普查及军事等方面。

随着信息科技超乎想象的进展,许多新的计算机分析工具问世,例如关系型数据库、模糊计算理论、基因算法法则以及类神经网络等,使得从数据中发掘宝藏成为一种系统性且可行的程序。

数据挖掘的理论技术可分为传统技术和改良技术两支。传统技术以统计分析为代表,统计学内所含的序列统计、概率论、回归分析、类别数据分析等都属于传统数据挖掘技术。

在改良技术方面,应用较普遍的有决策树理论(Decision Trees)、神经网络(Neural Network)以及规则归纳法(Rule Induction)等。

决策树是一种用树枝状展现数据受各变量的影响情形的预测模型,根据对目标变量产生效应的不同而构建分类的规则,一般多运用在对客户数据的分析上,例如针对有回函与未回函的邮寄对象找出影响其分类结果的变量组合,常用分类方法有CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)两种。

神经网络是一种仿真人脑思考结构的数据分析模式,由输入变量与数值中自我学习并根据学习经验所得的知识不断调整参数以期建构数据的型样(patterns)。

神经网络为非线性的设计,与传统回归分析相比,好处是在进行分析时无须限定模式,特别当数据变量间存有交互效应时可自动侦测出。

缺点则在于其分析过程为一黑盒子,故常无法以可读的模型格式展现,每阶段的加权与转换也不明确,所以神经网络多利用于数据属于高度非线性且带有相当程度的变量交感效应的场合。

规则归纳法是知识发掘的领域中最常用的格式,这是一种由一连串的[如果.../则...(If/Then)]逻辑规则对数据进行细分的技术,在实际运用时如何界定规则为有效说较大的问题,通常需先将数据中发生数太少的项目先剔除,以避免产生无意义的逻辑规则。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表