设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2337|回复: 0

数据挖掘的任务, 应用领域和工具

[复制链接]

2

主题

27

金钱

35

积分

新手用户

发表于 2019-10-29 14:18:10 | 显示全部楼层 |阅读模式

数据挖掘的主要任务是:

数据挖掘任务分类:识别类别(具有某些规则的基础)和通过对应联合起来的一组元素;

聚类(或分割):同类元素组的识别,与分类中发生的不同,它们基于隐匿规则,直到它们被发现的那一刻;

关联:发现随机但重复出现的链接,可以从数据库中包含的数据中推断出来,例如,旨在检测异常情况;

回归:类似的分类,从它的不同的事实,变量(即,成员资格规则的一类),类别分类,在回归的情况下,可以替代假定高或无限数量的值;

时间序列(或时间序列):这些是包含时间变量(日期,利率变化等)的复杂回归,因此对预测目的特别有用;

序列发现:它再次采用关联的概念,但应用顺序相关因子,即检测A(例如,购买玩具)何时跟随B(在某段时间内购买该玩具的选项) )。

数据挖掘工具

根据目标,数据挖掘工具可以改变。因此,各种方法可以彼此集成,而不是很少。

一个神经网络是在某些方面遵循生物神经网络的运作一个特殊的程序。该程序配备了一套指令和学习算法,使其能够随着经验发展,扩展其解决某些类型问题的能力。通过提供一定量的输入(问题)和输出(解决方案)来训练监督学习

神经网络,从而通过检测关联来学习以自主地产生正确的输出。具有无监督学习的神经网络相反,它只受到由选定类型的数据组成的输入的训练。检查相同,网络学会捕捉类比和差异,进行分类。由于高并行计算能力,这两类神经网络能够高效,高效地处理大数据,进行分类,关联和聚类。

甲决策树是其中的曲线图,从根(训练集),我们继续由是从时间到时间的路径来进行一个分类开始各分支之间的选择,或子集(称为节点),其分支是导致不同叶子(结果或类别)的替代品。正确实现的决策树必须具有足够的维度,这意味着不要过多:过多的变量会使算法快速有效,混乱且缓慢。在数据挖掘中,决策树用于分段,分类,回归和时间序列操作。

一个朴素贝叶斯是一个特定的概率分类。这是什么意思?它根据其属性确定属于某个类或更少的元素的概率。朴素贝叶斯的特性是每个特征都是独立评估的:属性与类相关的概率(因此它对元素分类的贡献)不依赖于与其他属性的关系。这种类型的分类器对噪声(即不正确的数据,无用的等)非常鲁棒,并且即使在存在不完整数据的情况下也能够有效。

主要应用领域

营销;

经济学和金融学;

科学;

信息和通信技术(ICT);

统计;

行业。

在广阔的营销领域,主要的数据挖掘应用涉及:

客户群集(数据库营销):根据购买习惯和社会人口统计特征确定购买者类型;

客户检索器:分析品牌客户的行为变得可预测,以识别那些有被遗弃风险的人,然后采取适当的策略来预防它;

市场篮子分析:哪些产品或服务通常一起购买?通过对关联的分析,可以理解它。

在财务中使用数据挖掘在金融领域,数据挖掘尤其适用于:

欺诈检测:例如,分析信用卡的使用,可以识别异常并最终追踪欺诈行为;

对股票指数趋势的预测 ;



CDA就业培训,就业高薪岗位,就学数据分析!

PyTorch VS TensorFlow谁最强?这是标 ...
重磅!一文看尽2018年31个省市的经济 ...
AIU人工智能学院:数据科学、人工智能从业者的在线大学。

数据科学(Python/R/Julia)数据分析、机器学习、深度学习

数据挖掘的主要任务是:

数据挖掘任务分类:识别类别(具有某些规则的基础)和通过对应联合起来的一组元素;

聚类(或分割):同类元素组的识别,与分类中发生的不同,它们基于隐匿规则,直到它们被发现的那一刻;

关联:发现随机但重复出现的链接,可以从数据库中包含的数据中推断出来,例如,旨在检测异常情况;

回归:类似的分类,从它的不同的事实,变量(即,成员资格规则的一类),类别分类,在回归的情况下,可以替代假定高或无限数量的值;

时间序列(或时间序列):这些是包含时间变量(日期,利率变化等)的复杂回归,因此对预测目的特别有用;

序列发现:它再次采用关联的概念,但应用顺序相关因子,即检测A(例如,购买玩具)何时跟随B(在某段时间内购买该玩具的选项) )。


数据挖掘工具

根据目标,数据挖掘工具可以改变。因此,各种方法可以彼此集成,而不是很少。

一个神经网络是在某些方面遵循生物神经网络的运作一个特殊的程序。该程序配备了一套指令和学习算法,使其能够随着经验发展,扩展其解决某些类型问题的能力。通过提供一定量的输入(问题)和输出(解决方案)来训练监督学习

神经网络,从而通过检测关联来学习以自主地产生正确的输出。具有无监督学习的神经网络相反,它只受到由选定类型的数据组成的输入的训练。检查相同,网络学会捕捉类比和差异,进行分类。由于高并行计算能力,这两类神经网络能够高效,高效地处理大数据,进行分类,关联和聚类。


甲决策树是其中的曲线图,从根(训练集),我们继续由是从时间到时间的路径来进行一个分类开始各分支之间的选择,或子集(称为节点),其分支是导致不同叶子(结果或类别)的替代品。正确实现的决策树必须具有足够的维度,这意味着不要过多:过多的变量会使算法快速有效,混乱且缓慢。在数据挖掘中,决策树用于分段,分类,回归和时间序列操作。

一个朴素贝叶斯是一个特定的概率分类。这是什么意思?它根据其属性确定属于某个类或更少的元素的概率。朴素贝叶斯的特性是每个特征都是独立评估的:属性与类相关的概率(因此它对元素分类的贡献)不依赖于与其他属性的关系。这种类型的分类器对噪声(即不正确的数据,无用的等)非常鲁棒,并且即使在存在不完整数据的情况下也能够有效。


主要应用领域

营销;

经济学和金融学;

科学;

信息和通信技术(ICT);

统计;

行业。

在广阔的营销领域,主要的数据挖掘应用涉及:

客户群集(数据库营销):根据购买习惯和社会人口统计特征确定购买者类型;

客户检索器:分析品牌客户的行为变得可预测,以识别那些有被遗弃风险的人,然后采取适当的策略来预防它;

市场篮子分析:哪些产品或服务通常一起购买?通过对关联的分析,可以理解它。

在财务中使用数据挖掘在金融领域,数据挖掘尤其适用于:

欺诈检测:例如,分析信用卡的使用,可以识别异常并最终追踪欺诈行为;

对股票指数趋势的预测 ;


分析金融市场之间的相互作用:有效预测一般市场趋势对单一市场的影响。

此外,在科学领域,数据挖掘被广泛应用于各个领域,在以下方面具有特别重要的意义:

医学和生物学:临床,基因组学,药理学等 特别是对于临床和药理学,数据挖掘是决策的有效支持。具体而言,这意味着基于它能够提供的知识,它提供了预测模型,从而影响决策过程。在各种例子中,我们找到了治疗方案的选择,合适的外科植入物的选择等;

气象学:气象预报的准确性是对大量数据进行交叉分析的函数; 简而言之,是一种完美的“牙齿面包”。其中一个最相关的例子是卫星发送的(消灭的)数据;

天文学:对恒星,星系,行星,卫星和其他天体的分类和识别。

正如预期的那样合理,在ICT中,数据挖掘的贡献是基础,并且在许多方面都有所不同。其中之一是安全性。由于数据挖掘技术的效率,以检测一组数据(其可以是那些与访问企业站点或实体)的异常和不一致的地方,该入侵检测程序可以加快和优化。以类似的方式,可以以微妙的方式识别损坏的档案(由于恶意软件)或需要更新。这不仅是对数据的保护,但也有用,例如,用于营销目的,在客户数据库的情况下(恶意软件可能会造成数据损坏,从而影响的有针对性的市场营销活动的成功基于这些数据中包含的信息)。

在统计领域,数据挖掘加速了人口统计分析,最重要的是,得出了正常统计方法所排除的信息,并且能够提供有效的预测模型。

行业:通过分析能够识别生产链的错误或低效,从支持到物流等,使生产力得以提高。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表