|
1.数据取样标准:可靠性,相关性,有效性。抽取数据的常见方式有:随机抽样,等距抽样,分层抽样,从起始顺序抽样分类抽样。
2.数据探索:异常值分析,缺失值分析,相关性分析和周期性分析等。
3.数据预处理:数据筛选,数据变量转换,缺失值处理,坏数据处理,数据标准化,主成分分析,属性选择,数据规约等。
4.选择构建的模型:分类,聚类,关联规则,时序模式或者智能推荐等。
5.模型评价。
6.常用数据挖掘建模工具:SAS,SPSS Modeler,SQL Server,Python等等,都是几种大家了解的工具。 |
|