博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据挖掘读书笔记 -- 常见数据处理技巧
阅读量:5355 次
发布时间:2019-06-15

本文共 355 字,大约阅读时间需要 1 分钟。

数据抽取要正确反映业务需求

数据抽样

分析数据的规模有哪些具体要求

如果处理缺失值和异常值

数据转换:生成衍生变量(指标);改善变量分布的转换(取对数等);分箱转换;数据标准化(min-max标准化:x* = (x-min)/(max-min));

筛选有效的输入变量:根据业务先行筛选;根据相关性指标初步筛选(皮尔逊相关系数r);R平方(多元线性回归分析方法)筛选;卡方检验确定自变量与目标变量之间有比较强的关联性;IV和WOE(通过WOE的变化调整出最佳的分箱阈值,通过IV值或Gini分数筛选出较高预测价值的自变量);建模算法自身的筛选功能(决策树、回归);

共线性问题的发现(相关系数、主成分分析等)与处理;

转载于:https://www.cnblogs.com/end/p/3525269.html

你可能感兴趣的文章
[CF1082E] Increasing Frequency
查看>>
杭电1030
查看>>
Vcenter server 5.5上传ISO镜像
查看>>
玲珑学院 1128 咸鱼拷问
查看>>
gcc 编译选项
查看>>
Mysql锁与并发
查看>>
在ubuntu下安装网卡-显卡(RS690)驱动
查看>>
hostPath Volume【转】
查看>>
程序员书单_java web编程篇
查看>>
访问内网中的sql server数据库的简便方法
查看>>
字符串比较
查看>>
面向对象-练习1
查看>>
FreeRTOS-01移植及任务创建和删除
查看>>
apktool给软件加注册机修改图标和文件名
查看>>
LDAP
查看>>
迷宫问题
查看>>
JQmeter显示进度条
查看>>
Spring拦截器
查看>>
(转)“你最喜欢的程序员漫画”精选
查看>>
64位的win2003上运行Framework1.1
查看>>