完成一个预测建模项目一般需要多长时间?

完成一个预测建模项目一般需要多长时间?

为了回答这个问题,我们先来了解一下建模的流程,通常一个完整的数据挖掘项目包含以下流程(1)业务理解、(2)数据理解、(3)数据准备、(4)数据预处理和建模、(5)模型评估、(6)模型部署应用。这个流程的操作性很强,也是业界公认标准。

业务理解的主要工作有需求调研,了解商务背景;明确业务目标和成功的标准。数据理解和业务理解一般是同时进行的,主要内容包括确定建模所需要的数据,描述数据,探索数据,检验数据质量,明确数据挖掘目标和成功标准。这两个阶段的主要任务就是明确挖掘目标和建模数据,目标和数据都明确以后就可以开始着手准备数据。

数据准备的目的是建立数据集市或者宽表,主要工作包括选择数据、清洗数据、构造数据、整合数据、格式化数据等等。如果企业的数据仓库建设比较完善,那么这个步骤的工作就非常简单,只需要做一些数据筛选,表的的关联工作即可。反之,如果数据都是一些非常原始的数据比如日志数据、流水数据,数据准备这部分就比较耗费时间和精力了,需要做很多数据汇总,特征提取的工作。

数据预处理和建模,这个环节是整个项目中含金量最高,难度最大的部分。不同的变量、数据类型、分布情况,对应的预处理的方式就不同,需要选择什么样的建模方法,参数如何调优,如何构建模型都是要考虑的问题。主要工作有:样本选取,确定训练样本、测试样本和验证样本、数据预处理、模型算法技术选型、筛选变量、模型训练、模型测试等。还需要强调两点:(1)数据预处理可能会花费大量的工作时间;(2)预处理和建模过程并非一次性执行完毕就大功告成了,需要不断的迭代优化,才能获得比较理想的结果。

模型评估,是对模型进行较为全面的评价的过程,计算模型的各种指标,比如 AUC,Gini,KS,Lift,模型稳定性等等,然后就是进行模型的业务应用测试,判断是否实现商业目标。部署应用就是把数据挖掘的成果部署到商业环境,应用于生产活动。

从数据挖掘的项目流程可以看出,建模时间和企业的数据情况、业务问题和模型复杂程度以及建模师的水平都密切关系。不过,即使数据仓

🌸 相关推荐

干豆豆浆美善品(小美)
家庭版microsoft365

干豆豆浆美善品(小美)

📅 07-11 👀 6846
获取当前用户信息的几种方式
365提前结束投注

获取当前用户信息的几种方式

📅 07-06 👀 7349
怎么查对方微信位置
365彩票最新版app下载

怎么查对方微信位置

📅 07-25 👀 6357