入门指南 - 开发模型


我们提供了 “uci_001_adult_data_set.zip” 数据集,以便你可以立即尝试模型开发过程。




uci_001_adult_data_set.zip” 数据集记录了 32,561 条信息以及 12 个变量。其中目标变量为 “target_income_greater_than_50k”, 取值为 1 代表年收入超过 5 万美元,取值为 0 代表年收入未超过 5 万美元。其余 11 个变量为候选特征变量,包括性别(sex),年龄(age),教育程度(education-num), 婚姻状态(marital-status),职业(occupation)等。

我们的任务是通过 “uci_001_adult_data_set.zip” 数据集进行模型开发,预测具有何种特征的公民年收入会超过 5 万美元。

点击文件名右侧 “Build | 开发” 按钮,然后选择 “Build model | 开发模型”。




在开发模型页面的左侧面板中,你可以查看数据集基础信息(内存占用,行列数)。




点击 “Preview | 预览”,可以查看详细的数据内容。




在开发模型页面的右侧面板中,点击 “target_income_greater_than_50k” 将其选择为目标变量。




点击 “Start modeling | 开始建模”,出现模型开发确认信息,点击 “Confirm | 确认” 即可进行模型开发。




稍候片刻,模型开发完毕后,出现 “View model report | 查看开发报告”。




点击 “View model report | 查看开发报告”,即可跳转至开发报告页面。报告页面从 6 大维度全面展现数据以及模型的细节。




1. Data Report | 数据报告,展示建模数据的描述性统计信息,包括缺失率(Missing_Rate),唯一值(Unique),最小值(Min),最大值(Max),各分位数等信息。




2. Variable WoE Analysis | 变量 WoE 分析,展示每一个变量的自动分箱结果及其信息值(Information Value,即 IV),点击各行的变量, 可以看到分箱后变量的 WoE 情况以及 Bad Rate 图表。以年龄(age)为例,可以看到随着年龄越大,年收入超过 5 万美元的概率也越大(Bad Rate)。




3. Stepwise Procedure | 逐步回归过程,展示逐步回归挑选模型特征变量的过程。




4. Model Result | 模型结果,展示 KS 与 ROC,参数估计,等分排序表等模型评估指标。




5. Model Comprehension | 模型解读,展示模型分数如何计算,以及模型中每一个特征变量是如何影响预测结果的。还记得我们的任务吗?

我们的任务是通过 “uci_001_adult_data_set.zip” 数据集进行模型开发,预测具有何种特征的公民年收入会超过 5 万美元。

在这里我们可以很明确地看到,最有可能年收入超过 5 万美元的公民的特征:

  • 年龄(age): 37 岁及以上
  • 性别(sex): 男性
  • 种族(race): 白人
  • 职业(occupation): 高级管理层
  • 资本收益(capital-gain): 4416 美元及以上
  • 教育程度(education-num): 14 及以上
  • 每周工作时长(hours-per-week): 大于等于 50 小时
  • 婚姻状态(marital-status): 已婚

根据模型预测,具有以上特征的公民,其年收入超过 5 万美元的概率高达 99.352%!




6. Bin & WoE Code | Bin 与 WoE 代码,展示根据模型结果给每一行数据打分的 Python 代码,用于模型验证以及模型实施。




在模型开发页面以及模型报告页面,各个模块都有“About | 关于”按钮,点击可以获取更加详细的说明。

我们还提供了数十个数据集,以便你尝试各种功能。

如果你有任何疑问,欢迎发送邮件至:help@t1modeler.com,我们将尽快解答。