模型报告样例

正在读取 LightGBM 报告

未找到 LightGBM 报告，返回“我的数据”

LightGBM 报告

文件名: uci_001_adult_data_set.zip

1. 数据报告 2. 模型结果 3. 树浏览器 4. 打分代码 5. 验证集分析

内容

id	Variable	Type	Count	Missing	Missing_Rate	Unique	Mean	Std	Min	25%	50%	75%	95%	99%	Max	First	Last

KS 曲线与 ROC 曲线

等分排序表

#	Cnt Bin	Cnt Bad	Cnt Good	Bin Bad Rate		Remaining Bad Rate	Cum Bad	Cum Good	Cum Bad %	Cum Good %	KS		Score Min	Score Max	Score Avg

H直方图

变量重要性

No.	Feature	Total Gains	#

模型配置

树的序号

未提供验证集

KS 曲线与 ROC 曲线

等分排序表

#	Cnt Bin	Cnt Bad	Cnt Good	Bin Bad Rate		Remaining Bad Rate	Cum Bad	Cum Good	Cum Bad %	Cum Good %	KS		Score Min	Score Max	Score Avg

直方图

关于数据报告

字段含义

id: 变量 id 序号
Variable: 变量名称
Type: 变量类型
Count: 数据集行数
Missing: 缺失值数量
Missing_Rate: 缺失值比例
Unique: 唯一值数量
Mean: 平均值
Std: 标准差
Min: 最小值
25%: 25 分位值
50%: 50 分位值，即中位数
75%: 75 分位值
95%: 95 分位值
99%: 99 分位值
Max: 最大值
First: datetime 类型变量的最早值
Last: datetime 类型变量的最晚值

数据报告

阅读数据报告通常是进行模型开发的第一步，并且这是单凭机器算法无法解决的一个关键步骤。

例如，实际商业环境中的建模数据由不同数据源拼接而成，因此可能存在一定的缺失率。机器算法无法告诉分析师，缺失率为 80% 的“性别”变量是否存在由拼接导致的数据错误问题。

又例如，机器算法无法分辨“年龄”为 180 的数据，是否需要在建模前进行纠正。

因此分析师需要仔细阅读额数据报告以确保建模数据的准确性。

检查清单

Type: 数据类型是否正确，是否存在本应为数据型的变量，由于某些错误值的存在，导致无法被识别为数据型？
Missing_Rate: 数据缺失率是否正常？本建模算法能够自动处理缺失值，因此不需要将其转换为 -9999 等特殊值。
Unique: 唯一值数量是否正常？一个变量的唯一值数量为 1，则此变量没有任何建模价值。
Min: 最小值是否正常？是否存在不应该出现的负数？
Max: 最大值是否正常？是否存在过大的异常值？

关于 KS 曲线与 ROC 曲线

KS 曲线

KS 曲线显示一个模型区分事件与非事件（或好事件与坏事件）的能力。

作为衡量模型性能的重要指标之一，通常认为最大 KS 值越高则模型越好。但是分析师需要结合领域知识，确认最大 KS 值是否“太完美以至于无法置信”。

例如，在信用风险领域，合理的模型最大 KS 值一般为 20 到 60 之间，如果一个信用风险模型的最大 KS 值为 90，则有可能是数据准备阶段出现了一些错误。但是在手写体数字识别领域，模型最大 KS 值高达 95 依然是合理的。

ROC 曲线

接收者操作特征曲线，或者 ROC 曲线，是一种坐标图式的分析工具，用于选择最佳的信号侦测模型、舍弃次佳的模型，在同一模型中设定最佳阈值。

其中一个关键指标为 AUC（曲线下面积）。同样地通常认为 AUC 值越高则模型越好。

关于等分排序表

字段定义

#: 分组序号
Cnt Bin: 分组样本数量
Cnt Bad: 分组坏样本数量
Cnt Good: 分组好样本数量
Bin Bad Rate: 分组坏比例 = 分组坏样本数量 / 分组样本数量
Cum Bad: 累积坏样本数量
Cum Good: 累积好样本数量
Cum Bad %: 累积坏样本百分比
Cum Good %: 累积好样本百分比
KS: KS 值
Score Min: 分组最低分数
Score Max: 分组最高分数
Score Avg: 分组平均分数

等分排序表

根据模型开发结果，将样本打分后从低到高排列，分成等分的 10 个分组，观察模型坏比例是否能够同样保持从低到高的排序。

关于直方图

直方图

直方图展示分数，坏样本以及好样本的百分比分布。

关于变量重要性

变量重要性

变量重要性显示每一个变量在模型中的总增益。
数值越大，则变量在模型中的重要性则越高。

关于树浏览器

树浏览器

根据不同的模型设置“迭代次数（树的个数）”，LightGBM 模型可能含有 1 棵或者多棵树。
典型的 LightGBM 模型通常含有数十棵树，分析师可能会难以理解模型的构成。

通过展示 LightGBM 模型的每一棵树，t1modeler 树浏览器帮助分析师更好地理解模型。

关于打分代码

打分代码

在给定数据集上生成 LightGBM 分数的代码。

KS 曲线与 ROC 曲线 关于

等分排序表 关于

H直方图 关于

变量重要性 关于

模型配置

KS 曲线与 ROC 曲线 关于

等分排序表 关于

直方图 关于

KS 曲线与 ROC 曲线

等分排序表

H直方图

变量重要性

KS 曲线与 ROC 曲线

等分排序表

直方图