正在读取 LightGBM 报告
未找到 LightGBM 报告,返回“我的数据”
我的数据id | Variable | Type | Count | Missing | Missing_Rate | Unique | Mean | Std | Min | 25% | 50% | 75% | 95% | 99% | Max | First | Last |
---|
KS 曲线与 ROC 曲线
等分排序表
# | Cnt Bin | Cnt Bad | Cnt Good | Bin Bad Rate | Remaining Bad Rate | Cum Bad | Cum Good | Cum Bad % | Cum Good % | KS | Score Min | Score Max | Score Avg |
---|
H直方图
变量重要性
No. | Feature | Total Gains | # |
---|
模型配置
未提供验证集
KS 曲线与 ROC 曲线
等分排序表
# | Cnt Bin | Cnt Bad | Cnt Good | Bin Bad Rate | Remaining Bad Rate | Cum Bad | Cum Good | Cum Bad % | Cum Good % | KS | Score Min | Score Max | Score Avg |
---|
直方图
关于数据报告
字段含义
- id: 变量 id 序号
- Variable: 变量名称
- Type: 变量类型
- Count: 数据集行数
- Missing: 缺失值数量
- Missing_Rate: 缺失值比例
- Unique: 唯一值数量
- Mean: 平均值
- Std: 标准差
- Min: 最小值
- 25%: 25 分位值
- 50%: 50 分位值,即中位数
- 75%: 75 分位值
- 95%: 95 分位值
- 99%: 99 分位值
- Max: 最大值
- First: datetime 类型变量的最早值
- Last: datetime 类型变量的最晚值
数据报告
阅读数据报告通常是进行模型开发的第一步,并且这是单凭机器算法无法解决的一个关键步骤。
例如,实际商业环境中的建模数据由不同数据源拼接而成,因此可能存在一定的缺失率。机器算法无法告诉分析师,缺失率为 80% 的“性别”变量是否存在由拼接导致的数据错误问题。
又例如,机器算法无法分辨“年龄”为 180 的数据,是否需要在建模前进行纠正。
因此分析师需要仔细阅读额数据报告以确保建模数据的准确性。
检查清单
- Type: 数据类型是否正确,是否存在本应为数据型的变量,由于某些错误值的存在,导致无法被识别为数据型?
- Missing_Rate: 数据缺失率是否正常?本建模算法能够自动处理缺失值,因此不需要将其转换为 -9999 等特殊值。
- Unique: 唯一值数量是否正常?一个变量的唯一值数量为 1,则此变量没有任何建模价值。
- Min: 最小值是否正常?是否存在不应该出现的负数?
- Max: 最大值是否正常?是否存在过大的异常值?
关于 KS 曲线与 ROC 曲线
KS 曲线
KS 曲线显示一个模型区分事件与非事件(或好事件与坏事件)的能力。
作为衡量模型性能的重要指标之一,通常认为最大 KS 值越高则模型越好。但是分析师需要结合领域知识,确认最大 KS 值是否“太完美以至于无法置信”。
例如,在信用风险领域,合理的模型最大 KS 值一般为 20 到 60 之间,如果一个信用风险模型的最大 KS 值为 90,则有可能是数据准备阶段出现了一些错误。但是在手写体数字识别领域,模型最大 KS 值高达 95 依然是合理的。
ROC 曲线
接收者操作特征曲线,或者 ROC 曲线,是一种坐标图式的分析工具,用于选择最佳的信号侦测模型、舍弃次佳的模型,在同一模型中设定最佳阈值。
其中一个关键指标为 AUC(曲线下面积)。同样地通常认为 AUC 值越高则模型越好。
关于等分排序表
字段定义
- #: 分组序号
- Cnt Bin: 分组样本数量
- Cnt Bad: 分组坏样本数量
- Cnt Good: 分组好样本数量
- Bin Bad Rate: 分组坏比例 = 分组坏样本数量 / 分组样本数量
- Cum Bad: 累积坏样本数量
- Cum Good: 累积好样本数量
- Cum Bad %: 累积坏样本百分比
- Cum Good %: 累积好样本百分比
- KS: KS 值
- Score Min: 分组最低分数
- Score Max: 分组最高分数
- Score Avg: 分组平均分数
等分排序表
根据模型开发结果,将样本打分后从低到高排列,分成等分的 10 个分组,观察模型坏比例是否能够同样保持从低到高的排序。
关于直方图
直方图
直方图展示分数,坏样本以及好样本的百分比分布。
关于变量重要性
变量重要性
变量重要性显示每一个变量在模型中的总增益。
数值越大,则变量在模型中的重要性则越高。
关于树浏览器
树浏览器
根据不同的模型设置“迭代次数(树的个数)”,LightGBM 模型可能含有 1 棵或者多棵树。
典型的 LightGBM 模型通常含有数十棵树,分析师可能会难以理解模型的构成。

通过展示 LightGBM 模型的每一棵树,t1modeler 树浏览器帮助分析师更好地理解模型。
关于打分代码
打分代码
在给定数据集上生成 LightGBM 分数的代码。