实验教学

纸上得来终觉浅，绝知此事要躬行！
Practice makes perfect!
期末考核
参加比赛
实验报告提交要求
鼓励交流但需独立完成，按照自己思路进行数据处理和分析。
展示的图表能传达有效信息。排列规整、配色统一、简洁大方，适当评述。图的横纵坐标标示清楚（如有单位需要标注），图标题明确。
实验报告可读性好、内容完整、表述清晰、图表美观、方案合理，不能仅有图表或代码。优秀的报告有额外奖励分。
作业内外注明学号、姓名、班级（专业），及实验内容。
提交文件命名方式为：第N次实验+周1/2班+学号+姓名。
提交时间：以每次实验报告通知的为准。
提交地址：本网站中的课程系统提交

实验报告一
数据描述
本次实验报告围绕信贷场景中的数据分析内容展开，主要包括数据的清洗与转换。具体包括以下任务：
任务一：结合信贷业务场景理解变量的基本情况
1. 请根据提供的数据字典，对sheet1中所有字段变量（前两列除外）进行描述统计分析；
2. 逐一对每个变量（前两列除外）进行解读（意义及分布特点）。
任务二：数据清洗
1. 找出变量中的缺失数据并进行填补，给出填补方案及填补后的描述统计；
2. 请分析变量“annual_inc”的极端值情况，如存在极端值，请给出处理方案及处理后的描述统计。
任务三：
1. 请选择一种方法对变量“emp_length”进行分箱，并计算分箱之后各区间的好坏比率，并进行可视化展示；
2. 在同一幅图中画出每个“Grade”的“FICO”分数概率密度分布图，并结合IV值将“FICO”进行离散化转换，详细说明完整的变换方案。
数据：请点击本网站最下方的“实验数据——下载”按钮下载本次实验报告的作业
提交时间：2026年4月8日23:59前。
实验报告二
判别分析
本次实验报告围绕信贷场景中的判别分析内容展开，主要包括特征工程、建模与评价。具体包括以下任务：
任务一：建模数据准备
1. 请将样本随机拆分成训练集和测试集（比例为8:2或7:3）
2. 将离散分类变量转换成数值型变量，方法自选（虚拟变量法，证据权重法WOE等）
3. 依据IV值选择适当的特征（及其衍生变量）作为备选变量
任务二：判别分析建模
1. 请用所有备选变量在训练集上建立线性判别分析模型，预测好坏标签（好人是1），写出判别方程
2. 尝试用逐步法（stepwise），找到最优特征组合，在训练集预测表现最好
3. 按照训练集好坏比例，设定cutoff，给出训练集的混淆矩阵，并计算5个分类效果的指标
任务三：模型效果评价
1. 用上一步的cutoff给出测试集的混淆矩阵，并计算5个分类效果的指标
2. 计算测试集的AUC，Gini和KS
3. 尝试不同的判别准则建立判别分析模型，并在同一副图中画出不同模型的ROC曲线
提交时间：2026年5月6日23:59前。
实验报告三
决策树模型
本次实验围绕信贷违约预测场景中的决策树分类模型展开，重点考察学生对数据准备、模型构建、超参数设置以及模型评估方法的掌握情况。实验数据采用信贷数据集（German Credit），实验内容主要包括数据预处理、决策树建模与性能评估，具体任务如下。
任务一：数据准备
1. 目标变量 Y：以“信用状况”为目标变量，其中”good”定义为信用良好、正常履约（标记为好人），“bad”定义为信用不良、违约（标记为坏人），并将其转化为数值变量；
2. 特征变量 X：数据集包含数值型与类别型特征，请根据数据含义自行甄选合适的特征，并对其中的类别型变量进行编码，确保所有特征均为数值变量。
任务二：建立决策树模型
1. 样本划分：自行确定样本划分比例，将总体样本划分为训练集与测试集（如 7:3 或 8:2）；
2. 模型构建与评估：基于训练集数据，建立二分类决策树模型，对借款人违约概率进行预测。输出并分析以下评估指标：混淆矩阵、Accuracy、Precision、Recall、F1-score、ROC-AUC。
任务三：超参数调优
1. 使用交叉验证和网格搜索方法（GridSearchCV），对以下超参数进行调优：criterion（对比 gini 和 entropy 两种选择）、max_depth、min_samples_split、min_samples_leaf；
2. 根据网格搜索结果，输出最优超参数组合及其对应的评估结果。
数据：请点击本网站最下方的“实验数据——下载”按钮下载本次实验报告的作业 German_Credit_数据.csv，请基于该文件完成上述任务。
提交时间：2026 年 6月 8日 23:59 前。
实验报告四
XGBoost模型

本次实验进入集成学习的代表性方法 XGBoost，以信贷违约预测为场景，使用信用数据集（GermanCredit），考察对 XGBoost 建模、评估与超参数调优的掌握。请完成以下三道题。
任务一：数据准备
以「信用状况」为目标变量（good 为好客户、bad 为违约坏客户，转化为数值变量并令bad=1 为正类）；对类别型特征进行 One-Hot 编码，确保全部特征为数值；按 7∶3 分层划分训练集与测试集，并从训练集中再切出一部分作为验证集，供后续早停使用。

任务二：建立 XGBoost 模型并评估
基于训练集训练一个 XGBoost 二分类模型，对借款人违约概率进行预测；在测试集上输出并分析以下评估指标：混淆矩阵、Accuracy、Precision、Recall、F1-score、ROC-AUC，其中应重点关注坏客户召回率（Recall）。

任务三：超参数调优与早停
验证集监控训练过程，借助早停（earlystopping）自动确定最优树数；再使用交叉验证与网格搜索对关键超参数进行调优，以ROC-AUC 为评价标准，输出最优超参数组合及其在测试集上的评估结果。
数据：请点击本网站最下方的“实验数据——下载”按钮下载本次实验报告的作业
提交时间：2026 年 6月26日 23:59 前。
请点击下方按钮下载实验数据
实验数据
下载
绿色债券信用评级实验教学项目
虚拟仿真实验
开始实验

纸上得来终觉浅，绝知此事要躬行！

Practice makes perfect!

期末考核

实验报告提交要求

实验报告一

数据描述

实验报告二

判别分析

实验报告三

决策树模型

实验报告四

XGBoost模型

请点击下方按钮下载实验数据

实验数据

绿色债券信用评级实验教学项目

虚拟仿真实验