• 纸上得来终觉浅,绝知此事要躬行!

    Practice makes perfect!

    实验报告提交要求

    • 鼓励交流但需独立完成,按照自己思路进行数据处理和分析。
    • 展示的图表能传达有效信息。排列规整、配色统一、简洁大方,适当评述。图的横纵坐标标示清楚(如有单位需要标注),图标题明确。
    • 实验报告可读性好、内容完整、表述清晰、图表美观、方案合理,不能仅有图表或代码。优秀的报告有额外奖励分。
    • 作业内外注明学号、姓名、班级(专业),及实验内容。
    • 提交文件命名方式为:第N次实验+周1/2班+学号+姓名
    • 提交时间:以每次实验报告通知的为准。
    • 提交地址:本网站中的课程系统提交

    实验报告一

    数据描述

    本次实验报告围绕信贷场景中的数据分析内容展开,主要包括数据的清洗与转换。具体包括以下任务:

    任务一:结合信贷业务场景理解变量的基本情况

    1. 请根据提供的数据字典,对sheet1中所有字段变量(前两列除外)进行描述统计分析;

    2. 逐一对每个变量(前两列除外)进行解读(意义及分布特点)。

    任务二:数据清洗

    1. 找出变量中的缺失数据并进行填补,给出填补方案及填补后的描述统计;

    2. 请分析变量“annual_inc”的极端值情况,如存在极端值,请给出处理方案及处理后的描述统计。

    任务三:

    1. 请选择一种方法对变量“emp_length”进行分箱,并计算分箱之后各区间的好坏比率,并进行可视化展示;

    2. 在同一幅图中画出每个“Grade”的“FICO”分数概率密度分布图,并结合IV值将“FICO”进行离散化转换,详细说明完整的变换方案。

    数据:请点击本网站最下方的“实验数据——下载”按钮下载本次实验报告的作业

    提交时间:2026年4月8日23:59前。

    实验报告二

    判别分析

    本次实验报告围绕信贷场景中的判别分析内容展开,主要包括特征工程、建模与评价。具体包括以下任务:

    任务一:拆分数据集

    1. 请将样本拆分成训练集和测试集(比例为:8:2)

    任务二:数据预处理

    1. 请自选方法处理缺失值

    2. 将离散分类变量转换成数值型变量,方法自选。

    任务三:处理样本不平衡

    1. 请汇报样本标签的分布情况。

    2. 请选择1种方法处理样本的不平衡。

    任务四:建模

    1. 请对训练集采用线性判别分析方法建立模型。

    任务五:

    1. 汇报模型在测试集上的ROC曲线和AUC。


    数据:请点击本网站最下方的“实验数据——下载”按钮下载本次实验报告的作业

    提交时间:2025 年 11 月23 日 23:59 前。

    实验报告三

    逻辑回归

    本次实验报告围绕信贷场景中的逻辑回归内容展开,主要包括特征工程、建模与评价。具体包括以下任务:

    任务1:数据准备

    1.目标变量Y:loan_status为目标变量,其中“fully paid”定义为正常履约(标记为好人),“charged off”定义为违约(标记为坏人),并将其转化为数值变量;

    2.特征变量X:请根据数据含义自行甄选合适的特征,并确保所有特征均为数值变量。

    任务2:建立逻辑回归模型

    1.样本划分:自行确定划分比例,将总体样本划分为训练集和测试集。

    2.建模:使用训练集进行逻辑回归模型的参数估计。

    任务3:画出ROC曲线,汇报AUC,并汇报混淆矩阵。

    数据:请点击本网站最下方的“实验数据——下载”按钮下载本次实验报告的作业

    提交时间:2025 年 12 月 21 日 23:59 前。

    实验报告四

    决策树模型

    本次实验围绕信贷违约预测场景中的决策树分类模型展开,重点考察学生对数据准备、模型构建、超参数设置以及模型评估方法的掌握情况。实验内容主要包括数据预处理、决策树建模与性能评估,具体任务如下。

    任务1:数据准备

    1.目标变量Y:loan_status为目标变量,其中“fully paid”定义为正常履约(标记为好人),“charged off”定义为违约(标记为坏人),并将其转化为数值变量;

    2.特征变量X:请根据数据含义自行甄选合适的特征,并确保所有特征均为数值变量。

    任务2:建立决策树模型

    1.样本划分:自行确定样本划分比例,将总体样本划分为训练集与测试集(如 7:3 或 8:2)。

    2.模型构建与评估:基于训练集数据,建立二分类决策树模型,对借款人违约概率进行预测。输出并分析以下评估指标:混淆矩阵、Accuracy、Precision、Recall、F1-score、ROC-AUC。

    任务3:超参数调优

    使用交叉验证和网格搜索方法(GridSearchCV),对以下超参数进行调优:criterion: gini 和 entropy(对比这两种选择)max_depth, min_samples_split, min_samples_leaf根据网格搜索结果输出最优超参数组合及其对应的评估结果。

    数据:请点击本网站最下方的“实验数据——下载”按钮下载本次实验报告的作业

    提交时间:2025 年 12 月 31 日 23:59 前。

  • 请点击下方按钮下载实验数据

    实验数据

  • 绿色债券信用评级实验教学项目

    虚拟仿真实验