• 纸上得来终觉浅,绝知此事要躬行!

    Practice makes perfect!

    实验报告提交要求

     

    • 鼓励交流但需独立完成,按照自己思路进行数据处理和分析。
    • 展示的图表能传达有效信息。排列规整、配色统一、简洁大方,适当评述。图的横纵坐标标示清楚(如有单位需要标注),图标题明确。
    • 实验报告清晰、完整、有分析内容,不能仅有图表。优秀的报告有额外奖励分。
    • 实验报告请包含代码。不限定结果实现的软件。
    • 作业内外注明学号、姓名、班级(专业),及实验内容。
    • 提交文件命名方式为:第_次实验+学号+姓名
    • 提交时间:以老师通知的为准。
    • 提交地址:本网站中的课程系统

     

    实验课一

    本次实验报告围绕数据预处理和特征工程展开,实验所需数据请点击下方“实验数据-下载”链接下载homework_data.xlsx文件。具体任务和要求如下:

    任务一:了解信贷场景变量含义

    1. 请将数据文件中子表“Description”各字段翻译成中文,理解各变量的含义

    任务二:数据预处理

    1. 在数据处理前,请绘制总体好坏样本的对比图形,不限定图形类型,自行设定。

    2. 在数据处理前,请绘制变量“CURR_AMT_INCOME_TOTAL”的初始分布图以及按照'TARGET'变量分组后的分布图,并进行分析。

    3. 对缺失变量进行处理。

    4. 对“CURR_AMT_INCOME_TOTAL”进行标准化处理,并绘制出标准化前后的分布图。

    任务三:特征工程

    1. 将变量CURR_NAME_INCOME_TYPE转换为数值型变量,并计算其IV值,判断其风险预测能力。

    提交日期:2024年11月4日24:00前

    实验课二

    本次实验围绕判别分析和模型评价展开,实验所需数据请点击下方“实验数据-下载”链接下载homework_data.xlsx文件。具体任务和要求如下:

    任务一:数据清洗和预处理

    1. 处理缺失值;

    2. 将分类变量转换成数值型变量(转换方式自定)

    任务二:构建判别分析

    1. 将数据拆分成训练集(70%)和测试集(30%)

    2. 创建 LDA 模型并拟合数据

    任务三:模型评价

    1. 绘制roc曲线,并求解auc

    2. 计算ks距离

    提交日期:2024年11月21日24:00前

    实验课三

    本次实验围绕逻辑回归和决策树展开,实验所需数据为课堂展示所用数据data_credit.csv。具体任务和要求如下:

    任务一:数据清洗和预处理

    将下列几个变量采用woe方式转换成数值型变量

    0 CURR_OCCUPATION_TYPE

    1 CURR_ORGANIZATION_TYPE

    2 PREV_NAME_CASH_LOAN_PURPOSE

    3 PREV_NAME_GOODS_CATEGORY

    4 PREV_PRODUCT_COMBINATION

    任务二:考察数据标准化对模型表现的影响

    1. 对训练集和测试集进行标准化处理(方式自定)

    2. 基于标准化后的数据构建逻辑回归和决策树模型

    3. 分别汇报模型的roc曲线和auc值

    任务三: 考察分裂准则对模型表现的影响

    1. 变换分裂准则,比较不用分裂准则下决策树模型的auc表现

    提交日期:2024年12月9日24:00前

    实验课四

     

    本次实验围绕集成学习算法展开,实验所需数据为课堂展示所用数据data_credit.csv。具体任务和要求如下:

    任务一:考察如何进行调参

    1. 构建随机森林模型

    2. 采用网格搜索法调参n_estimators、criterion、max_features

    3. 思考当模型中有多个参数需要调参时,采用GridSearchCV同时调参与分开调参的区别?

    4. 对比RandomizedSearchCV与GridSearchCV的结果(例如 auc)

     

    提交日期:2024年12月22日24:00前

  • 请点击下方按钮下载实验数据

    实验数据

  • 绿色债券信用评级实验教学项目

    虚拟仿真实验