# ScoreCard **Repository Path**: ky0801/ScoreCard ## Basic Information - **Project Name**: ScoreCard - **Description**: 信用评分卡 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 5 - **Forks**: 4 - **Created**: 2019-04-17 - **Last Updated**: 2022-11-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # ScoreCard 企业/个人信用评分卡构建 ## 数据 - 企业基础信息以及企业交易数据:client_data,企业数据需人工校验 - 企业账期订单记录数据:loan_list - 中间数据 - 训连好的模型:model - 用于计算模型PSI的验证数据集:valid 3. 人工核对好的企业基本信息数据表:feature_checked.xlsx ## ipython 项目过程代码文件 ## Python **1. step1_feature_generate** - 此代码模块包括了样本所有特征的预处理和计算代码: - feature_company_info: 样本企业基础信息变量整理 - feature_season_trade: 提取样本季度交易数据变量 - feature_season_loan: 提取样本季度逾期情况变量 - feature_history_trade: 提取样本历史交易数据变量 - feature_history_loan: 提取样本历史逾期情况变量 - 注:在提取变量之前,需要对数据的准确性进行人工核查,并对字段取值进行统 **2.step2_feature_analysis** - 此代码块包含了样本候选特征的探索性统计分析代码: - company_loan_statistic: 分时间段统计了客户所有账期订单的逾期情况 - statistic_feature: 统计了所有候选变量的空值率,取值分布,IV值,与label的相关性 - feature_correlation: 统计了候选变量间的相关性,并筛选出了相关性大于0.8的变量对 - pca,fa: 分别是采用主成分分析(PCA)和因子分析(FA)方法对所有候选变量间的多重共线性进行分析 - discrete_feature: 统计了离散变量所有取值类别对应的样本逾期情况 - bins_num,bins_value: 对连续变量进行了等量和等距分段,并统计变量每个取值分段对应的样本逾期情况 **3.step3_mdoel_validation** - 此代码块包含最优模型寻找过程中的所有备选模型训练代码: - feature_pretreatment_value: 变量预处理方式一 - feature_pretreatment_woe: 变量预处理方式二(适用于评分卡构建模型) - model_GBDT: 梯度提升决策树GBDT模型训练代码,调用xgboost工具包 - model_SVM: 支持向量机SVM模型训练代码,调用sklearn机器学习工具包 - model_NB: 朴素贝叶斯Naive Bayes模型训练代码,调用sklearn机器学习工具包 - model_KNN: K近邻KNN模型训练代码,调用sklearn机器学习工具包 - model_NN: 神经网络Neural Network模型训练代码,调用sklearn机器学习工具包 - model_DT: 决策树DT模型训练代码,调用sklearn机器学习工具包 - model_LR: 逻辑回归Logistic Regression模型训练代码,调用sklearn机器学习工具包 - ks_value: 模型KS统计量计算代码 - psi_value: 模型PSI值计算代码 - model_train: 所有模型训练代码 - GBDT_CV: 梯度提升决策树GBDT模型5折交叉验证代码 - model_CV: 其他模型5折交叉验证代码 **4. step4_build_ScoreCard** - 此代码块包含模型转信用分值的代码: - score_card: 输出所有样本的违约概率与信用分值 - calc_score: 采用概率公式直接计算样本信用分值 - calc_score_by_card: 采用评分卡方式计算信用分值 - bin_statistic: 所有样本的信用分值分组统计 ps:采用概率公式和采用评分卡方式计算得出的样本信用分值相同 **5.Functions** 此代码快包含了所有公共函数 - 变量值计算函数 - 变量统计分析函数 - 变量预处理函数 注:代码中包含了每个函数的功能说明以及参数和返回值说明