发布时间:2022-11-30 21:34:02 文章来源:互联网
微博 微信 QQ空间

【Kaggle】>贷款人的年龄集中在什么年龄段?(一)

【Kaggle】>贷款人的年龄集中在什么年龄段?(一)

贷款说明 ->

贷款是银行或其他金融机构按一定利率贷出货币资金并必须归还的一种信用活动形式。广义的贷款是指贷款、贴现、透支等借贷资金的总称。银行通过贷款释放集中的货币和货币资金,可以满足社会扩大再生产补充资金、促进经济发展的需要。同时,银行也可以获得贷款利息收入,增加银行自身的积累。

数据源->

本文数据来自以下网址:

来自 Kaggle 数据集。

问一个问题 ->

1.贷款人集中在哪个年龄段?

2. 贷款人的男女比例是多少?

3、贷款期限的选择倾向?

4.贷款人的学历分布如何?

数据清洗 ->

通过以下步骤将数据下载到电脑并导入到客户端:Navicat。

导入数据后,可以直接通过客户端修改表名,也可以运行SQL语句修改表名到loan。

rename table `loan payments data` to loan;

清理数据以供后续分析。

1.执行以下语句删除多余的列。

ALTER TABLE loan
DROP loan_status,
DROP effective_date,
DROP due_date,
DROP paid_off_time,
DROP past_due_days;

查询执行结果,保留需要分析的主要信息:

删除ID列中的重复值,执行后表中将没有空值。

SELECT DISTINCT loan_ID FROM loan;

修改表中列名,方便观察

ALTER TABLE loan RENAME COLUMN Loan_ID TO ID,
RENAME COLUMN Principal TO 本金,
RENAME COLUMN terms TO 期限,
RENAME COLUMN age TO 年龄,
RENAME COLUMN education TO 教育程度,
RENAME COLUMN Gender TO 性别;

结果:

然后将followers列的数据类型转换为整数类型:

ALTER TABLE loan
MODIFY 本金 INT,
MODIFY 期限 INT,
MODIFY 年龄 INT;

数据分析 ->

1. 总数据

执行下面的语句,在数据清洗的时候一直在重复。

SELECT COUNT(ID) FROM loan;

它显示只有 500 个数据样本。对于数据分析,数据样本有点小。出于学习目的,它们首先用于数据分析。后期熟练之后再找数据量比较大的资料。

2、本金比例

SELECT  本金, COUNT(本金) AS 数量,CONCAT(ROUND(COUNT(本金)/(SELECT COUNT(*)FROM loan)*100 ,2),'%') AS 占比 FROM loan
GROUP BY 本金
ORDER BY 占比 DESC ;

3. 性别比例

SELECT  性别, COUNT(性别) AS 数量,CONCAT(ROUND(COUNT(性别)/(SELECT COUNT(*)FROM loan)*100 ,2),'%') AS 占比 FROM loan
GROUP BY 性别;

4.贷款期限

SELECT  期限, COUNT(期限) AS 数量,CONCAT(ROUND(COUNT(期限)/(SELECT COUNT(*)FROM loan)*100 ,2),'%') AS 占比 FROM loan
GROUP BY 期限
ORDER BY 占比 DESC ;

五、年龄分布

--样本中最大年龄
SELECT MAX(年龄) FROM loan;
--样本中最小年龄
SELECT MIN(年龄) FROM loan;
--样本年龄差
SELECT MAX(年龄)-(SELECT MIN(年龄)FROM loan) FROM loan;
--年龄差为33,将年龄分为4段
SELECT elt(interval(年龄,16,25,35,45,55),
			 '16~25','26~35','36~45','46~55') as 年龄段,
			 count(年龄) AS 数量,
			 CONCAT(ROUND(COUNT(年龄)/(SELECT COUNT(*)FROM loan)*100 ,2),'%') AS 占比
FROM loan
GROUP BY 1
ORDER BY 数量 DESC;

六、教育程度

SELECT  教育程度, COUNT(教育程度) AS 数量,CONCAT(ROUND(COUNT(教育程度)/(SELECT COUNT(*)FROM loan)*100 ,2),'%') AS 占比 FROM loan
GROUP BY 教育程度
ORDER BY 占比 DESC ;

结论与建议->

从上面的分析可以看出:

1、在贷款中选择还款额度时,大部分人选择最高贷款额度1000长期出售借贷数据,只有少部分人选择1000以下,而在这个数据中,84.6%的贷款人是男性,可见在发展的时候贷款人可以把重点放在男人身上。

2、26~35岁年龄段人群占样本贷款人的62.40%。这个年龄段的人更像是在生活和工作中努力拼搏的年轻人。一切都不是很稳定,生活中他们似乎需要更多。贷款的帮助;高中和大学各占受教育程度的40%左右,总体上没有随受教育程度变化而增加或减少的趋势。它也可能受到样本量小的影响。

3、贷款公司在开发贷款对象时,可重点关注26-35岁、具有大专或高中文化程度的男性。数据显示长期出售借贷数据,这部分人更需要贷款帮助。

另一视角

换一换