欢迎来到在线配资部落! 请登录 免费注册 忘记密码? 配资在线手机版

配资部落

搜索

通过语义分类了解消费信贷 科学预测风险

[复制链接]
发表于 2014-10-21 02:56:10 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转网贷部落社区.

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

在市场借贷之前所称的”P2P借贷“时期,许多投资人受到能够仔细阅读每个潜在借款人信用档案及贷款目的吸引。生活在允许P2P投资的州的所有居民都能够在家中就成为信贷员,独立审查贷款申请,根据风险/回报做出判断,决定是否要投资。

随着行业的发展与增长,很多投资人都开始依赖算法而非人为的一个个贷款分析,而许多主要的消费信贷平台也从网站和数据源中删掉了冗长的借款人贷款描述。然而借款人贷款描述的悠久历史以及随后的信贷表现都提供了重要的贷款考核数据。我们可以利用这些信息来分析语言和贷款表现间的关联,并建立一个语言分析框架来评估包含这些语义的消费贷款或小企业贷款。

借款人应该说什么?

为了进行分析,我们针对主流消费信贷平台提供的10万以上贷款项目的数据集进行分析。为了分析包含在这些贷款项目中的语义使用,我们不得不先进行一些文字处理,我们将所有文本以编程方式转换为小写,消除多余的空格符及标点符号,并删除了贷款描述中的无用词。

20141020111204_599s_.jpg

去除这些无用词后,我们还采用了派生算法,去除前缀词与后缀词。比如说, “quick”, “quickly”和 “quicker”三个单词统一为 “quick”一个单词。

下图的文字云显示的是贷款描述中最常用到的500个单词,文字云的大小显示的是该单词出现的相对频率的高低。

20141020112504_419s_.jpg

单词出现频率与发生违约

为了知晓哪些单词的使用预示着更好或更差的贷款表现,我们计算了“坏账率”,此处坏账率指的是贷款描述中含有”逾期30天“”违约“”注销“等词的贷款占比。

下面的两个图表显示的是坏账率最高的贷款描述单词以及坏账率最低的贷款描述单词。

20141020112517_615s_.jpg

20141020112527_61s_.jpg

利用文本分析来预测风险

鉴于语言数据和贷款表现资料的广泛性,我们通过使用贝叶斯分类器( Bayesian Classifier)建立一个排名系统。这和电子邮件的垃圾邮件过滤器评估是否为垃圾邮件的基本原理相同。关于我们如何建立这个排名系统及该排名系统的应用原理,此处不详述,但是其运用结果却是非常惊人的。我们使用贝叶斯分类器对每笔贷款予以“词句评分”,该评分与贷款描述文本分析所得的贷款违约概率相对应。这些评分被分成十分位数,并运用于信用等级评定。

下面的图表显示的是基于文本分析所得的”词句评分“有效影响了所有信用等级的贷款坏账率。

20141020112538_824s_.jpg

结论

Lending Club 和Prosper已经不提供贷款的详细描述,美国和世界各地其他新兴的借贷平台都转向提供对潜在借款人的文本分析,尤其是小企业贷款平台。随着P2P借贷行业的发展,科技以及对投资人展示的数据也在不断发展。比如机械文本分析将曾经耗费时间、只能人工计算的过程变得更快、更精确。最终,使用数据快速且准确的评估投资风险,将带来更大的资本流动性以及更高的资本配置能力。


回复

使用道具 举报

发表于 2015-4-25 13:04:48 | 显示全部楼层
赞一个
回复 支持 反对

使用道具 举报

发表于 2015-6-20 18:58:58 | 显示全部楼层
谢谢楼主
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表