新闻动态
NEWS CENTER
NEWS CENTER
2019-05-11
在读研究生的时候,曾经跟师弟们做过一次交流,其中举到一个例子:
如果因变量是中国的人均GDP,自变量包括你家门口的那棵树的高度,你用了简单的模型去拟合,结果你会得到“你家门口树的高度,对中国人均GDP有着显著的促进关系。”这样啼笑皆非的结论。
为什么会这样?
主要是因为我们过多的重视了变量之间数量上的关系,而忽略了变量之间的经济学联系,缺乏了经济学理论的思考才会这样。
这样的结论就是一种数据把戏(Trick of Data)。
工作之后,发现也有很多需要模型的地方,而跟很多风控乙方沟通发现很多乙方都会用种种Trick of Data 来忽悠并不是专业做模型的业务人员,所以从今天开始会更新几篇关于这种数据把戏的文章,各位在做业务交流的时候可以避免类似的坑。
我相信做风控策略的小伙伴在与风控乙方接触的时候,总会有那么几个乙方会去推销自己的某个数据或者模型分,而模型的区分效果张口就是0.5甚至0.6,回去一查,哎哟,这是个很好的模型啊,赶紧签商务合同接进来试试,结果发现差强人意?
这个时候乙方的销售会说一定是你们的业务跟模型样本不太匹配,要不我们再联合建模下?
你不信邪,自己开始做模型,结果怎么都达不到人家的精度,你是不是开始郁闷:
为什么乙方的模型能达到这么高的k-s,你却不行?
首先,什么是风控模型中的KS值?