KDD CUP 2015 赛题回顾

先随便写点东西吧

数据集可视化

可视化算是了解数据集的一部分,可以很好地去把握自己对数据地敏感,观察数据的分布也会对做特征有帮助。

Tableau

具体操作不好描述,反正就是看完官方教程就会做点简单的图了,稍加摸索也能画的有模有样。

完整版地址
https://public.tableau.com/profile/terryga#!/vizhome/KDDCUP2015MOOCdropoutprediction/sheet7
这里就顺带说个小缺陷吧,没法很顺手地数据分析,或许是习惯了pandas各种命令了,一些简单地统计量通过按钮也不好实现。
Tableau这个软件感觉更适合做报表,反正就是挺有趣地啦。
下一个要挑战的是Seaborn可视化,这个库在Kaggle里面用得比较多,估计我要把这个当作重点来学习了。

seaborn