大数据审计——国家审计的未来之路(四)

 大数据审计——开源世界里的R

 

  乘着大数据分析的浪潮,R语言作为一款有着统计分析功能及强大作图功能的软件系统,在最近几年受到众多领域的热烈追捧。R语言有哪些突出的特征让大家爱不释手呢?


物美价廉——做图颜值高,全免费

 

  点图线图柱状图直方图,R语言样样精通,而且设计感满满,绝对可以在这个刷脸的时代独当一面。比如用几行代码就可以画这样的图:



(根据经典的鸢尾花数据集绘制的散点图)



(学生身高和每分钟脉搏跳动次数的气泡图)

 

  稍加改进,还能画成这样:




  再进一步,还能这样:

 

 

  那这么好的东西会不会很贵?No,完全免费,它是全世界各地有开源精神的极客们共同贡献出来的精品。


 

兼容并包——算法覆盖广,扩展易

 

  作为统计分析工具,它支持统计领域多个主流的前沿算法。从近年大热的神经网络(就是那只下围棋的机器狗AlphaGo脑袋里的东西),到经典了一百多年还熠熠生辉的基础回归,数千个R包,上万种算法,你可以找到可直接调用的函数,进行修改和调试后即可实现你的分析目标。


  作为一款软件,它有较强的扩展性。要分析的数据存在Oracle里?没问题,轻松导入;在MySQL里?照样解决。R对文本文件、数据库管理系统、统计软件、专门的数据仓库都可以实现兼容。同时它还可以与其他语言互相调用,比如同样大热的python,还有C++,都可以实现对接。


厚积薄发——强大的社区支持

 

  作为一款开源软件,R背后有一个强大的社区和大量的开放源码支持,获取帮助非常容易。比如国外比较活跃的社区有GitHub和Stack Overflow等,GitHub上可以找到各种开发测试包,接受世界各地的使用者提问和测试,等代码成熟后再放到正式发布;而Stack Overflow则是技术问答网站,大牛们随时回答IT技术问题。国内较为活跃的R社区是统计之都及旗下的COS论坛了,统计之都经常发布与R相关的优质文章,还会不定期举办线下研讨会以及R语言会议;而COS论坛则是中文R语言技术问答社区,为学习者提供重要的参考。


  丰富的学习资源,强大的社区支持,这就是传说中的集合人民群众智慧结晶的产品。R语言非常适合那些没有计算机科学教育背景、但需要面向数据并试图解决相关问题的用户,大大降低了数据分析的门槛。


  没有一款软件是十全十美的,当然R语言也存在一些问题,它的数据必须被保存在物理内存中,使得大规模数据集处理工作受到限制。另外,安全性和交互性是R语言的短板,所以数据分析师们更喜欢将关系数据库语言,PHYTHON和Javascript等工具和R结合在一起使用,充分发挥R在统计分析和数据可视化方面的长处。

版权所有 Copyright(C)2009-2010 河南中审科技有限公司