《重构大数据统计》是阿里巴巴的技术丛书之一,要说到大数据阿里巴巴绝对有发言权,这次试读的内容多达74页,比以前的其他试读图书内容来比较具有更多的内容。这次的大数据和其他的技术类的书籍不同的是,本书从基础的数理统计概念开始,一步步讲解统计的理论,并给出实现代码,慢慢的推导出统计结论,而不是简单的罗列已经计算出来的结论数据,是研究大数据统计原理的首选。
试读内容从第一章开始介绍基础概念,从数据类型到统计学上的总体、样本、参数、统计量等基础概念讲起,让没有相关知识背景的读者对基础的概念有个大概的了解。
第二章开始提到单变量的基本统计量,因为大学曾经学过生物统计学,对于这些统计学的概念还是有些印象,阅读起来比较轻松。这一章节快速介绍了基础的统计学参数和算法,从均值、方差、标准差、变异系数、标准误,到稍微有些专业难度的k阶问题,一步步深入,给出对应的计算公式,推导出计算的结果。特地举出几个市场上的样本分析的例子,把上面的参数一一计算出来并说明这些参数的作用。在给出数理理论推倒之后又列出来 Java实现的算法代码,实用性很强。
第三章是统计学里面的单变量数据的分布。首先是直观的查看统计数据样本,通过直方图(Histogram)、经验分布、PP、QQ概率图方式进行表示,同时给出可以直接得出结果的Java类和函数,实用性较强。
从《重构大数据统计》的试读章节中可以感受到,本书从基础概念讲起,一步步的引导读者理解大数据(样本)下如何对数据进行ETL的过程,阅读这本书需要具有基础的数学知识还要有统计学的一些基础概念,书中从概念起、到举出实例、推导计算然后再给出Java程序的具体实现,是研究大数据统计原理的不错的书籍。