大数据的统计学基础

Alan

11 年前

最近在看一本—数据挖掘与数据化运营实战:思路、方法、技巧与应用，读起来感觉很吃力，似乎这本书并不像其所称的那样适合“感兴趣的初学者”。在阅读的过程中发现在大数据这块的基础知识方面实际上是相当薄弱的，毕业太长什么方差矩阵之类虽很基础却都早已遗忘，所以再次求助万能的淘宝，决定先从一套名为《大数据的统计学基础》的视频开始学习，相信对于我刚刚开始入门的R语言后续学习也会非常有帮助。

第一天

第一步解决了一下Wordpress上输出数学公式的问题，使用了一个插件MathJax，部分内容参考http://www.mathjax.org/和http://www.suluclac.com/Wiki+MathJax+Syntax，如求均值
$\mu = \frac{1}{N}sum_{i=1}^n$

$ X_2=\frac{1}{N}(X_1 + X_2 + … +X_n) $

学习均值-平均值、中位数-中间值、众数-同一数值出现次数较多的、离散程度（极差-最大数减最小数、方差）

方差公式(其中μ表示均值)

$\sigma^2=\frac{1}{N}sum_{i=1}^N(X_i-\mu)^2=1/N\sum_{i=1}^NX_i^2-\mu^2$

由于方差是使用数字的平方进行计算，比实际数字大一个量级，所以有时会使用标准差来进行比较,即

$\sigma = \sqrt{\sigma^2}$

视视频PPT有提到通过R来计算均值(75.96667)，排序查看众数(72)，计算方差(96.51609)和标准差(9.82426)

> a <- c(98,83,65,72,79,76,75,94,91,77,63,83,89,69,64,78,63,86,91,72,71,72,70,80,65,70,62,74,71,76) > mean(a)
[1] 75.96667
> sort(a)
 [1] 62 63 63 64 65 65 69 70 70 71 71 72 72 72 74 75 76 76 77 78 79 80 83 83
[25] 86 89 91 91 94 98
> var(a)    //样本方差
[1] 96.51609
> sd(a)
[1] 9.82426

频率直方图、频数直方图、箱线图、茎叶图、线图、柱形图、饼图

第二天

随机试验：所有可能结果的集合称为样本空间，其中的某个结果称为样本点。样本空间的某个子集称为随机事件，由一个样本点组成的单点集称为基本事件。事件中的某个样本点出现时称为事件发生。每个试验中一定会发生的事件称为必然事件 。每个试验中一定不会发生的事件称为不可能事件，用$\phi$表示。

事件关系

包含A⊂B，和事件A ∪ B，积事件 A ∩ B，差事件A-B，互斥事件A∩ B=$\phi$，逆事件B∪B=S,B∩B=$\phi$

事件运算定律

交换律：A∪B = B∪A; A∩B = B∩A

结合律：A∪(B∪C) = (A∪B)∪C; A∩(B∩C) = (A∩B)∩C

分配律：A∪(B∩C) = (A∪B)∩(A∪C); A∩(B∪C) = (A∩B)∪(A∩C)

德摩根律：A∪B = A∩B

概率是一次试验中某事件发生的可能性大小，事件A的概率记为$P_{(A)}$

满足1.试验的样本空间只包含有限个元素，2.试验中每个基本事件发生的可能性相同则称为古典概型，也叫等可能概型。

排列：从n个不同元素中，任意取m个元素，与顺序有关,公式：$A_n^m=n(n-1)(n-2)…(n-m+1)=\frac{n!}{(n-m)!}$

组合：从n个不同元素中，任意取m个元素，与顺序无关，公式：$C_n^m=\frac{n(n-1)(n-2)…(n-m+1)}{m!}=\frac{n!}{(n-m)!m!}$

Buffon投针实验：设有一个以平行且等距（间距为a）木纹铺成的地板，随意抛一去长度b（小于a）的针，求针和其中一条木纹相交的概率（得到π的近似值3.14）。

几何概型：1.试验的样本空间包含无限个元素，2.试验中每个基本事件发生的可能性相同。

第三天

已知某个事件A发生的条件下，另一个事件B发生的概率称为条件概率，记为$P_{(B|A)}$,P(B|A)=P(AB)/P(A)，因此可以得到P(AB)=P(B|A)P(A)，以及P(ABC)=P(C|AB)P(B|A)P(A)

全概率公式(设试验E样本空间为S, A为E的一个事件，B₁,B₂…B_n是S的一个划分，且P(B_i)>0(i=1,2…n))

P(A) = P(A|B₁)P(B₁) + P(A|B₂)P(B₂) + … + P(A|B_n)P(B_n)