8、统计学概念&市场收益

8.1 数据集

  • 描述性统计 & 推断性统计

  • 全量统计 & 抽样统计
  • Measurement Scales 测量尺度
    • Nominal scales. 名义上的,可能乱序,比如青苹果,黄苹果,红苹果
    • Ordinal scales. 排序的,不一定线性等距,比如小苹果,中苹果,大苹果
    • Interval scale. 线性等距的,乘除无意义,比如5摄氏度,10摄氏度,15摄氏度
    • Ratio scales. 比例等距的,乘除有效,比如5开尔文度,10开尔文度,15开尔文度
    • 快速记忆:Nominal, Ordinal, Interval, Ratio,首字母合成NOIR
  • 定义参数,样本统计,频率分布
    • 频率分布的三步走:1、定义区间(分几个抽屉)、2、记录观测对象(把苹果放到合适的抽屉里),3、计算(数一数每个抽屉有多少个苹果)
  • 计算给定频率分布的相对频率、累积相对频率
  • 直方图&折线图来表示数据集的频率分布

8.2 均值&方差

  • 算术平均数 arithmetic mean
    • 总体均值 population mean和样本均值sample mean,都是计算的算术平均数
    • 所有的IntervalRatio 数据集都有算术平均数
    • 算术平均数计算时,所有数据都被包含计算
    • 一个数据集只有一个唯一的算术平均数
    • 数据集中所有数值与算术平均数的差相加为0
  • 加权平均数 weighted mean
    • 数据集中的值所占比重不一致时,比如一个投资组合,3成BTC,7成ETH,BTC年回报率12%,ETH年回报率6%,投资组合的期望年回报率为加权平均数:0.3*12%+0.7*6%=7.8%(算术平均数是9%)。
  • 中数 median
    • 排序,asc或desc都行,通常asc
    • 如果数据集有奇数个值,取正中间那个
    • 如果数据集有偶数个值,取正中间2个平均数
  • 众数 mode
    • 字面理解,出现次数最多的值
    • 单峰,unimodal
    • 双峰,bimodal
    • 三峰,trimodal
  • 几何平均数 geometric mean
    • 几何平均数要注意数值不能出现负数
    • 计算收益率的几何平均数时,先全加1,N数全部相乘并开N次方后再减1
    • 几何平均数总是小于或等于算术平均数
  • 调和平均数 harmonic mean
    • 通常用于计算定投基金的平均价格等特殊场景
    • N/(N个数的倒数之和)
    • 调和平均数总是小于或等于几何平均数
  • 四分位Quartiles、五分位Quintile、十分位Decile、百分位Percentile数计算
    • 四分位、五分位、十分位都可以转化为百分位来统一考虑,如第三个四分位就是75%
    • Ly=(n+1)*y/100
    • 举例,10个数字已排序asc,1%, 2%, 3%, 5%, 8%, 13%, 21%, 33%, 54%, 87%,75%位在,计算Ly=11*75/100=8.25,第8个数是33%,第9个数是54%,Ly=8.25,表示在第8到第9个数的距离的0.25位置上,即33%+(54%-33%)*0.25=38.25%
  • 计算范围 range和平均绝对偏差 mean absolute deviation
    • range = max-min
    • MAD = 将数据集中各数与均值的差取绝对值,求其平均值
  • 计算方差和标准差
    • 总体方差Population variance, σ^2,取各数与均值的差平方,求其平均值
    • 总体标准差 population standard deviation ,σ,对总体方差开根
    • 通常情况下,σ > MAD
    • 样本方差,sample variance, s^2,取样本空间的n数与均值的差平方,求和,除以(n-1)
    • 用n-1而不是n,主要为了纠偏,我们如果用n而不是n-1,求出的值和σ^2相比通常偏小
    • 样本标准差,sample standard deviation,s,对样本方差开根
  • 夏普比 SHARPE RATIO,偏斜 SKEW, 峰度 KURTOSIS
    • 鼎鼎大名的切比雪夫不等式 Chebyshev’s inequality:对于任何一组观测数据,无论是样本数据还是总体数据,无论分布的形状如何,在对于所有的k>1,在平均值的k个标准偏差范围内的观测值至少为1-1/k^2。
    • 注:简直太牛了,因为这个不等式适用于任何分布的数据集,当然我们熟知的正态分布,也遵守这个不等式,算是其中的一个特例,落在k各标准差范围内的观测值更多而已。
    • 计算并解释变异系数coefficient of variation和夏普比 Sharpe ratio
      • CV的意义,举个例子:两个投资组合,一个平均年化6%,一个平均年化12%,直接比较他们的标准差,并不能代表其离散程度。CV是代表相对离散度,标准差/平均值。CV越大,表示单位期望收益的波动(风险)越大。
      • Sharpe ratio的意义,通常用于衡量投资表现,单位风险下的超额回报比率,所以选择投资组合时,通常值越大越有利,但有2个要特别注意的:(1)负数例外。(2)标准差不一定完全代表风险,比如频繁的小赚和偶尔的大亏。
    • 偏态 skewness,正偏态 positively skewed,负偏态 negaitively skewed
      • 对称分布 symmetrical
      • 偏态 Skewness(skew),非对称分布,根据超大的异常值在正轴还是负轴,分别称为正偏态和负偏态
      • 正偏态分布,又叫右尾(right tail)
      • 负偏态分布,又叫左尾(left tail)
      • mean, median, & mode
        • 对于对称分布,mean = median = mode
        • 对于正偏态分布,mean > median > mode
        • 对于负偏态分布,mean < median < mode
        • 加深理解:mean平均数,受到大异常值的影响,正偏态分布,尾巴在右,大的正数,把均值拉高了。负偏态分布时,尾巴在左,也就是有绝对值大的负数,把均值拉低了。
    • 峰度 KURTOSIS
      • 峰度主要衡量,相比正态分布,峰更尖还是更平坦
      • Leptokurtic 更尖,Platykurtic更平坦,记忆:首字母象形 L 比 P 尖,lepto有钩子之意,platy有平坦之意
      • mesokurtic,峰度等同于正态分布,记忆:meso有中间之意
      • Leptokurtic 通常表现为高峰肥尾,Platykurtic 表现为低峰瘦尾
      • excess kurtosis,超峰度,正态分布的峰度是3,所以定义超峰度为峰度-3
    • 样本偏斜度和峰度计算公式
      • 样本偏斜度 = 取样本各值与均值的差的3次方, 求均值后除以标准差的3次方。理解:分母>0恒成立,分子正负号取决于大异常数是正数更多还是负数更多。偏斜度为正表示正偏态,为负表示负偏态,为0表示对称分布,值>0.5称为显著的significant
      • 样本峰度 = 取样本各值与均值的差的4次方, 求均值后除以标准差的4次方。超峰度=峰度-3,超峰度为正数,表示Leptokurtic,为负数表示Platykurtic,超峰度的绝对值>1时,我们认为是大
  • 在计算投资回报时,算术平均数和几何平均数的对比
    • 几何平均数告知我们,经过过去几年的投资回报,与按这个几何平均数算复利投资的回报率相等同
    • 算术平均数,则可以用来更好的预测明年期望回报率
    • 来个极端的例子加深理解,第一年赚了100%,第二年亏50%,即赚-50%,几何平均数是0%,算术平均数是25%。
    • 顺着上个例子,如果有1000元,投资2年,每年有一半概率赚100%,一半概率亏50%,2年后的期望收益是多少。第一年末,有50%概率变为2000,50%概率变为500,第二年末,25%概率变为4000,25%+25%概率变为1000,25%概率变为250,第二年末的数学期望为1562.5,收益率56.25%。
    • 比对:如果按几何平均数来算未来2年的期望收益,那就是0,按算术平均数来算,(1.25^2-1)=56.25%