CFA备考008 | AGI狂热分子的每日AI 观察

8、统计学概念&市场收益

8.1 数据集

描述性统计 & 推断性统计
全量统计 & 抽样统计
Measurement Scales 测量尺度
- Nominal scales. 名义上的，可能乱序，比如青苹果，黄苹果，红苹果
- Ordinal scales. 排序的，不一定线性等距，比如小苹果，中苹果，大苹果
- Interval scale. 线性等距的，乘除无意义，比如5摄氏度，10摄氏度，15摄氏度
- Ratio scales. 比例等距的，乘除有效，比如5开尔文度，10开尔文度，15开尔文度
- 快速记忆：Nominal, Ordinal, Interval, Ratio，首字母合成NOIR
定义参数，样本统计，频率分布
- 频率分布的三步走：1、定义区间（分几个抽屉）、2、记录观测对象（把苹果放到合适的抽屉里），3、计算（数一数每个抽屉有多少个苹果）
计算给定频率分布的相对频率、累积相对频率
直方图&折线图来表示数据集的频率分布

8.2 均值&方差

算术平均数 arithmetic mean
- 总体均值 population mean和样本均值sample mean，都是计算的算术平均数
- 所有的Interval 和Ratio 数据集都有算术平均数
- 算术平均数计算时，所有数据都被包含计算
- 一个数据集只有一个唯一的算术平均数
- 数据集中所有数值与算术平均数的差相加为0
加权平均数 weighted mean
- 数据集中的值所占比重不一致时，比如一个投资组合，3成BTC，7成ETH，BTC年回报率12%，ETH年回报率6%，投资组合的期望年回报率为加权平均数：0.3*12%+0.7*6%=7.8%（算术平均数是9%）。
中数 median
- 排序，asc或desc都行，通常asc
- 如果数据集有奇数个值，取正中间那个
- 如果数据集有偶数个值，取正中间2个平均数
众数 mode
- 字面理解，出现次数最多的值
- 单峰，unimodal
- 双峰，bimodal
- 三峰，trimodal
几何平均数 geometric mean
- 几何平均数要注意数值不能出现负数
- 计算收益率的几何平均数时，先全加1，N数全部相乘并开N次方后再减1
- 几何平均数总是小于或等于算术平均数
调和平均数 harmonic mean
- 通常用于计算定投基金的平均价格等特殊场景
- N/（N个数的倒数之和）
- 调和平均数总是小于或等于几何平均数
四分位Quartiles、五分位Quintile、十分位Decile、百分位Percentile数计算
- 四分位、五分位、十分位都可以转化为百分位来统一考虑，如第三个四分位就是75%
- Ly=(n+1)*y/100
- 举例，10个数字已排序asc，1%, 2%, 3%, 5%, 8%, 13%, 21%, 33%, 54%, 87%，75%位在，计算Ly=11*75/100=8.25，第8个数是33%，第9个数是54%，Ly=8.25，表示在第8到第9个数的距离的0.25位置上，即33%+(54%-33%)*0.25=38.25%
计算范围 range和平均绝对偏差 mean absolute deviation
- range = max-min
- MAD = 将数据集中各数与均值的差取绝对值，求其平均值
计算方差和标准差
- 总体方差Population variance， σ^2，取各数与均值的差平方，求其平均值
- 总体标准差 population standard deviation ，σ，对总体方差开根
- 通常情况下，σ > MAD
- 样本方差，sample variance, s^2，取样本空间的n数与均值的差平方，求和，除以(n-1)
- 用n-1而不是n，主要为了纠偏，我们如果用n而不是n-1，求出的值和σ^2相比通常偏小
- 样本标准差，sample standard deviation，s，对样本方差开根
夏普比 SHARPE RATIO，偏斜 SKEW，峰度 KURTOSIS
- 鼎鼎大名的切比雪夫不等式 Chebyshev’s inequality：对于任何一组观测数据，无论是样本数据还是总体数据，无论分布的形状如何，在对于所有的k>1，在平均值的k个标准偏差范围内的观测值至少为1-1/k^2。
- 注：简直太牛了，因为这个不等式适用于任何分布的数据集，当然我们熟知的正态分布，也遵守这个不等式，算是其中的一个特例，落在k各标准差范围内的观测值更多而已。
- 计算并解释变异系数coefficient of variation和夏普比 Sharpe ratio
  - CV的意义，举个例子：两个投资组合，一个平均年化6%，一个平均年化12%，直接比较他们的标准差，并不能代表其离散程度。CV是代表相对离散度，标准差/平均值。CV越大，表示单位期望收益的波动（风险）越大。
  - Sharpe ratio的意义，通常用于衡量投资表现，单位风险下的超额回报比率，所以选择投资组合时，通常值越大越有利，但有2个要特别注意的：（1）负数例外。（2）标准差不一定完全代表风险，比如频繁的小赚和偶尔的大亏。
- 偏态 skewness，正偏态 positively skewed，负偏态 negaitively skewed
  - 对称分布 symmetrical
  - 偏态 Skewness（skew），非对称分布，根据超大的异常值在正轴还是负轴，分别称为正偏态和负偏态
  - 正偏态分布，又叫右尾(right tail)
  - 负偏态分布，又叫左尾(left tail)
  - mean, median, & mode
    - 对于对称分布，mean = median = mode
    - 对于正偏态分布，mean > median > mode
    - 对于负偏态分布，mean < median < mode
    - 加深理解：mean平均数，受到大异常值的影响，正偏态分布，尾巴在右，大的正数，把均值拉高了。负偏态分布时，尾巴在左，也就是有绝对值大的负数，把均值拉低了。
- 峰度 KURTOSIS
  - 峰度主要衡量，相比正态分布，峰更尖还是更平坦
  - Leptokurtic 更尖，Platykurtic更平坦，记忆：首字母象形 L 比 P 尖，lepto有钩子之意，platy有平坦之意
  - mesokurtic，峰度等同于正态分布，记忆：meso有中间之意
  - Leptokurtic 通常表现为高峰肥尾，Platykurtic 表现为低峰瘦尾
  - excess kurtosis，超峰度，正态分布的峰度是3，所以定义超峰度为峰度-3
- 样本偏斜度和峰度计算公式
  - 样本偏斜度 = 取样本各值与均值的差的3次方，求均值后除以标准差的3次方。理解：分母>0恒成立，分子正负号取决于大异常数是正数更多还是负数更多。偏斜度为正表示正偏态，为负表示负偏态，为0表示对称分布，值>0.5称为显著的significant。
  - 样本峰度 = 取样本各值与均值的差的4次方，求均值后除以标准差的4次方。超峰度=峰度-3，超峰度为正数，表示Leptokurtic，为负数表示Platykurtic，超峰度的绝对值>1时，我们认为是大
在计算投资回报时，算术平均数和几何平均数的对比
- 几何平均数告知我们，经过过去几年的投资回报，与按这个几何平均数算复利投资的回报率相等同
- 算术平均数，则可以用来更好的预测明年期望回报率
- 来个极端的例子加深理解，第一年赚了100%，第二年亏50%，即赚-50%，几何平均数是0%，算术平均数是25%。
- 顺着上个例子，如果有1000元，投资2年，每年有一半概率赚100%，一半概率亏50%，2年后的期望收益是多少。第一年末，有50%概率变为2000，50%概率变为500，第二年末，25%概率变为4000，25%+25%概率变为1000，25%概率变为250，第二年末的数学期望为1562.5，收益率56.25%。
- 比对：如果按几何平均数来算未来2年的期望收益，那就是0，按算术平均数来算，(1.25^2-1)=56.25%