====== Perplexity statistics ======
Mean PPL(Q)                   :   9.156208 ±   0.059074
Mean PPL(base)                :   7.534124 ±   0.048206
Cor(ln(PPL(Q)), ln(PPL(base))):  96.88%
Mean ln(PPL(Q)/PPL(base))     :   0.194990 ±   0.001607
Mean PPL(Q)/PPL(base)         :   1.215298 ±   0.001953
Mean PPL(Q)-PPL(base)         :   1.622084 ±   0.017205

====== KL divergence statistics ======
Mean    KLD:   0.176807 ±   0.000516
Maximum KLD:   7.850962
99.9%   KLD:   2.159336
99.0%   KLD:   0.866296
99.0%   KLD:   0.866296
Median  KLD:   0.144583
10.0%   KLD:   0.010968
 5.0%   KLD:   0.003578
 1.0%   KLD:   0.000530
Minimum KLD:   0.000004

====== Token probability statistics ======
Mean    Δp: -4.620 ± 0.031 %
Maximum Δp: 81.902%
99.9%   Δp: 38.750%
99.0%   Δp: 22.129%
95.0%   Δp:  9.587%
90.0%   Δp:  4.291%
75.0%   Δp:  0.093%
Median  Δp: -1.101%
25.0%   Δp: -8.157%
10.0%   Δp: -19.324%
 5.0%   Δp: -27.170%
 1.0%   Δp: -44.631%
 0.1%   Δp: -74.280%
Minimum Δp: -96.184%
RMS Δp    : 12.577 ± 0.047 %
Same top p: 77.814 ± 0.110 %