移位直方图分档时的小泄漏-解网

问：

尝试将一些代码放在一起，用于根据简单的百分比分箱直方图分析降级的正态分布，并可以选择将百分比分箱移到非 P50 零值附近。

我将一个可重现的示例归结为以下代码：

import random
import numpy as np
import pandas as pd
from numpy.random import normal

# --- Defines year 1 p50 distribution ---
p50 = 100000
hedge = -0.10        #percent
uncertainty = 0     #percent
sd = p50 * uncertainty / 100
first_year = normal(p50, sd, 10000)

# --- Establishes multi-year distributions on true p50 ---
years = 10
deg = 0.1
yearly_dist = np.zeros((years, 10000))
for i in range(0, years):
    for j in range(0, 10000):
        yearly_dist[i][j] = random.choice(first_year) * (1 - deg / 100) ** i

# --- Generates bins for each percentage delta from hedged p50 ---
hedge_p50 = p50 * (1 + hedge / 100)
bin_size = hedge_p50 * 0.01
bins = np.zeros(101)
bins[100] = 1e+15
for i in range(1, 100):
    bins[i] = hedge_p50 - (50 - i) * bin_size - hedge_p50/200

# --- Calculates totals in each percentage bin for each year ---
yearly_df = pd.DataFrame()
for i in range(0, years):
    deg_value = (1 - deg/100) ** i
    deg_bins = bins * deg_value
    deg_bins[100] = 1e+15
    hist, bin_edges = np.histogram(yearly_dist[i], bins=deg_bins, density=True)
    yearly_df[i] = np.multiply((hist * bin_size), (deg_bins[0:100] + bin_size / 2))

以上内容的快速总结：

从真实的 p50 值生成 10,000 个样本
每年生成 10,000 个可降解的添加样品（数据待分析）
根据对冲值和 p50 值创建 1% 直方图箱
将项目符号 2 中的数据装箱到在 3 中创建的直方图图箱中
根据原始 p50 计算每个百分比箱中的加权总计

这符合预期，只是每个yearly_df的总和不等于原始 p50 值。最容易在第一年看到，因为退化的影响没有显现出来。

yearly_df[0].sum()
Out[1]: 99900.0

很明显，最终计算生成yearly_df的东西有一个与箱子大小随对冲变化相关的小错误，但对我来说如何纠正这一点并不明显。期望的结果是，无论退化或对冲价值如何，上述yearly_df的总和始终等于原始 p50 总数（+/- 50% 的边缘箱可能除外，它们的大小不规则，我不希望在正常使用下出现数据）。对这里的更正有什么想法吗？

Python 直方图分箱

移位直方图分档时的小泄漏

Small Leak on Shifting Histogram Binning

评论