Python 将 Counter 中的整数替换为它们占总数的百分比 [重复]

Python replace integers in a Counter with their permillages of the total [duplicate]

提问人:Ξένη Γήινος 提问时间:10/14/2021 更新时间:10/14/2021 访问量:59

问:

我正在尝试使用马尔可夫链生成在任何字典中都找不到的可读的类似单词的随机字符串。

我从GCIDE中提取的总共105230个单词中提取了大量的ngram频率数据,目前这些数据以格式(序列化为)存储,并且利用马尔可夫链涉及从具有权重的集合中随机选择元素。CounterJSON

我已经找到了一种进行加权随机抽样的方法,如下所示:

random.choices(keys, weights=values, k=1)

(keys并从valuesCounter)

但是我发现的所有教程都是使用 实现马尔可夫链的,要使用这种方法,我需要将整数转换为总数的千分率,并确保数字加起来为 1.0。numpy

正如我所说,我想要千分格式的数字(小数点后三位),并且 s 必须加起来为 1.0 才能使该方法起作用。floatfloatnumpy

我可以将数字转换为 s,但由于 53 位双精度浮点格式固有的精度限制,数字加起来并不总是 1.0。float

例如:

initcon = {'c': 7282,
 'm': 6015,
 'd': 5866,
 'p': 5699,
 's': 5294,
 'b': 4103,
 'r': 4097,
 'h': 3926,
 'l': 3352,
 't': 2841,
 'f': 2699,
 'n': 2171,
 'g': 2051,
 'pr': 1991,
 'v': 1626,
 'tr': 1337,
 'w': 1337,
 'st': 1153,
 'ch': 1121,
 'cr': 827,
 'br': 803,
 'j': 799,
 'sp': 746,
 'gr': 694,
 'k': 676,
 'ph': 651,
 'pl': 645,
 'fl': 622,
 'th': 594,
 'sh': 572,
 'q': 553,
 'cl': 538,
 'fr': 522,
 'sc': 516,
 'bl': 494,
 'gl': 428,
 'dr': 421,
 'z': 376,
 'wh': 338,
 'str': 335,
 'sl': 325,
 'sw': 245,
 'rh': 210,
 'sk': 167,
 'sn': 165,
 'scr': 148,
 'sm': 143,
 'x': 143,
 'chr': 141,
 'kn': 139,
 'thr': 125,
 'sq': 124,
 'ps': 123,
 'wr': 113,
 'sch': 106,
 'tw': 95,
 'spr': 73,
 'spl': 72,
 'shr': 66,
 'sph': 65,
 'chl': 54,
 'pt': 51,
 'gn': 49,
 'phl': 41,
 'scl': 39,
 'gh': 37,
 'pn': 37,
 'phr': 33,
 'kr': 30,
 'kl': 22,
 'dw': 16,
 'kh': 15}

total = sum(initcon.values())

initcon = {k: v/total for k, v in initcon.items()}
print(sum(initcon.values()))

它打印 .0.9999999999999999

我怎样才能使数字加起来正好是 1.0 并使它们每个小数点后 3 位?initcon

python-3.x 浮点 精度 floating-accuracy

评论

0赞 ConnerWithAnE 10/14/2021
如果你想让它们四舍五入到小数点后 3 位,你可以这样做round(value, 3)
0赞 Eric Postpischil 10/14/2021
“Permillage”是一个罕见的词,在使用时应该定义,你使用的数字不是Permillage。分区的千分率之和加到 1000,而不是 1。例如,对于占整体的十分之一、四分之一和 65% 的碎片,千分位数为 100、250 和 650,总共为 1000。
0赞 Eric Postpischil 10/14/2021
Re “How can I can make the numbers at initcon 加起来正好是 1.0 并让它们每个都有 3 位小数?”:当使用基于二进制的浮点时,这通常是不可能的。0 和 1 之间只有三位小数的数字是 0、.125、.250、.375、.500、.625、.750、.875 和 1。例如,没有值为 .123 的基于二进制的浮点数。
0赞 Eric Postpischil 10/14/2021
除了我将其标记为重复的问题之外,我记得还有一个重复的问题得到了相当多的讨论,但我目前找不到它。也许其他人可以。

答:

0赞 tzinie 10/14/2021 #1

我在工作中也遇到了类似的问题。我们发现将总和保持等于 1 的唯一方法是添加一个额外的步骤。

initcon = {k: v/total for k, v in initcon.items()}

您可以检查余数是多少,以便sum(initcon.values())==1

remainder = 1-sum(initcon.values())

然后,您可以将此数字添加到任何密钥中。你可以用方法随机选择它。所以,最后,你会做这样的事情:random.choice

initcon[random_key]+=remainder

评论

0赞 Eric Postpischil 10/14/2021
remainder可能是负数,将其添加到随机元素中可能会使该元素为负数。