700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > python 加权随机算法_加权随机算法 - 飞儿飞的个人空间 - OSCHINA - 中文开源技术交流社区...

python 加权随机算法_加权随机算法 - 飞儿飞的个人空间 - OSCHINA - 中文开源技术交流社区...

时间:2019-04-06 09:46:34

相关推荐

python 加权随机算法_加权随机算法 - 飞儿飞的个人空间 - OSCHINA - 中文开源技术交流社区...

加权随机算法一般应用在以下场景:有一个集合S,里面比如有A,B,C,D这四项。这时我们想随机从中抽取一项,但是抽取的概率不同,比如我们希望抽到A的概率是50%,抽到B和C的概率是20%,D的概率是10%。一般来说,我们可以给各项附一个权重,抽取的概率正比于这个权重。那么上述集合就成了:

{A:5,B:2,C:2,D:1}

方法一:

扩展这个集合,使每一项出现的次数与其权重正相关。在上述例子这个集合扩展成:

{A,A,A,A,A,B,B,C,C,D}

然后就可以用均匀随机算法来从中选取。

好处:选取的时间复杂度为O(1),算法简单。

坏处:空间占用极大。另外如果权重数字位数较大,例如{A:49.1 B:50.9}的时候,就会产生巨大的空间浪费。

方法二:

计算权重总和sum,然后在1到sum之间随机选择一个数R,之后遍历整个集合,统计遍历的项的权重之和,如果大于等于R,就停止遍历,选择遇到的项。

还是以上面的集合为例,sum等于10,如果随机到1-5,则会在遍历第一个数字的时候就退出遍历。符合所选取的概率。

好处:没有额外的空间占用,算法也比较简单。

坏处:选取的时候要遍历集合,时间复杂度是O(n)。

方法三:

可以对方法二进行优化,对项目集按照权重排序。这样遍历的时候,概率高的项可以很快遇到,减少遍历的项。

比较{A:5,B:2,C:2,D:1}和{B:2,C:2,A:5,D:1}

前者遍历步数的期望是5/10*1+2/10*2+2/10*3+1/10*4而后者是2/10*1+2/10*2+5/10*3+1/10*4。

好处:提高了平均选取速度。

坏处:需要进行排序,并且不易添加删除修改项。

解决:

这是能想到和能看到的最多的版本,不知道还没有更高效好用的算法。

#!/usr/bin/envpython

#-*-coding:utf-8-*-

#python2.7x

#random_weight.py

#author:orangleliu@-10-11

'''''

每个元素都有权重,然后根据权重随机取值

输入{"A":2,"B":2,"C":4,"D":10,"E":20}

输出一个值

'''

importrandom

importcollectionsascoll

data={"A":2,"B":2,"C":4,"D":6,"E":11}

#第一种根据元素权重值"A"*2..等,把每个元素取权重个元素放到一个数组中,然后最数组下标取随机数得到权重

deflist_method():

all_data=[]

forv,windata.items():

temp=[]

foriinrange(w):

temp.append(v)

all_data.extend(temp)

n=random.randint(0,len(all_data)-1)

returnall_data[n]

#第二种也是要计算出权重总和,取出一个随机数,遍历所有元素,把权重相加sum,当sum大于等于随机数字的时候停止,取出当前的元组

defiter_method():

total=sum(data.values())

rad=random.randint(1,total)

cur_total=0

res=""

fork,vindata.items():

cur_total+=v

ifrad<=cur_total:

res=k

break

returnres

deftest(method):

dict_num=coll.defaultdict(int)

foriinrange(100):

dict_num[eval(method)]+=1

fori,jindict_num.items():

printi,j

if__name__=="__main__":

test("list_method()")

print"-"*50

test("iter_method()")

一次执行的结果

A4

C14

B7

E44

D31

--------------------------------------------------

A8

C16

B6

E43

D27

问题:

例如我们要选从不同省份选取一个号码,每个省份的权重不一样,直接选随机数肯定是不行的了,就需要一个模型来解决这个问题。

简化成下面的问题:

字典的key代表是省份,value代表的是权重,我们现在需要一个函数,每次基于权重选择一个省份出来

{"A":2, "B":2, "C":4, "D":10, "E": 20}

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。