random是用於生成隨機數的,我們可以利用它隨機生成數字或者選擇字符串。
random.seed(x)改變隨機數生成器的種子seed。
一般不必特別去設定seed,Python會自動選擇seed。
那麼現在基礎知識有了,我們來實現一個加權隨機算法:
加權隨機算法一般應用在以下場景:有一個集合S,裡面比如有A,B,C,D這四項。這時我們想隨機從中抽取一項,但是抽取的概率不同,比如我們希望抽到A的概率是50%,抽到B和C的概率是20%,D的概率是10%。一般來說,我們可以給各項附一個權重,抽取的概率正比於這個權重。那麼上述集合就成了:
{A:5,B:2,C:2,D:1}
方法一:
最簡單的方法可以這樣:
把序列按權重值擴展成:lists=[A,A,A,A,A,B,B,C,C,D],然後random.choice(lists)隨機選一個就行。雖然這樣選取的時間復雜度是O(1),但是數據量一大,空間消耗就太大了。
# coding:utf-8 import random def weight_choice(list, weight): """ :param list: 待選取序列 :param weight: list對應的權重序列 :return:選取的值 """ new_list = [] for i, val in enumerate(list): new_list.extend(val * weight[i]) return random.choice(new_list) if __name__ == "__main__": print(weight_choice(['A', 'B', 'C', 'D'], [5, 2, 2, 1]))
方法二:
比較常用的方法是這樣:
計算權重總和sum,然後在1到sum之間隨機選擇一個數R,之後遍歷整個集合,統計遍歷的項的權重之和,如果大於等於R,就停止遍歷,選擇遇到的項。
還是以上面的集合為例,sum等於10,如果隨機到1-5,則會在遍歷第一個數字的時候就退出遍歷。符合所選取的概率。
選取的時候要遍歷集合,它的時間復雜度是O(n)。
# coding:utf-8 import random list = ['A', 'B', 'C', 'D'] def weight_choice(weight): """ :param weight: list對應的權重序列 :return:選取的值在原列表裡的索引 """ t = random.randint(0, sum(weight) - 1) for i, val in enumerate(weight): t -= val if t < 0: return i if __name__ == "__main__": print(list[weight_choice([5, 2, 2, 1])])
方法三:
可以先對原始序列按照權重排序。這樣遍歷的時候,概率高的項可以很快遇到,減少遍歷的項。(因為rnd遞減的速度最快(先減去最大的數))
比較{A:5,B:2,C:2,D:1}和{B:2,C:2,A:5,D:1}
前者遍歷步數的期望是5/10*1+2/10*2+2/10*3+1/10*4=19/10而後者是2/10*1+2/10*2+5/10*3+1/10*4=25/10。
這樣提高了平均選取速度,但是原序列排序也需要時間。
先搞一個權重值的前綴和序列,然後在生成一個隨機數t後,可以用二分法來從這個前綴和序列裡找,那麼選取的時間復雜度就是O(logn)了。
# coding:utf-8 import random import bisect list = ['A', 'B', 'C', 'D'] def weight_choice(weight): """ :param weight: list對應的權重序列 :return:選取的值在原列表裡的索引 """ weight_sum = [] sum = 0 for a in weight: sum += a weight_sum.append(sum) t = random.randint(0, sum - 1) return bisect.bisect_right(weight_sum, t) if __name__ == "__main__": print(list[weight_choice([5, 2, 2, 1])])