假设我需要创建一个巨大的(大约一百万)随机数列表。但不仅仅是随机数,而且是不等的随机数。问题是:最快的方法是什么?
选项:
1:(添加前检查每个元素)
import random
nums = []
for i in range(10 ** 6):
while True:
x = random.random()
if nums.find() + 1:
nums.append(x)
break
else:
continue
2:(生成整个列表后检查)
import random
while True:
for i in range(10 ** 6):
nums.append(random.random())
if list(set(nums)) == nums: break
else: continue
3:(野蛮☺)
import random
nums = []
x = random.random()
for i in range(10 ** 6):
nums.append(x * i)
也许还有一些使用特殊方法的其他选项,也许来自其他模块,专门为生成不相等的数字而设计。如果有的话请告诉我。
那么哪个选项更好呢?或者有更快的算法吗?
第一个选项
人可以猜出它的含义
if nums.find() + 1:,但编译器不能。表达式没有提到x,Python 中的列表没有方法find。如果我们假设其含义是什么if x not in nums:,那么该方法就有效。在我的电脑上,它将在一个半小时内运行。第二个选项
如果条件
if list(set(nums)) == nums:成立,那么我们确实会得到 中一百万个唯一数字的列表nums。不幸的是,这种组合list(set(...))在某种程度上混淆了它的论点。如果所有数字都是唯一的并且它们的顺序nums与结果一致,list(set(...))则相等性成立。该事件发生的概率是多少?1 / (10 6 !) ≈ 10 -5565709。循环的一次迭代大约需要一秒钟。您将需要等待大约 10,5565709秒才能收到结果。宇宙年龄 - 10 18秒 你得等很长时间。但这只是故事的一半。即使剩下这个时间,也很可能无法生成所需的组合。我将省略原因以免让您感到厌烦。结论——该方法不起作用。如果用它替换条件
if len(set(nums)) == 10 ** 6:,该方法将有效并且速度非常快 - 它将有效大约一秒钟。第三种选择
这些数字不是随机的。如果这样的事故适合你,那很好。但细心的观察者会注意到,这些数字在以一定的间隔增长。总之,缺点太明显了。
解决方案
大约0.69秒。
其中,0.16s 用于生成本身。剩下的 0.53 秒是与大众一起工作的。
此选项稍快一些 - 0.6 秒:
甚至更快 - 0.55 秒:
第二个示例是否通常需要多次迭代?在最后一个示例中,您需要多久进入一次循环?这两个问题的答案是相同的:需要补充该集合的概率是6·10 -5。换句话说——很少。如果我的计算机在循环中生成随机数集,则需要平均每两个半小时添加一次到随机数集中。
PS老实说,我更喜欢第一个选项。简单且足够快。
PPS如果在生成过程中添加内存限制,将会出现一个更有趣的问题。
random.sample()可能适合你
https://docs.python.org/3/library/uuid.html
没有人写过任何关于使用 进行混合的文章
shuffle。嗯,那我就写吧。纯Python:
长——大约0.75秒。
但我们有
Numpy:快速 - 大约 30 毫秒
Google Colab。