跳到主要内容

6.1.2. The Fallacy of Selection from a Large Database (从大型数据库选择的谬误)

6.1.2. The Fallacy of Selection from a Large Database (从大型数据库选择的谬误)

另一个常见的谬误是使用类似以下方法来选择"随机"数据: 将时钟读取到毫秒, 将其乘以较大质数, 然后将结果用作随机查询表的索引。

问题在于所有这些操作都是确定性的。如果时钟的有效范围仅为10,000个不同的值, 那么在质数乘法之后也只有10,000个可能的乘积。如果这些乘积用作4百万字节数据库的索引, 那么无论该数据库的外观如何, 这些索引仍然选择4百万字节中的最多10,000个不同的值。如果查询数据库产生32比特输出, 似乎会有2^32或大约40亿个可能的输出。然而实际上只有最多10,000个可能的输出。如果平均随机选择, 许多输出都不会被产生。这样的输出就像任何10,000个条目的表一样容易搜索。