中译【梦提供的专家分析文件】梦对开幕式的回应

[中文字幕1080p]梦在开幕式上的回应

执行摘要:人们开始质疑他是否修改了游戏的某些部分,因为他注意到“我的世界”快跑梦想的一些直播非常幸运。为了确定“幸运条”的真实概率,需要进行详细的统计分析。minecraft speedrunning团队发布了一份官方报告,声称即使偏差得到纠正,dream获得结果的最高几率为1/7.5万亿。受dream的委托,我审阅了原始报告,并进行了第二次专家统计分析。我认为这个分析更准确。如果调查是以任何两种方式进行的,那么,如果只调查了六个“幸运”数据流,就不太可能产生过去一年中任何玩家现场广播的一小部分。在我的分析中,更高的概率来自于高速溜冰运动员易货时的高保真模拟和一些偏差的改进修正。如果讨论的所有11个流都包括在内,则低概率事件与随机机会一致。选择这些可能性取决于外部因素,但梦想不会欺骗的可能性是7.5万亿,这太高了。

摘要

我研究了《我的世界》超速跑步团队(MST)的报告,该报告调查了称为Dream的超速跑步者。 MST报告认为Dream修改了自己的跑步,但Dream拒绝了。 Dream委托此独立分析获得第二个专家意见,尽管他没有直接影响它。我发现MST报告存在两个主要问题:它不能说明交易成功后是否停止以物易物,并且不正确地应用了一些偏差修正。如果使用我的最佳估计,贝叶斯统计和偏差修正进行的独立分析,则任何Minecraft Speedrunner在过去的一年中都会像Dream那样经历过两组不太可能发生的事件,如果游戏在进行之前进行了修改,则可能性更高,约为1亿。六个最终流。较高赔率的两个主要原因是:1)保真度越高,占出10颗珍珠珍珠后的“以物易物”(约100倍); 2)对可能调查的随机方面的数量和有意义的实时流Speedrun比较。特别是梦,经历了这种极其罕见的事件,已经因为调查他的事实而被解释,因为他的流似乎不太可能。与其他赛车手的记录进行比较不应被视为独立证据。 《 MST报告》假设Dream的返回到快速运行提示了修改,因此仅考虑了六个返回后流。之前的五个流与默认概率一致。如果这些都包含在分析中并应用了偏差校正,则没有明显的证据表明游戏已被修改。要确定哪种可能性最合适,就需要评估几率-与流的结果无关-比较Dream是否会在所有11个流的开始与最后6个流的开始进行修改。试图纠正可能考虑任何子集的偏见的尝试将Dream结果的概率更改为1000万分之一或更高。概率不是太极端,以至于不能完全排除Dream使用未修改概率的任何可能性。但是,即使在纠正偏差的情况下,假设在比赛的最后六轮之前以两种方式修改游戏的假设的可能性也很小。尽管这可能是由于极端的“运气”造成的,但可能性很小,这表明另一种解释可能更合理。一种明显的可能性是梦(有意或无意)作弊。评估此可能性完全取决于所提出的其他解释范围,但超出了本文档的范围,但它很大程度上取决于Dream决定在第五和第六之间修改其运行的概率(忽略概率)( (共11个)直播。这是一个自然的突破点,因此这个假设是合理的。无论如何,MST报告得出的结论是,由于本文中讨论的多种原因,Dream不会作弊的可能性至多为7.5万亿分之一,这太极端了。

 

 

【中文字幕1080p】Dream关于开挂的回应

梦想调查结果批判

光激发

2020年12月21日

 

 

 

内容

1 这是什么报告? 2

2 谁写的这份文件? 3

3 本文档的目标是什么? 3

4 统计前奏 4

4.1 统计建模 4

4.2 假设检验与贝叶斯建模 5

5 统计分析的背景 5

6 二项分布的不恰当性 6

6.1 烈焰棒掉落的二项分布 9

6.2 末生珍珠的概率评估 9

6.3 停止标准 10

6.4 烈焰棒概率 10

6.5 联合概率 12

7 采样偏差的不正确校正 12

7.1 幸运条纹的校正不正确 12

7.2 幸运条纹的实际概率 13

7.3 包括所有11个流 13

8 其他更正 14

8.1 有多少个随机事件很重要? 14

8.2 组合校正 15

8.3 与其他Speedrunner相比 15

9 结论 15

A 代码段 17

 

这是什么报告?

该报告是对《我的世界》 Speedrunner“ Dream”的讨论1  在进行Minecraft 1.16随机种子无故障加速运行的直播中,他们在看似特定的时间内经历了非常低的概率事件。极为罕见的事件激起了我们的兴趣,并可能需要做出解释,例如,目的是为了确定Dream的速度运行是否对官方排行榜来说是可怜的。

《 MST报告》试图以多种方式解释可能存在的偏见,强调他们渴望尽可能地偏向于梦想。本文档试图解释有关MST报告中使用的统计方法的一些主要问题。解决这些问题将使Dream蒙骗的可能性大大提高,尽管我没有使用改进的方法重复进行MST报告分析。该报告还提供了独立的统计分析。该报告是由Dream撰写的,但是他对结果没有直接或不适当的影响。例如,Dream提供了有关此报告的反馈,但不是该报告任何部分的作者。

 

谁写的这份文件?

只有一位作者,为了简化说明,我将使用第一人称代词。

首先,必须披露该报告是Dream寻求并委托的。尽管有这样的经济支持,但我并没有将任何精力集中在免除Dream上,并表达了我的观点,即Dream自己主要对第二种专家意见感兴趣。一个主要目标是提出反驳

–在客观上合理的情况下–针对MST报告。可以看到该文件类似于科学家在同行评审的期刊文献中提供的“裁判报告”。

Dream委托此报告并提供直接反馈,但不是合著者。

 

本文档的目标是什么?

本文的目的是讨论在MST报告中执行的概率计算并提供第二意见。没有明确的目标可以使梦境得到释放或得出更有利的结论。

本文档的目标不是:

认为应恢复Dream的speedrun。梦向我表达了他不关心自己的排行榜位置,而是更关心他的性格。

提供证据或推测,尽管评估了MST报告的准确性,但仍存在偏差。

调查MST报告对代码分析的讨论(第9节)。尽管作者也是代码分析这些方面的专家,但是对此进行研究并不是本文档的目标。一种

简短的阅读说明此部分是正确的。我将假设应该是随机的数字实际上是随机的。

作者认为,《 MST报告》写得很好,并且在评估Dream赔率方面基本上是正确的。它提供了一个对外行和专家都适用的解释。但是,这里有几个问题和不正确之处。

 

统计前奏

初步的统计讨论将对您有所帮助。我不会审查MST报告第7节中的基本统计分析信息,因此,如果您不熟悉概率和统计的基础知识,则不妨从这里开始。

与所有客观和科学的统计分析一样,我认为没有任何运气是公理。运气只是一个与低概率事件相关的概念。但是,有时用“运气”或“运气”来传达概率的想法很有用,我将在本文档中进行交流。

要记住的另一个重要概念(在此报告中以及在生活中)是每天发生十亿个事件中的一个。人们中奖. . .有些人多次中奖!仅仅因为一个事件很少发生,甚至令人惊讶地罕见,并不意味着它应该被拒绝。

计算概率的目标是使我们能够得出结论并做出决策。如果您的可能性是十亿分之一,则您的朋友可能会决定相信梦,但是您需要在“梦”之前与其他人“千分之一”。结果,一些解释的责任落到了读者身上。

 

统计建模

概率计算很难。做某事可能没有一种“正确”的方法。很容易违反某些隐藏或未知的假设。对于不同的方法和结果,存在进行健康辩论的空间。

统计分析中的黄金标准方法被称为“前向建模”,它使用事件的模拟来研究概率。正向建模作为一种方法的适当性和准确性很难质疑。相反,问题应该是关于正向模型的保真度:它如何准确地描述实际导致观察到的数据的情况?在实践中,通常通过比较两个不同的模型(通过评估哪个模型具有更高的保真度)来处理。理想情况下,竞争前向模型都运行以查看1)如果存在差异,以及2)如果差异有意义。在考虑正向模型时,记住一个通用的统计格言也很重要:“所有模型都是错误的,但有些模型是有用的。”总是有一种方法可以改善模型对现实的近似度(例如,所有模型都是错误的),但是在某些时候,您会达到一种可以接受且适当的保真度(例如,有用的模型)。

大多数规则,统计法则和方法基本上都是完整正向建模过程的捷径,例如,使用数学方程式进行精确或近似的“模拟”。当然,有些近似比其他的更好。许多近似值都有隐藏或不成文的假设,可能会无意间违反这些假设,从而导致结果不准确。

在开发越来越高的保真度的正向模型的过程中,一个缺点变成了计算可处理性。一些前向模型花费的时间太长,以至于如果没有不合理的计算时间就无法完成。在现代机器上,本文档中的某些模型需要大约一个小时才能完成,而由于其复杂性,甚至没有考虑其他模型。

为了评估概率,一种通用的正向建模技术被称为蒙特卡洛方法3。在这种方法中,使用随机数生成了大量的模拟。然后计算这些数字的一些有趣的属性(有时称为“统计”)。通过将该“统计”的分布与实际数据中的分布进行比较,可以评估概率(称为“ p值”)。 “ p值”可以解释为事件随机发生的概率。关于蒙特卡洛模拟,要记住的一个重要方面是,它们基于随机样本,因此

从仿真到仿真都有一些变化。这种变化的规模通常是成功次数的平方根,因此,就像我在分析中所做的那样,通常使用105-107模拟。

例如,如果某个统计值o√f在106个模拟中发生了9次统计,则不确定性

结果可以近似为 9 = 3,例如,p值将为9±3×10−6。可以更高的精度

通过运行更大的模拟获得。在本文档中,我的目标是获得2因子的精度。

也就是说,“ 40亿分之一”的赔率不应被解释为与“ 20亿分之一”或“ 80亿分之一”实质性不同,而应与“ 200亿分之一”不同。将此概念与通过使用更多数字(“有效数字”)传达更高的精度的标准科学实践相结合,我的估计值通常只会列出1-2位的精度。

 

假设检验与贝叶斯建模

尽管没有以这种方式明确编写,但是MST报告通常将重点放在假设检验范式的计算上。也就是说,他们提出了一个零假设,“梦在他的所有运行中都具有未修改的概率”,然后尝试通过计算“ p值”(在某些假设下零假设被拒绝的概率)来拒绝该假设。

另一个概率范例是贝叶斯统计。它没有将数据与随机集合进行比较,而是比较了“模型参数”的不同选择的相对概率。例如,我使用贝叶斯模型,其参数是“将珍珠珍珠的概率提高了多少?”并以此来考虑未增强案例的可能性。选择该参数是因为它自然地将未修改和已修改的情况区分开。选择它作为参数并不意味着概率增加。

在本文中,我没有时间讨论这些不同的统计范式之间的长期争论以及何时应用它们。简短的版本是调查概率是否已修改的另一种方法是尝试确定使用了哪些概率。然后可以计算出特定概率增强(包括不增强)的概率。

 

统计分析的背景

仔细阅读MST报告并与Dream进行通信后,重要的是要清楚地确定我正在调查的内容。

像其他数百个Speedrunner一样,Dream定期播放和直播各种目标和Minecraft的多个版本。监视所有可能的不适当修改的情况所需的大量数据收集是很棘手的。结果,只有当某人似乎经历了有益的极低概率事件时,才会触发调查。在这些调查中,可以收集基本数据,但只能收集特定流的特定方面的内容,并特别关注看起来最不寻常的内容。

低概率事件经常发生。如果您考虑每位Minecraft玩家,那么每小时都会发生多次“完美”的末日珍珠和大火掉落记录(2/2个末日珍珠易货和7/7的大火棒掉落),因为这有600,000的几率,Minecraft是每天玩了数百万次。考虑到Minecraft的所有世界,以及运气发挥作用的多种方式,甚至每天发生的万亿事件中也有一个。

当然,这些事件中的绝大多数发生在镜头外,没有经过仔细检查。经历一次罕见的事件-如上述完美运行-然后在Twitter上举报并不奇怪。这让人想起20世纪中叶杰出物理学家理查德·费曼(Richard Feynman)的故事,他指出了概率谬误。引用他的话

你知道,今晚最神奇的事情发生在我身上。我正在去演讲的路上来到这里,我是从停车场进来的。而且您不会相信发生了什么。我看到一辆车的牌照是ARW357。可以想象吗?在该州数以百万计的车牌中,今晚我有机会看到那个特定的车牌吗?惊人!

费曼以惯常的教学方式,用讽刺来说明要点,向科学家传授怀疑主义的重要性。当然,这种情况并不令人惊讶或异常,因为您可以替换

带有任何车牌的“ ARW 357”都说同样的话。这里的关键点是,不太可能在事件发生后识别出不可能的事件。但是不太可能预先预测一个不可能发生的事件。例如,如果我说“您看到的下一个车牌将是WPB 162”,那么我必须非常幸运地证明这一点是正确的,因为我预先预测了一个特定的不太可能的序列。 (尽管如果有成千上万的人阅读此文档,其中一个人可能首先会看到WPB 162!)。

因此,调查Dream唱片的一个主要挑战是,正是由于看似不寻常的原因而对其进行仔细审查的任何系列视频流都会产生强烈的偏见。这就是所谓的“樱桃采摘”,在对触发事件的任何分析中,由于它们不太可能,因此是合理的考虑。如《 MST报告》所述,尽管仅选择调查异常事件,也可以纠正此偏差并估计概率。明确地说,这不是MST是客观的还是隐蔽的议程(支持或反对Dream)的问题,尽管这些因素也可能影响他们选择进行调查的选择,这可能会导致产生结果的可能性应该被解释。出于本文档的目的,我对MST的动机不做任何假设或主张,只是他们出于允许自己选择调查一组特定运行的原因,正是因为它们的概率极低。

相互作用的变量和组件的数量太复杂,无法归结为“这是Dream修改其流的可能性”的单个答案。因此,MST报告的目标是识别并尝试研究和减轻最强烈的潜在偏见。他们专注于以下方面:

具有基于结果的停止标准的事件概率的非二项式性质。

他们本来会调查这种概率较低或更低的报告,因此应考虑累积二项式概率(假设检验的常见选择)。

他们可以研究连续流的任何子集,并从11个中选择一组特定的6个,因为这6个概率较低。

他们本可以调查大约1000个Speedrunner中的任何一个,但仅调查此案例,因为它不寻常。

他们本来可以研究这些运行的各种可能方面,但是选择研究ender珍珠,因为这似乎是修改概率的地方。烈焰滴后来被添加到调查中,因为它们与末影珍珠有关联,而且看起来可能性很小。

MST报告的强项是它声称,尽管在许多方面都给Dream带来了疑问的益处-这使原始概率增加了约1000万倍(请参见等式11和16)-未经修改的概率运行仍然极低(约7.5万亿分之一)。

我在这里批评MST报告使用的一些方法和得出的一些结论。我的批评包括

Ender Pearl易货交易不应以二项式分布建模,因为最后一个易货交易不是独立的,而且与其他易货交易相同。

他们基于所选连续流的数量校正p值的方法不合适。

他们并不总是使用专门为查看异常事件而设计的适当统计信息。

他们的用于确定可比运行进行调查的方法可能过于严格,导致赔率降低。

这些和其他问题将详细讨论。

 

二项分布的不恰当性

为了计算准确的概率,我们需要使用一个模型(无论是数学模型还是蒙特卡洛模型),该模型可以捕获尽可能多的实际过程。让我们现在考虑收集ender珍珠的情况

通过佩林物物交换。 《 MST报告》提出了一个模型,其中每个易货贸易都是完全独立的,并使用二项式模型来计算各个运行过程中汇总的概率。

但是,在实践中,Dream和其他Speedrunner会与猪笼草交换,直到它们达到所需的末影珍珠数(通常为10-12),然后立即停止,从而使其他易货贸易未完成。在正式报告之外,已经就如何适当考虑这一问题进行了一些讨论。一方面,必须注意避免赌徒的谬论,因为一个地区的不幸会使您在(独立的)地区更加幸运。因此,任何“摄像机外”的运气实际上都与另一个选择的易货贸易无关。例如,上一个易货是一个末代珍珠的事实并不会影响下一个易货的概率。

但是,以前的易货是末代珍珠的事实确实影响了制造的易货数量。因此,将珍珠数量与易货数量进行比较可能会受到其他易货结果的影响。如果序列中的最后一个易货品始终是末日明珠(因为走行者离开了),那么就不能断言所有易货品是完全独立且完全相同的。没有相同的独立易货贸易,二项式模型是不合适的。

考虑一下速度运行易货过程中发生的两种模拟:

“以物易物停止”模拟-收到10-12颗珍珠珍珠后停止物物交换

“二项式”仿真-每个易货交易都是相同的,易货交易的数量与其他易货交易的结果无关

之所以称为二项式仿真,是因为它已通过二项式分布很好地建模。但是,“以物易物停止模拟”更准确地反映了速度运行中的物物交换。两种模型都不是完美的,但是以物易物停止模拟的保真度更高,因此比二项式模拟更有用。

描述这种差异的一种方法是作为易货贸易的“停止标准”。 MST报告(部分

和附录B)讨论了可选的停止,但这完全集中在Dream最终成功运行后停止,而不是在每个交换会话中停止。该单独的停止标准将在下面讨论。为了清楚起见,我将在一次易货会话中收到10到12颗ender珍珠后停止称为“易货停止”。

比较这两个模拟结果可以看出,考虑到珍珠色时,它们确实给出了不同的结果。下面给出了非平凡仿真的代码,结果以图形方式显示在图1中。2.     易货停止仿真的确表明,获得所需数量的ender珍珠所需的易货较少,因为您的直觉会告诉您是否在ender珍珠易货之后立即结束。这也有助于解释为什么显示Dream的物物交换结果的图表相对于末影珍珠似乎不平衡. . .他们没有考虑到末影珍珠之所以特别,是因为它们是易货贸易的明确目标和预定目标。

我有一个近似的模型,可以给出给出的珍珠数量(请参见下面的代码段),该数量与观察到的分布相匹配,并由希望匿名的贡献者建议。该模型的变化不明显。在此模型中,以4到7颗珍珠的概率随机分配。要达到10颗珍珠,需要81%的时间中有2个以物易物,另外19%的时间需要3个以物易物。当目标是达到12颗珍珠末时,这需要2%的易货品60%的时间和3%的易货品40%的时间。由于我的模拟总是以成功的珍珠易货交易结束,因此可以使用概率规则来计算概率。例如,对于12颗珍珠的情况,我已经确认,我的蒙特卡洛模拟分布给出的预期结果是1次成功易货的二项式分布的0.6倍加上2次成功易货的二项式分布的0.4倍,所有这些乘以ender珍珠易货(最后一个易货)。

笔者认为,以物易物制止的考虑是客观的,因此保真度更高,因此模拟更准确。这使Dream的赔率不太极端。但是,即使使用“以物易物”,Dream似乎也特别幸运,因为所需的典型物物交换数量约为20个,而Dream的22个交易时段(涉及的六个流)几乎总是比这更好。

请注意,这些模拟仅考虑了以物易物为目的,即目标是获得一定数量的ender珍珠。易货停止模拟不适用于

物物交换的目标不是获得10颗ender珍珠

【中文字幕1080p】Dream关于开挂的回应

图1:两种针对猪珍珠交换的enderlin珍珠的模拟比较。在蓝色的“以物易物模拟”中,金质物在接收到10个ender珍珠后立即停止。在红色的“二项式仿真”中,每个易货贸易,包括最后一个,都是完全独立的。在这两种情况下,x轴代表金的量,y轴代表成功达到10颗珍珠珠(在二项式情况下为2易货)。 “以物易物停止模拟”可以更准确地再现速滑运动员在以物色珍珠交换时的实际操作。可以看出,在“易货停止模拟”中,典型的黄金易货交易数量较低。使用二项式模拟来评估发芽珍珠易货的可能性,使速跑者看起来比在进行易货直到达到10颗发芽珍珠时更“幸运”。当使用12颗珍珠的目标时,差异较弱,但仍然很明显。

在易货贸易中未获得10颗ender珍珠

成功的易货贸易后,易货贸易持续良好

考虑进行多次单独尝试以获取10颗珍珠珍珠(例如,结合MST报告附录A中的多行数据)。

如果没有关于属于这四个类别的易货交易动机和背景的更多信息,则二项式模型可以很好地近似这些情况下的概率。对于Dream,我将假设他的目标始终是获得10颗ender珍珠,因此,仅当未获得10颗珍珠且易货贸易持续超过10颗珍珠时,才使用二项式模型。

我还考虑了一种情况,目标是12颗珍珠珍珠,并且与Dream流的关联概率降低了大约10倍。这是有道理的,因为“以物易货”模拟强调了以更少的金来物易货的概率。从收集的珍珠末分布中可以看出,一旦获得10颗珍珠,Dream几乎不会继续交易。因此,十个珍珠的概率更适合于仿真。

 

烈焰棒掉落的二项分布

对于火焰棒掉落,我可以应用与上述相同的推理。点火过程通常会持续进行,直到获得7根点火棒,然后Speedrunner才会继续。因此,最后的火焰下降很可能是成功的,因此不能完全独立于其他火焰,从而使二项式模型不合适。

当我以与对色珍珠相同的方式模拟此过程时,我发现“大火滴停止模拟”和“二项式模拟”之间的概率没有显着差异。有两件事都使二项分布更好地近似了大火的情况。首先,6/7火焰棒滴是独立的(因为它们不是最后一滴),与末节珍珠的1/2情况不同。其次,闪耀棒掉落概率为0.5远远高于(enders)珍珠的200.0473,因此,“最后一次掉落是我一直在寻找的那个”引起的失衡不那么重要。因此,“火焰滴停止”模拟与二项式模拟没有显着差异也就不足为奇了。在计算中,我使用了更简单的二项式概率。

 

末生珍珠的概率评估

现在,我可以计算出有关Dream的六个流的成功交易数量的概率。当达到10个末影珍珠时,我使用“易货停止”概率,当未达到时,则使用二项式概率。

请注意,在第二种流的末尾有一种情况,其中以12枚金币交换了5套ender珍珠。有关此方面的一些数据收集表明,获得了4套ender珍珠。无论哪种方式,在任何情况下,这显然都是低概率事件,将其分配给以物易物与二项式概率可以使结果有一个数量级的差异。可以说,易货交易不应适用于这种情况,即使Dream成功后也有可能停止交易。因此,这种情况是用二项式概率建模的。

不幸的是,易货停止概率的使用使整体概率的计算更加复杂。不再将所有的易货交易合并为一个计算。然后,这不仅需要计算每个交易时段的概率,还需要计算交易时段之间已使用/可用黄金的分布。尽管尝试了这种方法,但这很快就给计算概率带来了挑战,即使是模拟也无法有效地解决这个问题。

由于上述原因和其他原因,我选择使用贝叶斯统计模型对概率建模。统计文献中有许多论点支持使用贝叶斯统计来计算像这样的低概率事件。

在贝叶斯模型中,我没有计算Dream不使用修改的概率,而是比较了不同可能修改的概率。通过比较可能的“末日珍珠概率提升”的范围(1-5),我可以评估概率提升/增长等于1.0的概率,例如,这些概率是Minecraft的默认概率。使用参数进行珍珠珍珠修改的选择反映了一种理解理解观察到的数据将发生的可能性的愿望,并且不暗示该概率已被修改。

由于贝叶斯概率计算是相对的,因此常数因子(例如将要划分的交易数量,将交易总数划分为特定的观察数据)会被抵消。特别是,我遵循通常的贝叶斯技术并计算准确获得观测数据的概率,即使用二项式概率质量函数代替累积分布函数(在非贝叶斯方法中使用)。这使我可以专注于不同增强的相对后验概率,与所有其他情况相比,boost = 1的概率表示没有修改的概率。

(对于那些在贝叶斯统计中精明的人,我在将概率从1提高到5之前先使用了平坦/均匀/高顶礼帽,并确认这些限制不会显着影响解释。在这种情况下,这仅意味着计算网格上的可能性从1到5,并且由于先验概率是平坦的,所以它们等于相对后验概率。该先验概率不包括对偏差的任何更正或Dream修改其概率的任何观点。)

将这种技术应用于来自六个流的观测数据会导致后验分布,该后验分布在3的概率提升附近达到最高峰。在boost = 1时,Dream争论的默认情况下,概率仅为3 10−10。对仅使用二项式概率的情况进行快速检查,得出5 10−12。鉴于在这些流中看到的“以物易物”模型在低数量的黄金下支持概率的情况下,将概率降低100倍是明智的。这些概率也与MST报告估计的概率相似,并且与它们的5.65 10−12的天真的估计值具有最直接的比较。如预期的那样,使用“以物易货”制止准则会增加概率,尽管某些差异也可能归因于贝叶斯建模方法。

但是,这种可能性并不能说明这些流被选择进行调查的事实,特别是因为它们看起来可能性很小。也就是说,3 10−10不是Dream修改了ender Pearl概率的概率。

 

【中文字幕1080p】Dream关于开挂的回应

停止标准

有多种可能的方式来考虑和实施停止标准。主要的挑战是,一旦超速跑者变得特别幸运,他们就更有可能选择停止比赛。梦见这是他的制止标准。确实,Dream的最后一搏非常幸运,只需要3个黄金易货就能获得2个ender珍珠易货。由于超速跑者的最终跑动可能性很小,因此需要进行校正。 MST报告使用详细的止损算法来识别可提供异常低p值并允许在任何这些情况下发生止损的任何交易组合。这是一个合理的近似值。

在我的设置中,实施此特定的停止标准不切实际。相反,我提出了一个更简单的情况:删除最后一个数据点。这消除了大部分问题,因为Speedrunner无法提前知道下一次运行会很幸运,因此倒数第二个运行实际上与所有其他运行相同。删除最终数据点可得出贝叶斯概率,即在

3 10−9,比保留最后一个数据点好大约十倍。这是明智的做法,因为上次运行异常成功。此停止条件从数据中删除了另一个非常幸运的案例,因此可能会不适当地增加概率。为了只使用一个具体的数字,我选择将差异分开,并使用10−10的概率作为Dream的最后六个流中没有渲染珍珠的可能性。

 

烈焰棒概率

回想一下,“ Blaze Rod Drop Stopping”案例实际上与二项式案例相同。使用我的贝叶斯概率方法评估这两者,得出的答案是3 10−8。闪耀杆概率的峰值(先前评估为0.5到0.9,限制范围不影响答案)在0.7左右。

从32个案例中删除最后一个闪耀的棒状下降点是没有好处的,因此该概率没有显着差异,因此我使用上述值。

图2:为了解释Dream的数据,需要增加多少贝叶斯概率来估计末次珍珠交换的概率。注意,在统计计算中使用概率提升并不假定已应用提升; x轴上的boost = 1情况是未使用任何修改的情况。正如我在正文中进一步讨论的那样,这是一个非常低概率的事件,这并不完全出乎我们的意料,因为梦的数据是专门选择的,因为它是低概率的。此计算不包括删除上一次尝试。该计算表明,未提高发色珍珠概率的概率约为3×10−10。


联合概率

由于火焰棒与末节珍珠一起使用,因此将它们一起考虑是有意义的。在讨论MST报告的另一个问题后,我将在下面实现此目的。

 

采样偏差的不正确校正

【中文字幕1080p】Dream关于开挂的回应

幸运条纹的校正不正确

《 MST报告》假设Dream在11个相当相等的流中的前五个流中打开了修改功能,“这是因为人们相信,如果他作弊,那很可能是从返回流的角度出发,而不是从第一次运行开始。” (第8.2节)然后,他们决定削弱这一假设-试图为Dream创造一个最佳情况-而是研究假设k个连续的11个流被修改了。

然后他们提出,n个流中的p值的上限为(其方程式4)

pn ≤ (1 − (1 − p)

n(n+1)

2 (1)

因为连续流有n(n + 1)/ 2个可能的选择。首先,让我们简化该表达式(及其等式5),注意纸上的所有概率都非常小,因此写出(1(1 pxxp。也就是说,选择任何子流,选择任何运行器以及选择任何类型的事件进行分析(分别属于MST报告第8.2、8.3、8.4节和公式4、5和6),都是非常相似的更正。他们被称为Bonferroni校正,基本上是说,当您想通过尝试N次来拒绝概率为p的零假设时,应使用p / N的p值。如果您有更多的机会,您更有可能遇到低概率事件。请注意,该方法与假设检验的前提并不严格一致(因为通常在分析之前选择p值),但这并不意味着它没有意义. .

MST报告声称pnnp在概率上设置了严格的梦Dream以求的上限,因为只有在所有n个测试都完全独立的情况下才能实现相等性。由于不可能完全独立,他们声称pn<np,并且概率是一个上限。

但是,在这种情况下,Bonferroni校正并不总是准确的,因为它不仅假定p的所有值都是独立的,而且还假定它们都相等4。这是对实际子集的p值的非常差的近似,因为集合中的每个事件的概率都小于1,这意味着不同长度的子集将具有非常不同的概率。最低的概率将始终来自所有11个事件。

幸运。

当概率比抛硬币的50/50概率更大时,可以看到数值模拟与建议的更正之间存在更大的差异。例如,三个连续的1%概率事件的概率将具有p值(根据等式2 以下)的1.1×10−4。的

Bonferroni校正后的概率为8.8×10−4,但是蒙特卡洛模拟给出的概率为70×10−4。

4从技术上讲,Bonferroni校正应为所有可能的p值的总和,但这在实践中很难计算。

这些数字表明,抽样偏差可能无法得到正确的解释,我的调查不支持MST报告中给出的p值尽可能有利的说法。

另一方面,选择任何幸运的“秘密”的好处实际上并不符合他们的主要假设,即梦在特定时间修改了自己的跑位。其他更正(针对Speedrunner和p-hacking的修正)则更现实地加以考虑,下面将对其进行详细讨论。

 

幸运条纹的实际概率

极值理论的统计5  着重于发现异常事件的可能性。例如,与从n个独立事件的乘积中获得z值(概率为0到1)相关的p值(例如p值)为:

   z(-ln(x))n−1

dx公司 (2)

0 (n − 1)!

当使用乘积组合不同的独立p值时,我将使用此方程式2 因为它更合适。对于n = 2的情况(例如,末节珍珠和火焰棒的p值),该方程式简化为z(1 ln z)。也就是说,除了将两个p值相乘之外,还应该将概率向上调整(1 ln z)。在这种情况下,概率通常很小,ln z可能很大(大约10-50),并且要包含在内很重要。在测试值时,我注意到在某些条件下该结果可能与MST报告第10.2.3节中讨论的费舍尔合并概率方法非常相似。我没有试图证明这一点,但是很高兴指出,我的组合p值的方法得出的结果与MST报告所使用的方法相似。

 

包括所有11个

在考虑这些结果之前,您可能会觉得对这个问题的个人看法有所帮助。如果概率被修改,Dream在此时的速度运行中做了什么机会?以后再说。

这5个流的ender珍珠和火焰棒数据是平稳的:12/356 ender珍珠贸易和73/134火焰棒掉落。这些情况下的累积二项式概率(即使不应用易货停止校正)也为0.86和0.13,例如,这些与机会完全一致。仅对这5个流进行分析将显示出典型的结果。

将所有11个流合并在一起,总共可获得618个黄金易货交易,从而进行了54个ender珍珠交易,得出的幼稚累积二项式概率为7.6 10−6(无易货停止校正)。对于所有11条流,有439条杆掉落导致439次火焰大杀,给出的幼稚累积二项式概率为2 10−10。包括额外的5个“正常”流会显着降低概率,但是所有11个信号的组合仍然相当低,尽管要得出结论是否不寻常还需要在下面进行额外讨论。

对于珍珠珍珠,包括进入我的贝叶斯分析的所有流,其中包括易货停止,在包括上次运行的情况下,对于boost = 1情况,概率为3 10−4,而对于最后一次运行,概率为2 10−4。排除在外。我将3 10−4作为我的最佳估计。火焰棒的贝叶斯分析将得出大约10−6。

自然地,将五个“看起来正常”的流与六个“非常”的流组合会导致介于两者之间的十一个流。正如我们将在下面看到的那样,与所有11个流相关联的概率与机会一致,但是仅与最后6个流相关联的概率仍然非常不可能。

在这种情况下,说“好吧,那么修改必须在第五和第六流之间进行”似乎是很自然的,这是MST报告提出的假设之一。但是,正如本文档所讨论的那样,在看到流后,选择在流之间放置一个断点

概率将需要包括对已知该结果的偏见的校正。在事后看来,低概率条纹更为明显,这导致人们将它们与不可思议的运气或作弊联系起来。

 

其他更正

正如《 MST报告》所指出的那样,由于对Dream的调查是因为他的数字看起来很幸运,因此需要进行更正以解决这种偏见。

给定N个调查,每个调查都使用从0到1随机抽取的p值表示,您看到的最差的p值是什么?在纠正仅调查最坏情况(在N个可能的情况中)的事实时,必须格外小心。例如,在100,00个随机p值中,有1%的机会找到最小值10−7。

蒙特卡洛模拟和对极值统计的研究表明,选择最差的p值的校正是乘以可能的研究数量。这等效于MST报告中使用的Bonferroni校正。

在第8.3节中,他们声称对p的计算是针对整个赛车生涯中的跑步者。据推测,这是基于第8.2节中的论点,即它们已经针对流的每个可能子集进行了校正。正如我在上面指出的那样,这种校正是不准确的。此外,该更正是基于从Dream中选择的11个直播事件中的6个,表明他们对“职业”的定义是11个多小时的直播事件,包括大约50个运行。

大约有10组5,每组25个或50个连续的特定长度的实时流。这意味着,在与Dream相似的六个速度组中,其中一个速度组每年有一个健康的1%机会经历每年预先选择的10−7事件。

 

有多少个随机事件很重要?

正如MST报告中所讨论的,我需要使用“ p-hacking修正”,该修正承认只有在这种详细程度下才会调查最不寻常的随机事件。 p-hacking修正解决了仅关注那些看起来异常的随机事件的问题。例如,末影珍珠似乎很不寻常,因此已与铁go进行了对比。火焰棒也进行了调查,尽管这种选择的原因尚不清楚。

如前所述,没有人可能会检查每个可能的Speedrunner的每种可能情况以查找异常情况。假设一个超速跑者似乎在以物易物的黑曜石价格交易中运气不佳。如果这会促成类似于此调查的调查,那么Speedrunner有许多方法可以使每个方法都幸运,并且需要解决这一偏见。这是p-hacking的前提6.

如果我使用已识别的37种随机事件类型,并允许选择任意两种类型进行组合,则将导致P-hacking修正为37 36 1000,而不是MST报告中使用的90。7

处理此问题的另一种方法是仅查看末节珍珠(因为这是看起来不寻常的原始物品),而完全忽略了火焰棒掉落。这将使观察到的数据更加合理。因此,具体地说,要检验的假设是修改了两个随机概率。

7看到影响结果的方法的数量,要考虑的是,是否有比秘密珍珠交换和掉火棒更好的秘密改善时间的方法。


组合校正

如果我们再问一下,每年在排行榜上有价值的直播中发生以前未识别的具有p值p的“幸运”事件的可能性是多少,答案是每年p 1051000。我将专注于去年并使用108的更正。这种非常大的提升是仅对低概率事件进行调查这一事实的自然结果。

提出合理的另一种修正并不难。例如,您将列表扩展到最近十年中的所有Minecraft速滑运动员。您也可以将列表扩展到所有可能在任何在线比赛中被调查过作弊行为的人,而这些人的人数显然要大得多。为什么更改答案这么容易?因为问题也在改变。当考虑过去十年中任何Minecraft实时直播的Speedrun时,问题是“过去十年中,我的世界的Minecraft速跑社区中的任何跑步者在进行实时直播时遇到像Dream这样罕见的事件的概率是多少?”当考虑到有人被指控在网上比赛中作弊时,问题就变成了“有人被指控在网上比赛中作弊的可能性是多少?”由您决定哪个问题对您很重要,然后相应地计算您的概率。

如果您问“在这11个视频流中,任何玩Minecraft的人都拥有与Dream一样好的运气的可能性是多少?”那么几率很高。另一种表达方式是,梦的运气不能用游戏中非同寻常的成功来形容,而是在所有《我的世界》玩家中,幸运的是他(以这种特殊方式),而他在直播时也很幸运。但是请记住,这不能算作是对他不利的,因为正因为他是如此幸运(例如费曼的车牌)而对他进行了调查。

 

与其他Speedrunner相

给定本文档中讨论的概率,任何读者的下一步就是使用此信息得出结论。每个读者都会想到一个不同的问题,即“即使他不诚实,我是否仍应继续看梦?”改为“我应该对速跑排行榜有多大信心?”和许多其他可能性。这些问题中有许多根本上源于“梦是否有意改变他的概率?”的问题。8

排除某些类别的解释的一种方法是将Dream的结果与其他直播速跑者进行比较。例如,代码故障可能会平等地影响每个人。尽管没有详细讨论特定流的选择,但是与其他Speedrunner的比较表明Dream的运行非常不寻常。但是事实已经证明,“梦想”的可能性很小,与其他跑步者进行比较并没有真正影响这一评估。与其他跑步者进行比较并不一定要确定梦的奔跑概率很低。相反,这种比较与这些低概率的解释更相关。例如,它降低了低概率归因于影响所有速度奔跑者的普遍性故障的合理性。在读者评估证据的过程中,Dream奔跑的可能性较低,并且Dream的表现比其他Speedrunner更好,因此不应将其视为独立的证据,因为它们都是同一件事的结果。与其他随机选择的Speedrunner流相比,因为它们看起来很幸运而选择的任何幸运Speedrunner看起来都是幸运的。

 

结论

如果您要问有关Dream是否对六个流使用修改的假设,则取决于您如何执行停止标准,ender Pearl易货的概率是3 10−10到3 10−9。我们选择10−10。闪耀杆的概率是3 10−8。使用公式将这两个概率结合起来2  得到1.2 10−16。将100,000个可能的11个流的集合的校正数(相乘)相加,以1,000种不同的方式进行调查,得出的调查结果为10−8或100分之一

8尽管我只花了很少的时间来查看所有这些内容的在线讨论,但是我看到一个假设,即可能没有足够的吸引力是存在这些修改,但是这些修改是无意的。这种情况的一个版本是随机数生成器存在问题,但是MST报告得出的结论是这极不可能。我有足够的代码经验,即使在详细研究代码之后,也可能会发生完全意外的后果。

百万机会。也就是说,今年Minecraft快跑社区中的直播有两种机会像Dream在这六个直播中所做的那样,在两种不同的随机模式中幸运的可能性为1亿分之一。这是极低的,尽管不如MST报告得出的结论低(约为75000)(1

7.5万亿)。增加概率的主要因素是:1)使用“以物易物停止”准则(大约100的因数)和2)使用100倍的实时流和10倍高的p-hacking校正,为此我提供了具体的理由。

如果您要问有关Dream对所有11个流使用修改的假设,则概率要高得多,因为其他五个流具有更典型的结果。发光珍珠的机率最高为3 10−4,闪耀的机率最高为10−6。结合这些给

7 10−9加上108增强后得到0.7或1 in2。请注意,我的校正是针对低p值设计的,因此这可能并不完全准确,但是这种不准确性不会影响得出以下结论:案子完全符合预期。也就是说,对所有类似的Minecraft直播进行调查后,发现在这11种直播中,运气不同的跑步者会以两种不同的方式获得非同寻常的运气。请注意,要使超速跑者在排行榜上达到较高的位置,就需要出色的技能和运气。

这些答案截然不同,这并不奇怪,因为在前五个流和最后六个流之间,发色珍珠和火焰棒的成功率非常不同。您应该如何在11个流的情况和6个流的情况之间做出选择?这取决于您认为Dream会在那个点(与其他任何点相比)进行修改而不受实际概率影响的可能性。这是流时间轴上的自然断点,而与事实上概率上截然不同的事实无关,这证明了六流假设。如果允许流/行程的条纹长度最大为N(而不是预先选择6或11),则需要对N进行另一次校正9 应该包括在内。使用N 10给出的修正概率为1千万分之一。这不能说明“幸运的条纹”应该有所不同的事实,这会增加赔率,有可能高达百万分之一。

因此,如果您认为“如果Dream将选择修改其数字,那么这是Dream将对其进行修改的11个流集中的唯一位置”,那么您应该向1亿个案例中的1个倾斜。如果您认为Dream可以选择在任何数据流之间修改其数字,那么这些几率应该会大幅度降低至1千万分之一。如果您认为如果Dream修改了东西,那么他只会在所有11个问题流的开头做它,那么数据就没有显示出统计上的显着证据表明Dream正在修改概率,因为在注意到他之后,他进行了调查。他很幸运。

由于十一流的概率要高得多,因此即使您认为(独立于观察流后的概率),在最后六个流之前而不是在所有十一流之前,梦境的修正几率是100到1流,六流情况提供了可以忽略不计的校正,概率仅为1/100。也就是说,需要外部证据证明在此特定时间点修改了概率,以产生很大的作弊概率。

即使在最坏的情况下,概率也不是那么极端,以至于不能完全排除Dream使用未修改概率的任何可能性。如果您有独立的高概率推理来假设该游戏在Dream的最后六局之前被Dream修改,那么即使在纠正了其他偏见之后,该假设的可能性仍然很低,这为您提供了另一种解释。对于Dream的末影珍珠和火焰棒概率有合理的解释,可能包括极端的“运气”,但这些解释的有效性和可能性取决于超出本文档范围的解释。另一种解释是,梦(有意或无意)被骗了,尽管我不同意这种情况表明这是不可避免的结论。无论如何,MST报告得出的结论是,由于本文档中已讨论的多种原因,Dream不会作弊的最大机会为7.5万亿分之一。

9MST报告以不同的方式对此进行计算:选择11个流的实时流媒体的数量,然后从这些流中选择11 *(11 + 1)/ 2个子集中的任何一个。除了上述可能的问题外,此更正很大程度上取决于11的任意选择(这可能与Dream有关,但可能不是通用的)。相反,我建议您考虑所有一定长度的连续直播,这将导致直播数量乘以合理长度的数量

由于字数超出b站限制删除了部分公式

【中文字幕1080p】Dream关于开挂的回应

资源下载: