回归不连续性设计是次优方法
Posted: Wed Jan 15, 2025 8:39 am
回归不连续性设计,也称为 RDD 或回归不连续性,是一种基于标准回归公式的方法。它之所以被称为回归“不连续性”设计,是因为数据在某个阈值处被分割,表示“处理期”。RDD 的最初用例是围绕基于成绩的奖学金及其学生表现进行的研究。由于基于成绩的奖学金更有可能授予成绩优异的学生,因此这些学生自然更有可能比其他学生表现更好。但是,成绩优异且获得奖学金的学生的表现会更高,即使 GPA(平均绩点)为 3.5 并获得奖学金的学生与 GPA 为 3.4 但没有奖学金的学生仍然相似。因此,需要有一种方法来衡量更高的 GPA 对表现的影响,以及获得奖学金的影响。 RD 允许将截止 GPA 作为“奖学金处理”的起点,并找到由此产生的处理效果。下面的数据是模拟的,但类似于奖学金数据的表现方式。
回归不连续设计图表显示奖学金对大学 GPA 的影响
RDD 已用于许多科学情况,包括空气质量、交通跟踪、能源使用等。墨西哥手机数据 然而,由于其多功能性,我们认为这种方法适用于各种用户体验用例。一个例子是衡量可能来自网站范围性能改进或搜索引擎优化 (SEO) 变化的收入增长。另一个用例可能是竞争对手分析,竞争对手推出新产品或活动,而您想知道竞争加剧对您自己的关键绩效指标的影响。
利用回归不连续性设计——业务用例
Blast Analytics 已将 RDD 应用于客户成功衡量,因为无法进行实验。例如,我们分析了我们为客户提出的页面速度建议最终如何改善平均页面加载时间以及每位用户的平均收入。这些变化是为了帮助客户的 SEO 表现。研究表明,提高网站速度对收入指标有积极影响,因为用户更有可能享受更快的数字体验。然而,这可能无法在所有情况下都得到保证,因此我们有兴趣了解对客户的具体影响。
利用Google Analytics,可以按日期、小时和分钟为维度收集数据。这使我们能够在更改发生之前和之后获得足够的数据点,以衡量网站更改的影响。然后,我们使用指标“平均页面加载时间(秒)”来确保对网站所做的更改已生效并产生了我们预期的效果。这导致数据类似于下面的图 2(按分钟计算的平均页面加载时间)。请注意,这是真实数据,其中添加了随机噪声,以免显示机密信息。
回归不连续性设计图表显示了来自 Google Analytics 的平均页面加载速度
使用 RD 模型,我们能够显示网站更改前后的数据趋势以及变化幅度。最终模型类似于下面的图 3(平均页面加载时间 - SEO 更改前后的变化)。
显示页面加载时间变化的回归不连续数据
我们可以看到,在实施更改之前,页面加载时间呈下降趋势,这可能是由于开发团队努力改进网站所致。然而,在更改点,我们可以看到页面加载时间急剧下降。模型告诉我们,加载时间减少了约 0.98 秒,这是一个统计上显著的下降。虽然我们预计页面加载时间会更好,但具体的值有助于量化业务的改进。
知道网站速度有所提高是一个结果,但这种变化是意料之中的。真正有趣的是这些变化对每用户平均收入的影响(下图 4)。我们再次利用了 Google Analytics 的数据,但这次使用“每用户收入”指标以及添加的随机噪声以保持数据机密性。
显示每位用户平均收入的回归不连续图
RDD 模型估计,在进行 SEO 更改后,每位用户的平均收入增加了 3.17 美元,统计显著性超过 90%。虽然我们无法确定页面速度改进和每位用户收入增加之间的 100% 因果关系,因为这不是正式测试的一部分,但我们能够利用 RDD 模型来增加数据分析的严谨性。最终,这提高了我们研究结果的可靠性,具体来说,页面速度改进对每位用户的收入产生了积极影响。
这是一个高级示例,展示了如何使用回归不连续性模型来衡量数字体验变化的影响。如需深入了解此方法,包括运行此模型所需的代码和数据转换,请下载我们关于数字体验中的回归不连续性设计的白皮书。
回归不连续设计图表显示奖学金对大学 GPA 的影响
RDD 已用于许多科学情况,包括空气质量、交通跟踪、能源使用等。墨西哥手机数据 然而,由于其多功能性,我们认为这种方法适用于各种用户体验用例。一个例子是衡量可能来自网站范围性能改进或搜索引擎优化 (SEO) 变化的收入增长。另一个用例可能是竞争对手分析,竞争对手推出新产品或活动,而您想知道竞争加剧对您自己的关键绩效指标的影响。
利用回归不连续性设计——业务用例
Blast Analytics 已将 RDD 应用于客户成功衡量,因为无法进行实验。例如,我们分析了我们为客户提出的页面速度建议最终如何改善平均页面加载时间以及每位用户的平均收入。这些变化是为了帮助客户的 SEO 表现。研究表明,提高网站速度对收入指标有积极影响,因为用户更有可能享受更快的数字体验。然而,这可能无法在所有情况下都得到保证,因此我们有兴趣了解对客户的具体影响。
利用Google Analytics,可以按日期、小时和分钟为维度收集数据。这使我们能够在更改发生之前和之后获得足够的数据点,以衡量网站更改的影响。然后,我们使用指标“平均页面加载时间(秒)”来确保对网站所做的更改已生效并产生了我们预期的效果。这导致数据类似于下面的图 2(按分钟计算的平均页面加载时间)。请注意,这是真实数据,其中添加了随机噪声,以免显示机密信息。
回归不连续性设计图表显示了来自 Google Analytics 的平均页面加载速度
使用 RD 模型,我们能够显示网站更改前后的数据趋势以及变化幅度。最终模型类似于下面的图 3(平均页面加载时间 - SEO 更改前后的变化)。
显示页面加载时间变化的回归不连续数据
我们可以看到,在实施更改之前,页面加载时间呈下降趋势,这可能是由于开发团队努力改进网站所致。然而,在更改点,我们可以看到页面加载时间急剧下降。模型告诉我们,加载时间减少了约 0.98 秒,这是一个统计上显著的下降。虽然我们预计页面加载时间会更好,但具体的值有助于量化业务的改进。
知道网站速度有所提高是一个结果,但这种变化是意料之中的。真正有趣的是这些变化对每用户平均收入的影响(下图 4)。我们再次利用了 Google Analytics 的数据,但这次使用“每用户收入”指标以及添加的随机噪声以保持数据机密性。
显示每位用户平均收入的回归不连续图
RDD 模型估计,在进行 SEO 更改后,每位用户的平均收入增加了 3.17 美元,统计显著性超过 90%。虽然我们无法确定页面速度改进和每位用户收入增加之间的 100% 因果关系,因为这不是正式测试的一部分,但我们能够利用 RDD 模型来增加数据分析的严谨性。最终,这提高了我们研究结果的可靠性,具体来说,页面速度改进对每位用户的收入产生了积极影响。
这是一个高级示例,展示了如何使用回归不连续性模型来衡量数字体验变化的影响。如需深入了解此方法,包括运行此模型所需的代码和数据转换,请下载我们关于数字体验中的回归不连续性设计的白皮书。