辛普森悖论产生的原因,辛普森悖论产生的原因和处理方法

随着IT行业的不断进步,我们进入了海量访问数据和购买数据自动积累的时代。这些海量数据包含对企业活动极为有用的知识。但是无论积累多少数据,如果不进行分析,就毫无意义。

当下越来越多的公司正在采用BI。BI被定义为对业务系统、采购历史等积累的大量企业内部数据进行系统化、系统化的积累、分类、搜索、分析、处理的概念和机制。但是如果没有专业的人员来进行相关工作许多公司无法利用这一数据宝库。

辛普森悖论产生的原因,辛普森悖论产生的原因和处理方法

数据的重要性

数据平均的陷阱

正在求职的你如果遇见一下两家公司,除了以下条件之外没有其他因素基本相同,你会选择哪一家?

  • A公司平均年龄30.8岁,平均年收入405,921元
  • B公司平均年龄31.8岁,平均年收入311,860元

大多数人会回答说A公司更好。员工很年轻,工资也很高。当然如果行业、地理条件等其他参数不同,B公司可能会更好。但是如果不知道这些事情,应该认为如果正常思考的话,A公司会更好。

但是这是一个极端的例子,如果每个人的年龄和年收入如下呢?A公司有一名超高薪高级员工,其余均为新人。另一方面,B公司在新秀和职业中期的老将之间取得了很好的平衡。而且,以同样23岁的薪水来看,B公司的工资压倒性地高。

辛普森悖论产生的原因,辛普森悖论产生的原因和处理方法

由此课件听取数据分析结果并仅根据平均值做出判断是多么危险。

中国的平均家庭年收入也是如此。沿海地区的一些富人可能正在提高他们的整体年收入,从而掩盖了内陆地区的实际情况。

分析日志数据是完全一样的。即使平均购买数量是3,大多数人也只购买1,并且有些人似乎是一些供应商的人购买了数百个。因此在进行这样的分析时,首先需要创建直方图并检查整体分布,然后再决定要分析的数据范围。只接受平均值或采取对策是非常危险的,因此不仅在数据分析中而且在一般生活中都需要小心。

辛普森悖论

有各种各样的分析,从基于平均值和偏差的分析到使用多变量分析和人工智能的分析。但是俗话说分析 交叉表开始,以交叉表结束,交叉表是所有分析的基础。

什么是 Paradox(悖论)?即被解释为常识的反面。说得更通俗一点,它的意思是一个无论你怎么想都不能令人满意的结论,即使它是基于一个似乎正确的假设的解释。

比如著名的 阿喀琉斯与乌龟悖论,速度快的阿喀琉斯无法超越面前的乌龟。乌龟领先于阿喀琉斯。当阿基里斯到达乌龟所在的位置时,乌龟正在向前移动。当阿喀琉斯再次到达乌龟的位置时,乌龟已经向前移动了。阿喀琉斯永远追不上乌龟。

辛普森悖论产生的原因,辛普森悖论产生的原因和处理方法

尽管结论完全没有说服力,但很难正确反驳它,因为导致结论的论证过程本身似乎是正确的。辛普森悖论的主题是 EH 辛普森统计悖论,它指出群体中的相关性可能不同于子群体中的相关性。在问卷调查中,交叉制表(分层)有时会揭示出总体制表(GT)中看不到的趋势,但这是完全不同的事情,结果完全没有说服力。

能否用比较通俗的话解释一下阿基琉斯追龟的原理?0 赞同 · 0 评论回答

辛普森悖论产生的原因,辛普森悖论产生的原因和处理方法

什么是交叉制表

假设一家制造商开发了一款新产品。为了确认与现有产品的差异,抽取了 100 名产品使用者的人进行测试。

现有产品和新产品测试结果。

辛普森悖论产生的原因,辛普森悖论产生的原因和处理方法

从这张表看 55%的患者评价现有产品为好,而新产品为 58%,增加了3个百分点。会不会觉得新产品开发成功了?这里不讨论这 3个百分点是否有显着差异,但如果产品规划师、开发人员或研究人员应该多分解一点,按性别看或者做更详细的分析。

显示了男性和女性之间的差异。

辛普森悖论产生的原因,辛普森悖论产生的原因和处理方法

从这张表看新产品似乎对男性有效,但现有产品似乎对女性更好。如果继续按原样销售该产品,我们就会发布一款对女性不太有效的产品。如此一来就可以看到按属性进行细分分析的重要性,而不是根据整体汇总结果进行判断。

到此为止交叉制表的想法很普通。现在开始悖。

显示了年龄之间的差异。

辛普森悖论产生的原因,辛普森悖论产生的原因和处理方法

现在,看这张表,你发现了什么?测试是这次做的 100 个人每个人的结果。之前对男性和女性是否有效存在分歧。但是按年龄段来看,45% 的 20 多岁的人认为现有产品好,67% 的 30 多岁的人认为现有产品好。

总的来说,新产品明显好,但从年龄组来看现有产品在这两种情况下都更好。这是什么意思?这只是人口中的相关性如何不同于人口子组中的相关性的一个示例。

什么是数据分析?

数据分析是对以某种目的表达的字符、符号、数值等进行集合,然后对其进行分类、整理、成型、选择后进行解释,从而找到有价值的意义。

数据分析是有目的的。因此在开始分析时,需要对得到的结果是否是预期的结果做出正确的判断。为此需要了解三件事:

对要分析的问题本身的理解

分析者除非对分析的原因和所涉及的问题有正确的认识,否则是没有意义的。

例如数学家或统计学家有数据,将能够从某种方法或复杂的处理计算中得出一个合理的结果。但是如果一开始不知道数据的含义和背后的情况,就无法提出分析策略。没有反复试验,将永远不可能得到有用的结果。

例如如何获取数据,如何预处理数据,以及要进行什么样的分析。不要忘记公司的负责人比任何优秀的外部分析师都更了解公司的问题,应该从梳理问题入手,站在顾问的角度进行数据分析。

对分析方法的理解

分析师必须熟悉分析方法,有一套自己的瞬狙分析方法,并且能使用统计软件或数据挖掘软件(例如Python、R、SPSS等等),输入任何数据后只需点击一下即可获得合理的结果。

如果没有正确理解分析方法,即使正在处理明显错误的数据或使用不合适的方法分析数据,也不会注意到错误。这里请处理即使不考虑后述的异常值和异常值的处理以及问卷数据与日志数据的分析条件的差异,也可能会出现严重的错误。

判断分析结果的能力

在判断分析结果之前有必要假设得到结果时会采取什么样的行动。

有得到预期结果的情况,也有得到意想不到的结果的情况。但是当出现意外结果时,确定要采取的措施变得非常重要。

数据采集?和处理的方法可能是错误的,或者分析方法可能是错误的。如果数据和方法都没有错,说明原来的假设是错误的,可能会被迫改变结果方向。当出乎意料的结果出现时,应该灵活地思考各种可能性。

创业项目群,学习操作 18个小项目,添加 微信:790838556  备注:小项目

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 zoodoho@qq.com举报,一经查实,本站将立刻删除。
如若转载,请注明出处:https://www.zoodoho.com/26742.html