【本文原作者:李承哲学长,侵删,感谢】先声明一下,在这篇文章中,我不会交代到每种统计方法运作的细节与推导过程,只会针对在辩论场上比较可能被攻防的事物做一些简要的交代与介绍,算是帮现役的高中辩手及部分大学辩手做些科普。
对于已经学过统计学的辩论人来说,这篇文章应该不会有太大的帮助,但如果中间所介绍讲解到的概念有差错,或者有其他细节要补充,也非常欢迎大家提供一些建议或在下面讨论。
先从撰写这篇文的契机谈起,虽然说新式奥瑞冈比赛是个相对注重数据检证的辩论比赛类型,但由于大多数在场上使用论文时,选手时常因为对于统计方法的不熟悉,就直接跳到结论去,让比赛打的很像论文碰碰车。
几天前与一位生科本科毕业的朋友讨论今年被列为明京备选题目的流浪狗TNR时,发现对于很多单点举证的理解有一些差异,而且这个差异并不是来自于我对举证的要求太苛刻。
反而是在他学者式的认知下,对于每一份数据碰撞过后的理解都会是“我们应该要来认真比对两份研究的细节与效力”,
我才发现,辩论人对于数据诠释或是各种数据的认知虽说高于一般人,但在强调效率的比赛模式下,长期下来反倒对于论文中各项数据及结论的操作都很“工具导向”,养成了一种撞完数据就直接不想以该项单点作为最终决胜点的习惯。
也许在比赛上这样固然没有大问题,但在离开辩论领域后,反倒让我们的思维模式卡在一个很尴尬的位置:
假设过分深究举证责任分配而忽视说服的种种细节是一种与“大众”脱轨的进程;期刊发表流程那仅把论文当作攻防对撞工具,而忽略了对于研究方式与推导过程的深究,亦可能是种与“学界”脱轨的过程。
到最终我们既做不成有说服力的人,也无法将这些能力有效应用在学术讨论,形成某种高不成、低不就的窘境,也许也不是在辩论教育底下所乐见的结果。
统计学毕竟也还是一门专业,这篇文章能做到的,也至多就是帮各位做个简单的叩门,让大家不要对于那些看来杂乱的表格与数据如此恐惧而已,但如果想要更进一步,最好的方法当然还是去买本相关书籍好好研读。
这篇文章就是“信息碎片化”的典型,我想做的也只是希望能够带动大家对于数据对撞时更深层的讨论,若是你因此而产生了兴趣,也请千万不要单纯停留在这里,你绝对可以继续往上爬。
我不想变成大家在今年苏州杯的价值性命题中证明信息碎片化的弊害实例,所以这点还请各位配合。
01
基本概念
首先,统计方法没有绝对的“强弱”之别,会影响效力强弱的会是你收集数据的方式、研究设定的变因、以及你设定的假说等等,比起强弱,更好的说法会是“适用度”的高低之别。
例如之前赖清说我国的平均薪资近5万时,也许统计结果为真,但却对于让我们理解现况下的劳工困境没有太大的帮助,这是因为平均值是个很容易受到少数极端值硬是拉高的结果,所以比起平均,中位数可能会是一个更“适用”的标准。
诚如我前面所述,由于统计本来就没有绝对的强弱之别,因此“我的数据有回归分析,你的没有”这类的攻防实际上是没办法直接在两份资料对撞时分出高下的。
有些时候某份数据之所以会没有回归分析,只不过是因为该份论文在研究的内容与假说自始就不是需要用回归分析来去处理的。就算期刊发表流程它真的是份解释力较高的资料,也不会是因为它是回归分析,而是该份举证最“适合”的统计方式是回归分析。
回归正题,当你看到一份与辩题相关的论文时,如果你想要知道它到底是不是与你想要的推论相符合,在深究其统计方法前,可以先从几个脉络来分析。
一、摘要与结论
这看起来很废话,毕竟大多数人操作论文资料时,最被诟病的地方都是只印封面跟结论。但我想提的是该怎么比较“有意义”的阅读论文摘要与结论。
论文摘要中通常会大略的提到研究起源、假说、对象、方法、以及结论,就像我前面所述,有些研究方式有问题的研究生论文,其实光是从摘要就能大概看出他的假说、方法跟结论是没办法兜在一起的。
这不代表这份论文的数据就是错的,但若是两者间的连结并不高的时候,你必须意识到这份论文实际上仅是“研究数据”与“断言”的组合,而不是一份能够明确证明某项事实的资料。
这听起来好像很违背大家对论文数据的想象,但如果看的够多就会知道,其实硕博士论文中搞不太清楚状况的垃圾研究还真的不少见。
更可怕的是,这些研究虽然在实际效力上跟新闻数据的效力根本没差多少,期刊发表流程但由于被“论文”的糖衣给包装起来,选手常常就拿着这些没什么道理的结论在场上大杀四方。
要解决这个问题,除了最传统的对撞资料硬拼外,把整份论文的研究脉络搞清楚,才是能够有效的推进讨论的正解。
*案例:《Evidence of phenotypic plasticity of penis morphology and delayedreproductive maturation in response to male competition in waterfowl》
这是我去年在做生科系的书报讨论时选的论文,研究的内容是讨论鸭子的生殖器会不会因为某些特定因子导致变长或脱落。
这份论文其实在摘要中就能看出我上述所说的现象,这并不是因为研究者乱搞而导致统计结果没办法媒合统计结果,而是该研究本身就存在一些限制而导致研究者们仅能用推测的方式来去判断结果发生的原因。