数据审视球员:触底反弹的莱万



莱万多夫斯基顶级中锋的身份从无异议。事实上以传统数据视角来看,有稳定进球数打底,莱万的江湖地位始终不会受到太大质疑。问题在于,强如莱万也必然经历高潮低谷。上赛季应该是莱万最差的一季;本赛季莱万则算得上触底反弹,迎来近5年来的最巅峰表现。

序言:一个简单的球员数据评分模型

这里我们引入一种新的数据图形势,用高阶数据审视一下这几年的莱万。这也是我疫情期间闲来无聊的一个尝试。

我试图用8个数据衡量一名球员的进攻表现,其中包括5项持球数据:盘带频率、盘带成功率、持球对抗频率、持球对抗成功率、progressive runs(即满足一定距离的持球向前推进,各个区域标准不同,越靠近前场,要求的距离越短);2项无球及射门选择数据:禁区内触球数、每次射门预期进球数;以及我自己设置的射门水准量化方式——真实射门得分率。

需要特殊说明的是:真实射门得分率是我自创的算法,其目标是量化一名球员“修正射门难度”的能力,公式是“(实际进球数-预期进球数)/射门次数”,你可以简单理解为“每名球员面对一定难度的射门时,进球概率与平均水准之差”。在这个算法下,真实射门得分率是很容易出现负数的,说白了就是你的射门水准,比平均水平更低。注意:大样本下,这个数据是不受射门环境影响的,因为射门环境越差,射门越难,你尽管进球概率越低,但一旦进球,收获的加成也更大。

(有关真实射门得分率,具体参考三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量)

针对这8项数据,我们用所选择球员和同位置球员进行对比,算出他在每个环节超出同位置百分之多少的球员,给出一个评分。

举例来说:某球员每90分钟盘带5次,在同位置球员中排名第8,而同位置球员一共20人,那么,该球员在盘带频率一项上的评分,就是(1-8/20)*100%=60%。

给大家贴一个本赛季在英超表现不错的球员评分图——格拉利什。这个位置的球员我一般都会加入传球数据,因此是两张图:



图中的“频率”项目,用的都是每90分钟数据。选取的对象则是本赛季英超出场时间超过800分钟的左边前卫和左边锋(wyscout统计的格拉利什出场时间最多的两个位置)。面积大小表明超过同位置百分之多少的球员,面积越大,表明评分越高。

传球数据和莱万这种角色的球员没太大关系,这里就先不解释了,以后有机会再细说。

当然,这个建模本身改善空间非常大。首先这些“频率”类的项目,都没有结合球队控球率做二次计算,而在控球率更高的球队踢球,显然持球对抗频率之类的数据会更容易累积,像wyscout这种齐达内都在用的数据库,没有这种类型的数据,说实话在我看来是不可原谅的……其次,这里的位置筛选是“或”而非“和”,只要你有一定时间是在打这个位置(当然不会太少,否则wyscout不会收入),就会被列入其中。格拉利什因为打过一段时间中前卫,传球成功率之类的数据肯定会比纯边路球员高。“你的数据是不是你在某个位置上打出来的”,这个问题也是我们做位置区分时所面临的一个终极难题。

具体到莱万,情况如何呢?

上赛季跌入谷底的莱万

上赛季莱万什么水平?说实话,如果他上赛季的表现延续下来,我甚至会怀疑莱万到底还是不是顶级中锋……莱万的18-19赛季有多差?看图:


这里我们选取了德甲出场时间超过800分钟的中锋,当然,做这张图时我没有再做进一步位置筛选,这其中包括了一些“打过中锋而非主打中锋”的球员,比如格策。理论上这确实会对莱万的部分评分产生负面影响。比如持球对抗的频率、盘带的频率等等,显然一些边锋出身的球员要更擅长。

但问题是:莱万最惊悚的数据是糟糕透顶的真实射门得分率,而这偏偏应该是中锋比较擅长的领域。莱万-4.19%的真实射门得分率是什么水平?我么一共选取了67名球员,莱万排在第53……排在他身后的除了两名柏林赫塔的球员卡鲁和卢克巴基奥分别打进10球和8球之外,进球最多的也就6个。莱万能在上赛季保住22个联赛进球,真心是靠距离禁区更近,以及更高的射门数撑(刷)起(出)来的。

莱万上赛季的射门出现了什么状况?首先一点是,他虽然能够靠顶尖的跑位能力,以及可怕的禁区内触球次数,把每次射门的预期进球推到极高,但经常出现绝佳机会打不进的情况:


其实和第一张图相差不大。莱万只不过因排除掉其他位置球员的干扰而在一些持球环节略有进步,从而在雷达图中显得相对更“圆润”而已。这个加成有没有大到可以弥补射门领域的糟糕表现?坦白讲我觉得没有。

何况莱万这赛季的反弹,也并没有完全以持球领域的崩盘为代价。

本赛季莱万如何触底反弹?

废话不多说,先来看看莱万这赛季在德甲中锋里的评分。我们依旧选取所有“打过中锋”的球员,由于德甲本赛季还没结束,时间条件我们放的宽一点,设置为出场时间超过600分钟。

莱万的表现,比起18-19赛季,可谓天壤之别:


除了盘带成功率下降较多呈现凹陷形态,以及每次射门预期进球数下跌之外,莱万其他领域的表现比起18-19赛季都不差,最关键的数据真实射门得分率,甚至要高得多。实际上对莱万这种角色来说,这一项数据可能是凌驾于其他所有数据之上的。

这赛季莱万做到了哪一点呢?他能把不是很好的机会打进去。而且厉害之处在于,你去看录像,会发现这些真不是靠对手门将“配合”,是打得真牛逼。比如下面这球,预期进球受限于角度,只有0.04,说是莱万硬爆进去的并不为过。


最后放三张气泡图,来看看莱万这两个赛季,在德甲的水准排名,到底有何变化。以及为什么我要说,本赛季的莱万是五年来,而不是近两年来的最强:

undefined

上图是18-19赛季,德甲所有射门次数超过30次球员的射门表现。横轴为每次射门的预期进球数(射门难度),纵轴为真实射门得分率(射门精度),圆点大小表示射门次数,颜色则是进球数。

实话实说,莱万出现在这个位置简直有辱声望。他等于是在射门难度极低的情况下,打出了很差的射门把握。最受收获一个很深的颜色(进球多),很大程度上要归因于圆点够大(射门多)。

当然,有比莱万更尴尬的人——他的队友,托马斯·穆勒……

undefined

上图是19-20赛季,德甲所有射门次数超过20次球员的射门情况。和刚才一样,横轴为每次射门预期进球数(射门难度),纵轴为真实射门得分率(射门精度),圆点大小表示射门次数,颜色深浅表示进球数。

这次莱万所处的位置就要好看得多。当然,确实有不少人比他更接近纵轴顶端,也就是射门更准。但问题是,这些人的圆点都很小,也就是说,他们的射门总次数并不多。要知道,我设置的20次射门的门槛,严格来说是有些偏低的。其实我之所以这么设置,是为了把另一个备受关注的人放进来——本赛季迄今为止射门只有区区21次却打进10球的哈兰德……此人真实射门得分率是可怕的25.76%。

嗯,你可以理解为,莱万出现在纵轴的中间区域而非靠上区域,纯粹是因为哈兰德这个bug,把纵轴给拉长了……(奥格斯堡的马克斯这方面也很突出,但一些其他的细节数据表明,马克斯这个表现几乎不可能维持,偶然因素很大)

undefined

最后一张图是莱万近5个赛季以来的射门情况。横轴仍旧是每次射门预期进球数,纵轴则是真实射门得分率。这里我做的两个修改是:圆点大小表示出勤率,计算方法是“球员出场时间/球队比赛总时间”;颜色身前则表示球员进球数占球队的比重。

很显然,18-19赛季就是莱万近5年来的最低谷,他是以不错的射门选择,超长的出场时间,撑过了效率低迷的整个赛季。而表现最好的,就是这赛季。这是近5年来,莱万射门难度最大的一季,却也是射门精度最高的一季。

如果是去年的莱万,那你想设置一个让莱万成为最佳球员的筛选条件,其实非常难。但以他今年的水准,我觉得我们可以说:在所有目前能参与正式比赛的球员当中,莱万极有可能是世界最佳。

(花花午夜嚎叫)

花花专栏-足球,可以是一门科学

最新录像