dota2吧 关注:6,234,250贴子:174,758,245

Dota2 ELO话题终结

取消只看楼主收藏回复

记得年前很多帖在密集争论ELO机制,当时在花了一些时间调研后,我发现多数吧友对v社公告,对过往机制,现行机制,甚至于对ELO本身都存在着巨大误解,导致很多争论纯粹是鸡同鸭讲,浪费时间。
恰巧最近又有喷子喜欢@我,我不怕对喷,但并不是很喜欢跟面红耳赤的zz讲道理,索性单开个贴把一些常见误解讲明白,结论不一定能让所有人接受,但力求有理有据。
鄙人国内top计算机系毕业,在游戏大厂做过研发,前互联网打工人。我不完全是在吹自己,这些也没什么可吹的,现实中比我优秀的人比比皆是,而我单纯是个爱玩游戏甚至跟很多人一样容易沉迷的玩家。只是丑话说在前面,不管你是中军统帅还是超凡冠绝,不管你是视频up主,是体制内员工,亦或是生意人,我平等地歧视在座每一位elo机制宣传者的学历,以及智商。因为你们缺乏21世纪最重要的能力——从鱼龙混杂的互联网上过滤LJ信息,把一件事的前因后果掰清捋顺的能力,以及,没文化。
对,就是没文化 v社公告你看不懂,那么长一段话你只能读到三个字母,可见阅读理解能力之低下。v社内部研发在公开论坛上再三辟谣50机制,可惜你看不懂英文,原文贴出来你都能断章取义曲解成另一个意思,多半还是只会看半吊子机翻。即便你能把分打到冠绝排名,只能代表你手活好,游戏时间久,有游戏理解,不代表你有逻辑会归因,更不代表你懂概率,不服憋着


IP属地:北京1楼2024-06-13 10:24回复
    很多人思考问题的方式都是非常主观的,这类人缺乏基于逻辑的认知体系,习惯被情绪操控,先站队再评价客观事物,也更容易陷入阴谋论。他们永远都在非黑即白地给人事物打标签,从来没有就事论事的能力,甚至我看你不顺眼,不管你说啥我都要否定你;你的看法跟我相悖,跟我不站同一队,那你就是邪恶的,就是sb,我就要骂你。
    譬如之前有吧友反问我——玩家留存对v社重不重要?老玩家体验不好是不是事实?那你还说没有elo?赖皮v有什么可洗的?——这就是一种已经失去就事论事能力的典型表现,诸如此类情绪化反逻辑的争论,我无法一一辩驳,因为没有意义。
    在一切讨论之前,我们需要达成共识的是,在大部分人在讲“50机制”“elo机制”“系统局”的时候,我们应该意识到这些都是充满歧义的词汇,每人想表达的可能都不是一个东西,所以永远无法达成一致。甚至很多人单纯是现实一团乱的情况下,想在网络世界找一个矛盾出口宣泄情绪——这也是为什么无数玩家贴出各种上分/捕鱼/代练战绩,都会被人以另一个角度怼回去,因为从一开始就没有一个具体的标准,对elo的看法也是千人千面,最后不可避免地演变成只要让我玩得不舒服我就可以喷、只要你跟我站一边我就认同的现状。
    事实上,除去游戏对局内的过程,涉及一场天梯匹配的主要算法有两部分。
    其一是匹配,匹配系统(Match Maker)做的事是从正在排队的玩家队列中,找到分段尽可能相近的十个人,然后五五分组,开始比赛。匹配系统有个计时机制和一系列标准判断十个人是否能排在一起、队伍内是否兼容,具体的后面(让如果有时间)再说。
    其二是评分,游戏结束后,评分系统(Rating System)需要根据游戏结果,根据一个算法,基于双方分差和置信度去调整每一个人的天梯分,以期让每个人的天梯分朝更适合自己的分段前进。
    我们说的积分算法,不论是ELO算法还是Glicko算法,都只是第二部分,而大部分人在吐槽或者说幻想的“匹配机制”,本质上是第一部分,二者并没有直接关系。
    ——如果你把这两样混淆了,你之后所有的逻辑,对于所谓“机制”的猜测脑补,从根本上就是不可靠的


    IP属地:北京2楼2024-06-13 10:32
    收起回复
      是的,虽然这也正常,但我可以肯定地说,以大部分人的认知,他们连第一关都没过,他们认为elo(评分算法)和matchmaker(匹配系统)是一回事
      所以我建议各位不要被各类自媒体,来路不明的up主随手发的视频,不靠谱的宣泄情绪的网络评论洗脑了,多看点硬核内容,带点批判思维去看待互联网。垃圾信息看多了人会越来越蠢


      IP属地:北京来自Android客户端3楼2024-06-13 10:37
      收起回复
        玩家的负面感受从何而来?
        提前说一下,这层夹带私货,有点长,如果嫌看着累,可以直接跳过。
        我想说的是,人的判断能力远比我们认为的有限,我们处理或解释复杂信息的能力之低微,我们根据日常现象总结规律的准确性,令人咋舌。我不是在贬低人类,事实上人能从一件具体的事中抽象或是归纳出规律,这是一种很高级的能力,也是我们的文明能发展到今天这样发达的基石。也恰恰因为人很擅长从“少量典型数据”进行归纳总结,人通过有限次的观察总结所得到的结论通常错误百出。真正的规律需要根据大量数据统计后得到或者说证实,但很可惜,人并不具备肉眼从大量数据中发现规律的能力,人往往只愿意面对自己想相信的部分,面对数据,我们永远是睁一只眼闭一只眼,基于情绪在下结论。
        我做过一年以上数据分析相关的工作,如果你们平时的工作也跟数据分析有关,你就会发现,人直觉得到的结论很多时候跟数据体现的事实是相反的。
        不止常人,专家也不行。从医生对病人进行诊断,基金经理对市场走势的主观判断,很多已有的研究表明,他们的判断始终赶不上最简单的数学模型。经过严格训练的心理学家基于对话对病人情况的主观判断,比不上一个死板的调查问卷。
        绝大多数背景优秀甚至红极一时的主观基金经理,长期业绩都跑不赢指数(现实案例太多了,很多原本优秀的策略因为基金经理自我怀疑,因为投资人的施压和赎回,最后无法持续下去。若照玩家输几局游戏怨天怨地无论如何都要把这个锅甩出去的心态,去玩投资,底裤都要亏光)。
        因为人有着与生俱来的损失厌恶心理,且不可能摆脱。
        考虑两种情景:
        情境1:给你两个选择,我送你500美元,或者你掷一次硬币。如果硬币朝上,我会送你1000美元;如果硬币背面朝上,你一无所获。
        情境2:还是两个选择,你送我500美元,或者你掷一次硬币。如果硬币朝上,你要送我1000美元;如果硬币背面朝上,你不会有任何损失。
        这是一个有名的实验,发起者是两位诺贝尔经济学奖得主。实验结果——84%的受试者在情境1中选择了确定性的金钱收益(落袋为安),但是有70%的受试者在情境2中选择了赌一把(不想亏)。
        ——人对损失的敏感程度是对收益的敏感程度的两倍以上。
        所以,当你说“为什么我连胜后一定会连败,连胜后一定会遇到搞子,连胜后一定会有队友挂机”。
        直觉上讲,连胜之后的连败,或是遇到搞子,你会异常敏感,因为你“被坑”输了。但连胜期间队友出现赵云的那些局,你觉得那是你理所应得的,甚至多数时候你根本无法发现,即便队友有比你高2000分的选手默默抬着你,你大概率都发现不了,大部分人只会看看kda,或者看输出——更多时候是自己哪个数据好就看哪个,宙斯的看自己输出,玩钢背的看自己承伤,玩风行的看自己kda——赢的局会挑出自己的精彩时刻,觉得主要是自己nb,队友嘛,“玩得还不错,赞一个吧”。辅助赢了,看看买眼,看看助攻,c位玩家赢了,看看输出比又是30%+,看看自己5+的kda,真漂亮,自我满足就开始了——输了呢?那自然是队友坑。
        严格来说,这个命题就是很含糊的。连胜后是指什么?多于几局是连胜?怎么界定连败?
        假使天梯每个分段甚至每一局都存在赵云存在搞子是客观现实,他们究竟以什么分布存在在你的对局里,才会让你觉得不是被系统主动控制的?
        就拿遇到搞子来说,连胜3局遇到搞子算被系统安排了吗?6局呢?8局呢?如果说连胜8局后你遇到了搞子,为什么第7-8局你没遇到呢,是系统不想针对你吗?那别人为什么三连胜就被搞了呢?
        连续几局败算连败呢?你把所有这些变量取个固定范围,去计算这个概率,再去拿你实际对局对比,你会发现你根本无法拿具体的数据说服自己。
        是的,事实上只要你先入为主地认为存在所谓“机制,但凡你遇到稿子,你就会觉得被系统针对,因为你【厌恶损失】。
        按照前文提到的理论,你可以粗略认为,只有当你随便打打胜率就能高于66%,或者说每有两个大腿带你躺以后只会被一个搞子坑输,你才会觉得你的天梯之旅是“比较舒适”的。但很可惜,这不是单机,这是竞技游戏,v社(目前)也并不会在天梯中主动给你安排机器人去提升你的游戏体验。每局都有5个人赢5个人输,从最基本的对称性考虑,“让多数玩家感到舒适”都是一件不可能的事。
        这就是为什么很多人喜欢炸鱼,随便打打65%+胜率的号,你玩起来就很舒服,而且一部分炸鱼佬炸上去胜率保证不了了再回头炸,周而复返,因为只有炸鱼能达到这个舒适度。
        综上,我只认看得见摸得着的数据,不认人的直觉,也请诸位明白,大部分人关于由连胜/连败推出elo是否存在的逻辑,从来就站不住脚。


        IP属地:北京7楼2024-06-13 10:49
        收起回复
          刚到干货部分就一直被吞帖,我只能说,不愧是百度,一个关键词都发不出来,我甚至不知道是什么关键词


          IP属地:北京18楼2024-06-13 11:11
          回复

            本图是大展宏图更新公告里关于天梯机制调整的完整说明。
            很多人都没有读过,也有些人扫了一眼发现“elo”字样,没有耐心看完公告,匆匆表示“原来elo是存在的,v社也承认存在缺陷,我没有猜错”。
            我来稍微理一下细节。
            1. 有没有elo?有。有没有50机制?非要说的话,也有,但二者都不是你们幻想的那个东西。
            2. “匹配系统评级真的只是由两个数字组成的:天梯分和天梯置信度。”——是的,很多人想象中的天梯隐藏分,并不存在,更不会有复杂的技术水平因素决定你能排到什么样的队友/对手。


            IP属地:北京20楼2024-06-13 11:14
            收起回复
              3. elo存在缺陷以及低分聚集的问题。elo是什么,具体存在什么缺陷,我后面还会讲。
              但为什么会有低分聚集的问题,打个比方你们就明白了:
              天梯分是有下限无上限的,整个系统类似人类经济shehui。现实中马太效应不可避免,富人的钱是很难花出去的,在一个稳定的社会中,顶层会越来越富,而缺乏社会资源的人会越来越穷,两极分化只是时间问题。这个过程中社会会逐渐不稳定,因为底层人民看不到希望了。缓解这种现象的途径之一是“放水”,现实中经济很复杂,但我们这里简化去看,姑且认为放水会导致通胀,进而引起货币贬值。但底层人民手上的钱不会越来越少,人起码内心会好受点。
              v社的做法其实类似,很多玩家会发现大展宏图后的天梯分膨胀了,也有很多(大众分段的)玩家发现自己赢了+26,输了-24,这就是新机制在起作用——也意味着新机制下,你50胜率一直打也能慢慢上分,相当于v社在给整个天梯系统放水。
              解释这么多,我就是想说明老天梯系统低分聚集现象的原因。以及v社并不是靠glicko算法本身解决的,而是通过“放水”。在天梯分数膨胀的背景下,现在先锋卫士分段的选手已经比以前少很多了。我也附了一张图,可以直观看到大战宏图前后天梯分分布的变化


              IP属地:北京22楼2024-06-13 11:18
              收起回复
                4. 新系统引入了置信度,长期不玩的玩家,其置信度会降低,意味着系统认为你的分数已经不准确。在低置信度的情况下,每输赢一局你的调分幅度都会更大。这是glicko算法的核心改进,也可以说是唯一改进。
                另外几年不玩的玩家回归后v社甚至会把你匹配到比原本低1-2个大段位的局,我相信很多人都有过这种经历。针对这些,很多人看完后会陷入阴谋论——“v社要的是人气,他们说什么你就信什么”?我说过,我不想再浪费时间在这种不可证实不可证伪的观点上,暂时只做解读。


                IP属地:北京24楼2024-06-13 11:24
                回复
                  什么是elo?什么是glicko/glicko-2?
                  想说清楚这些,自然少不了算法解读,但算法复杂,我不可能在这种平台详细解释,找论文贴更是无用,只能讲重点。因为专业性质的东西,但凡能看懂其中一小段的,都不需要我发这个贴来讲问题。
                  这里重新强调一下,这几个算法不涉及匹配机制,什么样的人会匹配到一起,水平一不一致,并不影响算法逻辑。也就是说,在这几个算法中,你完全可以让2000分选手跟4000分的排到一起,它也可以给出最终调分幅度,但这并不是一个健康的匹配系统,一般情况下系统会假定排到一起的人水平相近。
                  匹配机制具体是什么机制,v社员工也透露过,当然我知道中国玩家没几个会去看。咱暂且把匹配机制搁在一边,先说ELO


                  IP属地:北京29楼2024-06-13 11:34
                  回复
                    ELO:
                    elo是只包含天梯分的。其原理大概是输入双方的分数,根据逻辑分布函数即可计算出双方的期望胜率,比如网上常见的胜率期望计算公式:

                    这里的参数400是人为规定的,它会影响分数跨度:RA-RB=100时,A的胜率是64%。但如果400改成4000,同样64%的胜率,需要RA-RB=1000。再形象点,我们的天梯系统中,大约3100分是传奇,3800+能上万古,这个跨度主要就是依赖这个参数去控制的,只不过我们这里没有数据,没法计算“五个万古选手排到五个传奇选手,胜率期望是多少”。
                    游戏结束后,我们需要对选手进行调分,调分公式如下:
                    其中SA由输赢决定,EA即上一步计算出的胜率,K为固定调分幅度。这里我们可以认为老的dota2天梯中,K值为50,而正常情况下匹配到一起的双方平均天梯分是一致的,双方胜率均为50%,这时候根据调分公式,每个人赢一局+25,输一局-25.K影响的是分数收敛速度,K值太大,你输赢一局,可能运气好连胜几局一下就跨段了,玩家们的分数还是不准。K值太小,输赢一局调分太少,一个万古选手想从统帅局冲上万古难如登天,所以理想情况下K需要取一个居中的值作权衡。
                    当然,也会存在非加/减25的局,说明双方平均分有差异,但双方每个人的这个调分幅度都是一致的。
                    这就是elo.
                    elo考虑了双方水平差异,低分选手匹配到高分选手时,胜率会偏低,这时候输了少扣点分,赢了多加点分。假设一个人连续排到这种不均衡的对局,打了四场极其艰难的局,对方分数都偏高,最后赢一把输三把,理论上可能最终分数不变——这就是elo算法的亮点所在。
                    但真实的elo系统中,玩家分数向实际水平的收敛速度非常缓慢。一个新进入天梯系统的玩家,他会有一个初始分,这个分数可靠吗?如果大量新玩家涌入,需要多长时间才能打到他们应该在的分段。一个4000分的万古选手,但他几年没玩了,回到天梯,他还是4000分水平吗?
                    在若干年前的天梯系统中,v社纯粹依靠定位赛解决这个问题——就是标准的ELO——赛季开始,每人需要打10局定位赛,然后你的分段就确定了,之后只能通过赢一把25输一把25以期慢慢回到你的真实水平。


                    IP属地:北京31楼2024-06-13 11:49
                    收起回复
                      这里我姑且解读一下楼上吧友的疑问,“为什么高出1500分才能达到60胜率”
                      ——60胜率并不精准,我自己也开过小号,你高1500有可能打出70+胜率,也可能是55胜率,完全看你怎么玩,是什么风格,这是模型不合理的原因之一。你开小号玩什么绝活黑鸟蓝猫影魔TA,胜率有时候能直飙80,而你开个小号玩下水道水人PA,搞不好会淹死。
                      但我们假设它合理,且为方便计算,我们假定高出1500分能打出64胜率,也就是4000分万古打统帅(2500分)局是64胜率。注意elo的RA/RB最开始是针对单体游戏(下棋)设计的,在5v5游戏算的是平均分,也就是说表面上你高出了1500分,实际上两边平均分只差了300。
                      把这个(RB-RA=300)代入到上面的公式,我们可以算出K=1200,可以认为这就是V社主动填的数值,也是这个模型背后的意义——你一个4000分选手打2500分局,跟五个2800分选手vs五个2500分选手,在这个模型中被认为是胜率一样的,胜率自然高不到哪去。
                      实际胜率一不一样是另一回事,既然你采用了elo,你肯定要默认它一样。


                      IP属地:北京35楼2024-06-13 12:07
                      收起回复
                        Glicko:
                        续上文,glicko算法就是用来解决(elo)这个问题的,它引入了一个变量RD(Ratings Deviation,评分偏差),用于衡量玩家当前分数的可靠性。RD越高,我们认为他的分数越不可靠,对局加减分幅度越大,反之亦然。也就是说,调分幅度不仅由对局胜率决定,还受玩家自身的RD影响。这里我们能在游戏中看到的数字是置信度,置信度可以粗暴理解为跟RD值成反比的一个用来展示利于玩家理解的数。
                        RD会伴随着固定的评级周期提升,每个周期结束,所有玩家的RD都会自动增加(对应于Dota2的置信度衰减),同时,每场对局结束,RD都会缩小,一个玩家近期玩游戏越频繁,RD值越低(置信度越高),直到降低到人为设定的最小值。
                        glicko算法考虑到了新玩家/回坑老玩家的分数不准确问题,也是新号/长时间不玩的号上分/掉分快的源头。
                        但同样,glicko算法也有缺陷,它基于一个假设:玩家的水平在短时间内不会产生大幅变动。
                        但在信息发达的今天,玩家完全可以观看直播、查看攻略、勤奋练习甚至高人指点,在短时间内得到大幅提高,也可能因为买号等v社不提倡的途径,水平出现大幅下降,甚至于上版本靠轮椅无脑冲分这版本轮椅削废了,这时候根据每局输赢分数微调,也是不太合理的。


                        IP属地:北京36楼2024-06-13 12:16
                        收起回复
                          Glicko-2:
                          上述缺陷,也就是glicko-2算法改进的部分。它又引入了一个新的变量σ(Rating Volatility,评分波动度),用于衡量玩家评分的预期波动程度,即他们的表现是否波动不定。当选手的表现水平一致时,其评分波动度将较低;而在一段一致表现之后取得异常强劲的结果时,评分波动度将增加。
                          在玩家水平剧烈波动期间,σ值会陡增,从而使得RD值增加,此时尽管你高频率在进行游戏,但你输/赢一局调分幅度会增加。“触发glicko-2”的表现之一就是“跳分”,也就是说你打大众分段,原本置信度100,应该是赢一局+26左右,突然你发现开始快速跳段,赢一局能涨大几十分,大概就是glicko-2的改进版开始生效了。
                          我水平有限,没有打出过那种连着十几甚至几十把的宰猪战绩,暂时没有找到证据表明v社是否引入了glicko-2,但我们可以清楚看到,它依然只是个分数调整算法,跟“是否给你匹配到坑b/赵云”没有丝毫关系。
                          glicko-2算是elo改进版的改进版,已经是目前最成熟且使用广泛的排位算法了。
                          思考:在对局胜负很大程度上取决于你的个人能力的时候,glicko-2是非常高效的,但如果不是呢?dota2是个团队游戏,输赢很大程度上取决于队友,你的发挥有时候高度取决于你跟未知队友间的化学反应,甚至取决于巨大的随机性,而不完全是你的个人能力。也就是说,能够以你个人水平影响胜负的局,并没有那么多。——但这并不是匹配机制主动施加给你的


                          IP属地:北京38楼2024-06-13 12:38
                          收起回复
                            好,评分算法讲完了,照理说ELO已经终结了。
                            但咱不是干活干一半的人,我知道大部分人关心的是匹配系统有没有问题,或者说坚信匹配系统一定有动手脚,并不关心elo算法怎么算。
                            下面开始说匹配机制,打字真累,先休息


                            IP属地:北京39楼2024-06-13 12:44
                            回复

                              这是v社员工的公开回复。
                              原帖已经被发帖人删除归档了,但网络上还能找到痕迹(不止这一条)
                              我觉得最搞笑的是这么明显的辟谣贴,当初有吧友把这图发给我杠,然后说这是v社员工承认存在50机制的证据。这就是传说中的小学阅读水平吗
                              粗略解读一下:
                              1. Dota2匹配系统不了解你的经济物品库存、账户总价值或其他财务数字。
                              2. Dota天梯只会根据公开MMR估算你在排位赛中的Dota技能。且并不存在“秘密技能值”(也就是很多吧友脑补的用来给赵云排阿斗的隐藏分),但确实存在一种隐藏分,因为非排位赛匹配也是需要一个分数参考值的,这个分数就叫隐藏分(跟天梯没有关系)。
                              3. 在尝试创建匹配时,Dota的匹配系统的确不止使用MMR,还使用许多其他因素来确保队伍的兼容性。行为评分就是一个很好的例子。
                              4. 由于高分局人数很少,这些非技能因素的影响会降低(当时没有选马局,但也对高分局做了一定优化,因为样本过少,非技能因素会导致一定程度上的不平衡)
                              5. 终身50%胜率是一个单排账号的最终结果,局数越多,你越是会维持在自己实力应该属于的分段,那时你的胜率完全由随机性主导。即如果匹配机制合理,你的胜率一定会是在50%左右,这才是真实的50机制。
                              当然,这是两年多以前的贴子,现在的天梯机制已经发生了变化。由于v社主动让天梯分膨胀,赢了加分多输了扣分少。玩家的终身胜率已经不是往50%靠了,而是在逼近48%——即24 / (24+26)


                              IP属地:北京45楼2024-06-13 13:58
                              收起回复