Domanda:
Regolazione ponderata per Elo relativo
Andrew Latham
2012-09-05 18:36:43 UTC
view on stackexchange narkive permalink

L'altro giorno stavo osservando i miei più grandi sconvolgimenti e ho capito che il risultato non era soddisfacente. La maggior parte di loro erano da 500-600 punti quando ero ancora molto basso (cioè 800 battendo un 1300), mentre gli sconvolgimenti che considero i maggiori sono stati quelli da 150-200 punti segnati come giocatore A o esperto. Allo stesso modo, sarebbe molto più sconvolgente se un 2650 battesse Levon Aronian rispetto a un 1500 battere un maestro. Sembra che più aumentano le valutazioni, maggiore è il valore dei punti: una differenza di 100 punti conta molto di più più si sale in alto.

Qualcuno può trovare un modo ponderato o logaritmico di rappresentare le valutazioni Elo su una sorta di scala in modo che questa sia rappresentata accuratamente e i giocatori possano essere confrontati in modo coerente, o esiste già una tale scala?

Quattro risposte:
#1
+7
Andrew
2012-09-05 18:54:22 UTC
view on stackexchange narkive permalink

Penso che il fenomeno che stai descrivendo sia dovuto alla variabilità del gioco a livelli inferiori. Elo è definito in base alla probabilità statistica che un giocatore possa battere l'altro.

Ecco la formula esatta per ottenere il punteggio atteso per un giocatore (rating = Ra) contro un avversario (rating = Rb):
ELO Rating formula

Ciò significa che un giocatore 800 ha teoricamente la stessa probabilità di battere un giocatore 1000 quanto un giocatore 2200 è battere un giocatore 2400.

Ovviamente questo non è il caso perché ai livelli più bassi, c'è una varianza molto più alta nel risultati. Questa differenza viene rilevata abbastanza bene nel sistema di classificazione Glicko. Fondamentalmente, un giocatore ha una valutazione e una deviazione di valutazione (RD) che rappresenta quanto è ben stabilita la valutazione di un giocatore. Quindi, nel tuo caso, quando sei stato valutato 800, molto probabilmente eri più vicino a 1100 o 1200 forza ma il tuo punteggio non aveva ancora raggiunto la tua forza. È uno dei difetti fondamentali in tutti i sistemi di valutazione che la valutazione sia sempre in ritardo rispetto alla forza. Se l'USCF avesse utilizzato il sistema Glicko, queste prime vittorie avrebbero comportato un salto di valutazione molto maggiore di quanto effettivamente accaduto e anche il tuo avversario avrebbe perso meno punti.

Quindi, per riassumere, mentre i sistemi di valutazione non sono perfetti e la tua forza sarà spesso superiore alla tua valutazione, un 800 che batte un 1000 e un 2600 che batte un 2800 sono entrambi ugualmente probabili da un punto di vista puramente matematico.

La risposta di Andrew dice già essenzialmente quello che sto per dire, ma potrebbe essere un'utile riformulazione. Una valutazione è solo una stima del valore reale di un parametro (forza di gioco) e quel valore cambierà nel tempo. Poiché un giocatore più debole ha il potenziale per aumentare rapidamente quel valore, mentre un giocatore forte no, possiamo aspettarci che le valutazioni dei giocatori più deboli siano generalmente stime più basse di quelle dei giocatori più forti, e quindi dovremmo vedere maggiori sconvolgimenti a quei livelli pure. L'RD del sistema Glicko fornisce un indicatore esplicito di quanto ci si possa fidare di valutazioni / stime date.
#2
+1
D M
2018-05-21 06:59:15 UTC
view on stackexchange narkive permalink

Puoi costruire qualsiasi scala desideri ... ma come è stato detto, le valutazioni sono già calcolate in modo che una particolare differenza di valutazioni produca un particolare punteggio atteso. L'adeguamento probabilmente distorcerà le cose, soprattutto se l'aggiustamento è nella misura da te suggerita e si basa esclusivamente sui numeri di valutazione (al contrario, ad esempio, del fatto che il tuo punteggio di 800 era provvisorio , ed è andato è aumentato significativamente nei pochi tornei necessari per affermare il tuo punteggio.)

Penso che sopravvaluti quanto sia raro che un 2650 batte un 2820 o giù di lì. Se c'è un divario di 170 punti nelle valutazioni, la persona inferiore dovrebbe ottenere un punteggio di circa il 27-28%. Sebbene gran parte di quel punteggio provenga dai pareggi, il giocatore più basso a volte vince. Per scoprire quanto spesso, ho guardato un database con 127K giochi al suo interno. L'ho filtrato per i giochi in cui un 2800+ ha giocato a qualcuno con 2650 o meno. C'erano 230 di questi giochi. Di questi, 16 sono stati vinti dalla parte più debole. È circa il 7%.

O forse sottovaluti quanto sia difficile per un 1500 battere un maestro. Non ho un database di giocatori con rating inferiore vs master, ma ho esaminato la cronologia dei giochi USCF di un FM classificato 2309 dal mio stato. Ha giocato 48 partite contro persone con un punteggio inferiore a 1500 da quando hanno iniziato a tenere il conto alla fine del 1991 e ha perso zero . Ha giocato 104 partite contro persone classificate 1500-1699 e ne ha perse 4. Contro persone classificate 1700-1999, ha perso 33 su 589, ovvero circa il 5,6%.

Sì, sto mescolando valutazioni USCF e FIDE per confrontando i due, ma comunque direi che un 1500 che batte un master è in realtà un turbamento più grande di un 2650 (che è quasi sufficiente per essere nella lista dei primi 100 del mondo) che batte un 2820.

Ma tu non l'ho chiesto, quindi lo metto da parte ora. Hai chiesto delle possibili formule. Una formula che potrebbe essere nello spirito di ciò che sembri intendere (pesando pesantemente l'ammontare del ribaltamento in base alla valutazione dell'avversario e influenzando tutte le aree della scala di valutazione) è:

A = D * 2 ^ ((R / 300) -5)

"A" è l'importo corretto del ribaltamento, "D" è la differenza le valutazioni e "R" è la valutazione dell'avversario. Il 2 significa che il ribaltamento aggiustato raddoppia per un dato ammontare del rating dell'avversario (se fosse un 3 triplicherebbe invece), e il 300 rappresenta l'importo necessario per effettuare quel cambiamento. (Il 5 è solo per la scala.) Quindi, con questa formula, per ogni 300 punti che viene valutato l'avversario, l'ammontare aggiustato del ribaltamento raddoppia.

Personalmente penso che sia modo troppo ripida (una differenza nei 1500 punti di valutazione dell'avversario significa che è aggiustata di un fattore 32, e non credo che si possa mai dire che una differenza di 10 punti è uguale a una differenza di 320 punti) ma sembra adattarsi a ciò che era ricercato. Questa formula renderebbe un 2650 che batte un 2820 leggermente migliore di un 1500 che batte un 2200 e renderebbe un 1800 che batte un 1950 meglio di un 800 che batte un 1300.

#3
  0
edwina oliver
2020-02-08 22:49:56 UTC
view on stackexchange narkive permalink

Potresti trovare molti modi più complicati per misurare le prestazioni, ma ciò non risolverebbe adeguatamente l'inconsistenza e la VARIABILITÀ dei giocatori con valutazioni inferiori.

Inoltre, le valutazioni non sono affatto accurate a livelli bassi perché ci è una miscelazione insufficiente della concorrenza. I migliori GM giocano da soli, il che è un gruppo molto più piccolo di quelli che valutano i giocatori a livello di club in tutto il mondo o anche in un grande paese. Del resto, un piccolo paese dovrebbe avere più giocatori deboli del totale di TUTTI i GM nel mondo.

E le valutazioni stimano solo il RENDIMENTO PASSATO, che come dicono gli annunci non è una garanzia del rendimento futuro. I bambini migliorano, molto; e GM invecchiano e di solito leggermente più deboli.

#4
-1
Jamal Munshi
2014-08-29 06:00:07 UTC
view on stackexchange narkive permalink

Il punto debole del sistema di valutazione Elo è che si basa sul "punteggio", ovvero sulla sostituzione dei risultati delle partite di scacchi trinomiali con "punteggi" binomiali (vittoria = 1, sconfitta = 0, pareggio = 1/2). Il punteggio causa la perdita di alcune informazioni sui risultati del gioco. Ho effettuato una misura empirica della perdita di informazioni e l'ho trovata significativa. Ho proposto una misura bidimensionale del rendimento che è più accurata perché contiene più informazioni.

non posso leggere il giornale senza un altro account


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...