Coeficiente de correlación de Spearman

El coeficiente de correlación de Spearman es menos sensible que el de Pearson para los valores muy lejos de lo esperado. En este ejemplo: Pearson = 0.30706 Spearman = 0.76270

En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.

El estadístico ρ viene dado por la expresión:

donde D es la diferencia entre los correspondientes estadísticos de orden de x - y. N es el número de parejas.

Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia

Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student

La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.

Ejemplo

Los datos brutos usados en este ejemplo se ven debajo.

CI Horas de TV a la semana
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17

El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas 'orden(i)' y 'orden(t)'

Para el orden i, se corresponderán con el número de fila del cuadro, para 99, orden(i) =3 ya que ocupa el 3.er lugar, ordenado de menor a mayor

para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro cuadro, la secuencia ordenada quedaría

    T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 }

para este caso, el orden sería para cada elemento, respectivamente:

 orden(t) = { 1, 2, 3, 4,  5, 6, 7, 8, 9, 10 }

sin embargo, el valor de orden está dado por el valor promedio de sus posiciones, así para:

7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5

28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8

50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10

Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.

Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:

CI (i) Horas de TV a la semana (t) orden(i) orden(t) d d2
86 0 1 1 0 0
97 20 2 6 4 16
99 28 3 8 5 25
100 50 4.5 10 5.5 30.25
100 28 4.5 8 3.5 12.25
103 28 6 8 2 4
106 7 7 2.5 4.5 20.25
110 17 8 5 3 9
113 7 9.5 2.5 7 49
113 12 9.5 4 5.5 30.25

Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran.

Los valores de la columna d2 pueden ser sumados para averiguar . El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula.

De lo que resulta .

Other Languages