sábado, 22 de noviembre de 2014

RECTA DE REGRESIÓN MÍNIMOS CUADRADOS

Cuando la nube de puntos adopta una forma definida, se pueden aproximar sus puntos mediante una línea curva en general, que llamamos curva de regresión.

Sólo nos ocuparemos del caso en el que la curva de regresión es una recta, llamada recta de regresión. Nos centraremos entonces en calcular la ecuación de una recta que "mejor se adapte" a una nube de puntos dada. En los ejemplos anteriores lo hemos hecho a ojo, ahora lo haremos con un criterio más preciso.

Para ello existen varios métodos, siendo el más utilizado el de los mínimos cuadrados. Consiste en hacer mínima la suma de los cuadrados de las diferencias entre los valores experimentales y los obtenidos mediante la recta. Por lo tanto, si consideramos la Y=aX+b, mediríamos lo bien (o mal) que se ajusta a nuestros puntos por medio de la cantidad

   i=1 N ( y i ( a x i +b ) ) 2 =  i=1 N ( y i a x i b ) 2

 

y la recta que estamos buscando es la que haga esta cantidad lo más pequeña posible.

Una vez realizados los cálculos correspondientes, se tiene que la ecuación de la recta de regresión es:

y y ¯ = σ xy σ x 2 (x x ¯ )

donde σx σy  son las desviaciones típicas de x e y.

Se comprueba que, como indicamos anteriormente, la recta obtenida pasa por el punto (x, y) que coincide con el centro de gravedad de la nube de puntos.

Ejemplo: Para el ejemplo de Pesos (kgs.) - Estaturas (cms.)

Peso en Kgs.

60

65

70

70

68

50

60

Altura en cms.

167

170

170

180

170

155

160

Frecuencias (ni)

1

5

2

4

2

1

1

y - y = 1.11(x-x )

atan (1.11) = 47,89 º

COEFICIENTE DE CORRELACIÓN DE PEARSON
En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables aleatoriascuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas
.En el caso de que se esté estudiando dos variables aleatorias x e ysobre una población; el coeficiente de correlación de Pearson se simboliza con la letra \rho_{x,y}, siendo la expresión que nos permite calcularlo:
\rho_{X,Y}={\sigma_{XY} \over \sigma_X \sigma_Y} ={E[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y},
Donde:
De manera análoga podemos calcular este coeficiente sobre unestadístico muestral, denotado como r_{xy} a:

r_{xy}=\frac{\sum x_iy_i-n \bar{x} \bar{y}}{n s_x s_y}=\frac{n\sum x_iy_i-\sum x_i\sum y_i}
{\sqrt{n\sum x_i^2-(\sum x_i)^2}~\sqrt{n\sum y_i^2-(\sum y_i)^2}}.

Interpretación[editar]

Varios grupos de puntos (xy), con el coeficiente de correlación para cada grupo. Nótese que la correlación refleja la no linealidad y la dirección de la relación lineal. En la figura del centro, la varianza de yes nula, por lo que la correlación es indeterminada.
El valor del índice de correlación varía en el intervalo [-1,1]:
  • Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominadarelación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante.
  • Si 0 < r < 1, existe una correlación positiva.
  • Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son independientes: pueden existir todavía relaciones no lineales entre las dos variables.
  • Si -1 < r < 0, existe una correlación negativa.
  • Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante.


Desviación estándar

La desviación estándar (σ) mide cuánto se separan los datos.
La fórmula es fácil: es la raíz cuadrada de la varianza. Así que, "¿qué es la varianza?"

Varianza

la varianza (que es el cuadrado de la desviación estándar: σ2) se define así:
Es la media de las diferencias con la media elevadas al cuadrado.
En otras palabras, sigue estos pasos:
1. Calcula la media (el promedio de los números)
2. Ahora, por cada número resta la media y eleva el resultado al cuadrado (la diferencia elevada al cuadrado).
3. Ahora calcula la media de esas diferencias al cuadrado. (¿Por qué al cuadrado?)

Ejemplo

Tú y tus amigos habéis medido las alturas de vuestros perros (en milímetros):
Las alturas (de los hombros) son: 600mm, 470mm, 170mm, 430mm y 300mm.
Calcula la media, la varianza y la desviación estándar.

Respuesta:

Media =  
600 + 470 + 170 + 430 + 300
  =  
1970
  = 394
5
5
así que la altura media es 394 mm. Vamos a dibujar esto en el gráfico:
Ahora calculamos la diferencia de cada altura con la media:
Para calcular la varianza, toma cada diferencia, elévala al cuadrado, y haz la media:
Varianza: σ2 =  
2062 + 762 + (-224)2 + 362 + (-94)2
  =  
108,520
  = 21,704
5
5
Así que la varianza es 21,704.
Y la desviación estándar es la raíz de la varianza, así que:
Desviación estándar: σ = √21,704 = 147
y lo bueno de la desviación estándar es que es útil: ahora veremos qué alturas están a distancia menos de la desviación estándar (147mm) de la media:
Así que usando la desviación estándar tenemos una manera "estándar" de saber qué es normal, o extra grande o extra pequeño.
Los Rottweilers son perros grandes. Y los Dachsunds son un poco menudos... ¡pero que no se enteren!

*Nota: ¿por qué al cuadrado?

Elevar cada diferencia al cuadrado hace que todos los números sean positivos (para evitar que los números negativos reduzcan la varianza)
Y también hacen que las diferencias grandes se destaquen. Por ejemplo 1002=10,000 es mucho más grande que 502=2,500.
Pero elevarlas al cuadrado hace que la respuesta sea muy grande, así que lo deshacemos (con la raíz cuadrada) y así la desviación estándar es mucho más útil.
MEDIDAS DE TENDENCIA CENTRAL
Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición.1 En este caso se incluyen también los cuantiles entre estas medidas.
Entre las medidas de tendencia central tenemos:
Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo que las medidas de posición o medidas de tendencia se usan de acuerdo al tipo de variable que se está observando, en este caso se observan variables cuantitativas.
La media aritmética es el valor obtenido por la suma de todos sus valores dividida entre el número de sumadores.
Por ejemplo, las notas de 5 alumnos en una prueba:
niño     nota
 1       6,0    ·Primero, se suman las notas:
 2       5,4        6,0+5,4+3,1+7,0+6,1 = 27,6
 3       3,1    ·Luego el total se divide entre la cantidad de alumnos:
 4       7,0         27,6/5=5,52
 5       6,1    
· La media aritmética en este ejemplo es 5,52
La media aritmética es, probablemente, uno de los parámetros estadísticos más extendidos.2 Se le llama también promedio o, simplemente, media.

Definición formal[editar]

Dado un conjunto numérico de datos, x1x2, ..., xn, se define su media aritmética como
 \overline{x} = \frac{x_1 + x_2 + ... + x_n}{n} = \frac{1}{n}\sum_{i=1}^n x_i
Esta definición varía, aunque no sustancialmente, cuando se trata de variables continuas, esto es, también puede calcularse para variables agrupadas en intervalos.

Propiedades[editar]

Las principales propiedades de la media aritmética son:3
  • Su cálculo es muy sencillo y en él intervienen todos los datos.
  • Su valor es único para una serie de datos dada.
  • Se usa con frecuencia para comparar poblaciones, aunque es más apropiado acompañarla de una medida de dispersión.
  • Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos, ya que tiene la propiedad de equilibrar las desviaciones de los datos respecto de su propio valor:
 \frac{1}{n}\sum_{i=1}^n (x_i-\overline{x}) = \frac{1}{n}\sum_{i=1}^n x_i - \frac{1}{n}\sum_{i=1}^n \overline{x} = \overline{x} - \overline{x} = 0
  • Minimiza las desviaciones cuadráticas de los datos respecto de cualquier valor prefijado, esto es, el valor de  \frac{1}{n}\sum_{i=1}^n (x_i-k)^2 es mínimo cuando k = \overline{x}. Este resultado se conoce como Teorema de König. Esta propiedad permite interpretar uno de los parámetros de dispersión más importantes: la varianza.
x_i' = ax_i+b entonces \overline{x'} = a \overline{x} + b, donde \overline{x'} es la media aritmética de los x_i', para i = 1, ..., n y a y b números reales.

Inconvenientes de su uso[editar]

Este parámetro, aún teniendo múltiples propiedades que aconsejan su uso en situaciones muy diversas, tiene también algunos inconvenientes, como son:
  • Para datos agrupados en intervalos (variables continuas) su valor oscila en función de la cantidad y amplitud de los intervalos que se consideren.
La estatura media como resumen de una población homogénea (abajo) o heterogénea (arriba).
  • Es una medida a cuyo significado afecta sobremanera la dispersión, de modo que cuanto menos homogéneos sean los datos, menos información proporciona. Dicho de otro modo, poblaciones muy distintas en su composición pueden tener la misma media.4 Por ejemplo, un equipo de baloncesto con cinco jugadores de igual estatura, 1,95 m, evidentemente, tendría una estatura media de 1,95 m, valor que representa fielmente a esta población homogénea. Sin embargo, un equipo de jugadores de estaturas más heterogéneas, 2,20 m, 2,15 m, 1,95 m, 1,75 m y 1,70 m, por ejemplo, tendría también, como puede comprobarse, una estatura media de 1,95 m, valor que no representa a casi ninguno de sus componentes.
  • En el cálculo de la media no todos los valores contribuyen de la misma manera. Los valores altos tienen más peso que los valores cercanos a cero. Por ejemplo, en el cálculo del salario medio de un empresa, el salario de un alto directivo que gane 1.000.000 de  tiene tanto peso como el de diez empleados "normales" que ganen 1.000 €. En otras palabras, se ve muy afectada por valores extremos.
  • No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos.

Media aritmética ponderada[editar]

A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudio. En esos casos se puede utilizar una media ponderada.
Si x_{1},x_{2},..., x_{n} son nuestros datos y w_{1},w_{2},..., w_{n} son sus "pesos" respectivos, la media ponderada se define de la siguiente forma:
 \overline{x} = \frac{x_{1}w_{1}+x_{2}w_{2}+ ...+x_{n}w_{n}}{w_{1}+w_{2}+ ...+w_{n}}

Media muestral[editar]

Esencialmente, la media muestral es el mismo parámetro que el anterior, aunque el adjetivo "muestral" se aplica a aquellas situaciones en las que la media aritmética se calcula para un subconjunto de la población objeto de estudio.
La media muestral es un parámetro de extrema importancia en la inferencia estadística, siendo de gran utilidad para la estimación de la media poblacional, entre otros usos.

Moda[editar]

La moda es el dato más repetido de la encuesta, el valor de la variable con mayor frecuencia absoluta.5 En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva.
Su cálculo es extremadamente sencillo, pues solo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.
Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.
Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda.
Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.
La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:
\frac{p}{c-p}=\frac{n_i-n_{i-1} }{n_i-n_{i+1} }
Siendo n_{i} la frecuencia absoluta del intervalo modal y n_{i-1} y n_{i+1} las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al intervalo modal.
Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la siguiente tabla (debajo):
Calificaciones123456789
Número de alumnos224589342

Propiedades[editar]

Sus principales propiedades son:
  • Cálculo sencillo.
  • Interpretación muy clara.
  • Al depender solo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos, por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot".6

Inconvenientes[editar]

  • Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a variaciones muestrales. Por otra parte, en variables agrupadas en intervalos, su valor depende excesivamente del número de intervalos y de su amplitud.
  • Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no afectan en modo alguno a su valor.
  • No siempre se sitúa hacia el centro de la distribución.
  • Puede haber más de una moda en el caso en que dos o más valores de la variable presenten la misma frecuencia (distribuciones bimodales o multimodales).

Mediana[editar]

La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.7 Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:
\rm 
      \underbrace{1,\ 1,\ 1,\ 1,\ 1,\ 1, }_{Mitad \; inferior} \;
      \underbrace{\color{Red} 2, }_{Mediana \;} \;
       \underbrace{2,\ 2,\ 2,\ 3,\ 3,\ 4}_{Mitad \; superior}
En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los siguientes:
\rm 
      \underbrace{1,\ 1,\ 1,\ 1,\ 1, }_{Valores \; inferiores} \;
      \underbrace{\color{Red} 1,\ 2, }_{Valores \; intermedios} \;
      \underbrace{2,\ 2,\ 3,\ 3,\ 4}_{Valores \; superiores}
Se toma como mediana  1,5 = \frac{{\color{Red}1}+{\color{Red}2}}{2}
Existen métodos de cálculo más rápidos para datos más numerosos (véase el artículo principal dedicado a este parámetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.

Cálculo de la mediana para datos agrupados[editar]

Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla del margen derecho).
Así, aplicando la fórmula asociada a la mediana para n impar, obtenemos X(39+1)/2 = X20 y basándonos en la fórmula que hace referencia a las frecuencias absolutas:
Ni-1< n/2 < i = N19 < 19.5 < N20
Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar. En nuestro ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos (es aconsejable no olvidar las unidades; en este caso como estamos hablando de calificaciones, serán puntos)
La mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o más.
Ejemplo (N par)
Las calificaciones en la asignatura de Matemáticas de 38 alumnos de una clase viene dada por la siguiente tabla (debajo):
Calificaciones123456789
Número de alumnos224569442
xifiFi
122
224
348
4513
5619 = 19
6928
7432
8436
9238
Calculemos la Mediana:
Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla margen derecho).
Si volvemos a utilizar la fórmula asociada a la mediana para n par, obtenemos X(38/2) = X19 y basándonos en la fórmula que hace referencia a las frecuencias absolutas --> Ni-1< n/2 < Ni = N18 < 19 < N19
Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el decimonoveno y el vigésimo lugar.
En nuestro ejemplo, el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6, (desde el vigésimo hasta el vigésimo octavo)
con lo que Me = (5+6)/2 = 5,5 puntos.

Propiedades e inconvenientes[editar]

Las principales propiedades de la mediana son:8
  • Es menos sensible que la media a oscilaciones de los valores de la variable. Un error de transcripción en la serie del ejemplo anterior en, pongamos por caso, el último número, deja a la mediana inalterada.
  • Como se ha comentado, puede calcularse para datos agrupados en intervalos, incluso cuando alguno de ellos no está acotado.
  • No se ve afectada por la dispersión. De hecho, es más representativa que la media aritmética cuando la población es bastante heterogénea. Suele darse esta circunstancia cuando se resume la información sobre los salarios de un país o una empresa. Hay unos pocos salarios muy altos que elevan la media aritmética haciendo que pierda representatividad respecto al grueso de la población. Sin embargo, alguien con el salario "mediano" sabría que hay tanta gente que gana más dinero que él, como que gana menos.
Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor varía en función de la amplitud de estos. Por otra parte, no se presta a cálculos algebraicos tan bien como la media aritmética.

    Véase también[editar]

    TABLAS POR INTERVALOS
     
    1- Tablas de frecuencias con datos agrupados
     
    Cuando los valores de la variable son muchos, conviene agrupar los datos en intervalos o clases para así realizar un mejor análisis e interpretación de ellos. 
     
    • Para construir una tabla de frecuencias con datos agrupados, conociendo los intervalos, se debe determinar la frecuencia absoluta (fi) correspondiente a cada intervalo, contando la cantidad de datos cuyo valor está entre los extremos del intervalo. Luego se calculan las frecuencias relativas y acumuladas, si es pertinente.
     
    • Si no se conocen los intervalos, se pueden determinar de la siguiente manera:
     
    - Se busca el valor máximo de la variable y el valor mínimo. Con estos datos se  determina el rango
     
     - Se divide el rango en la cantidad de intervalos que se desea tener, obteniéndose así la amplitud o tamaño  de cada intervalo. 
     
     - Comenzando por el mínimo valor de la variable, que será el extremo inferior del  primer intervalo, se suma a este valor la amplitud para obtener el extremo superior  y así sucesivamente.
     
    Veamos como se resuelve el siguiente ejercicio del libro Santillana 8:
     
    En un centro comercial, se consultó la edad a todas las personas que entraban entre las 12:00 h y 12:30 h. Los resultados obtenidos fueron los siguientes:
     
    tablas_de_frecuencias_datos_agrupados.jpg (416×149)
     
    Construye una tabla de frecuencias cuyos datos estén agrupados en ocho intervalos.
     
    1°Para poder construir la tabla de frecuencias lo primero que debemos hacer es calcular el rango.
     
    El rango da la idea de proximidad de los datos a la media. Se calcula restando el dato menor al dato mayor.
     
    El dato mayor y el menor lo hemos destacado con color rojo:
     
    Dato mayor - dato menor =  73 - 1 =  72
    Por lo tanto; Rango = 72

    2° En el problema nos dicen que debemos agruparlo en 8 intervalos o clases, con este dato podemos calcular la amplitud o tamaño de cada intervalo, dividiendo el valor del rango por la cantidad de intervalos que se desean obtener (en este caso son 8).
    tablas_de_frecuencias_datos_agrupados_amplitud.jpg (273×97)
    72 / 8 = 9

    Por lo tanto la amplitud de cada intervalo será de 9
    3° Ahora podemos comenzar a construir la tabla de frecuencias:

    tablas_de_frecuencias_datos_agrupados_2.jpg (624×288)

    Responder las siguientes preguntas:
    a) Del total de personas encuestadas, ¿cuántas personas tienen entre 31 y 40 años?
    Respuesta: Observamos los datos obtenidos en la tabla y tenemos que:

    tablas_de_frecuencias_datos_agrupados_3.jpg (624×27)
    El dato lo obtenemos de la columna de la frecuencia absoluta.
    Recuerda que:
    Frecuencia absoluta Corresponde a la cantidad de veces que se repite un dato. Denotamos este valor por fi.
    Por lo tanto la respuesta es 6 personas.

    b) Del total de personas encuestadas, ¿cuántas personas tienen 60 o menos años?
    Respuesta: Observamos los datos obtenidos en la tabla y tenemos que:
    tablas_de_frecuencias_datos_agrupados_4.jpg (624×27)

    El dato lo obtenemos de la columna de frecuencia absoluta acumulada.

    Recuerda que:
    Frecuencia absoluta acumulada es la suma de las frecuencias absolutas observadas hasta el intervalo i.
    En este caso es el intervalo 6. Por lo tanto la respuesta es 36 personas tienen 60 o menos años.

    c) ¿Cuál es la probabilidad de, que al elegir al azar a un persona consultada, esta tenga entre 11 y 20 años?
    Respuesta: Observamos los datos obtenidos en la tabla y tenemos que:
    tablas_de_frecuencias_datos_agrupados_5.jpg (554×27)

    El dato lo obtenemos de la columna de frecuencia relativa.
    Recuerda que:
    Frecuencia relativa Corresponde a la probabilidad de pertenecer a cierta categoría. Se puede expresar en tantos por ciento.
    En este caso es el intervalo 2,  ya que es ahí donde se encuentran las edades entre 11 y 20 años.
    Entonces la respuesta es: La probabilidad es  14%.
     
     
    Por último vamos a repasar el concepto de:
     
    Frecuencia relativa acumulada (Hi), Es la probabilidad de observar un valor menor o igual al valor que toma la variable en estudio en ese intervalo.
     
    Se calcula dividiendo Fi por el número total de datos. También puedes calcularlo Sumando la frecuencia relativa de cada grupo con la frecuencia relativa acumulada del grupo anterior. 
     
    Si haces correctamente estos cálculos, el último grupo tendrá una frecuencia acumulada de 1, o muy cerca de 1, permitiendo redondear el error.
    Recuerda que este valor se puede expresar como porcentaje, para esto solo debes multiplicar el valor obtenido por 100 y listo!!!
     
    Este calculo te sirve en el caso de que te pregunten:
     
    d) Si le preguntas a una persona cualquiera ¿Cuál es la probabilidad de que tenga 50 años o menos?
     
    tablas_de_frecuencias_datos_agrupados_6.jpg (651×27)