5) BOX PLOT

-Un box-plot (también conocido como gráfico de caja y bigotes) es un modo práctico para mostrar grupos de datos numéricos, como:

.Valor mínimo y valor máximo
.Cuartil superior y cuartil inferior
.Valores de la mediana
.Valores atípicos y valores extremos
-Los espaciados entre las diferentes partes del box-plot indican el grado de dispersión y sesgo de los datos e identifican los valores atípicos.

CUARTIL: Los cuartiles son valores que dividen una muestra de datos en cuatro partes iguales. Utilizando cuartiles puede evaluar rápidamente la dispersión y la tendencia central de un conjunto de datos, que son los pasos iniciales importantes para comprender sus datos.

Por ejemplo, para los siguientes datos: 7, 9, 16, 36, 39, 45, 45, 46, 48, 51



    .Q1 = 14.25
    .Q2 (mediana) = 42
    .Q3 = 46.50
    Rango Intercuartil = 14.25 a 46.50 ó 32.25

  • *NOTA: Los cuartiles son valores calculados, no observaciones en los datos. A menudo es necesario interpolar entre dos observaciones para calcular un cuartil con exactitud. 
  • Debido a que no son afectados por observaciones extremas, la mediana y el rango intercuartil constituyen una mejor medida de la tendencia central y la dispersión de conjuntos de datos altamente asimétricos, en comparación con la media y la desviación estándar.




A continuación figuran las diferentes partes del box-plot:




*La línea situada en la parte central de las cajas es la mediana. La mitad de los casos tiene un valor superior a la mediana y la mitad tiene un valor inferior. Igual que la media, la mediana es una medida de la tendencia central. A diferencia de la media, tiene menos influencia de los casos con valores extremos.

*La parte inferior de la caja indica el percentil 25. El 25% de los casos tiene valores por debajo del percentil 25. La parte superior de la caja representa el percentil 75. El 25% de los casos tiene valores por encima del percentil 75. Esto significa que el 50% de los casos se encuentra dentro de la caja.
.El rango intercuartílico (IQR) es la diferencia entre los percentiles 75 y 25 y corresponde a la longitud de la caja.

*Las barras T que se extienden desde las cajas se denominan bigotes. Se extienden hasta el valor mínimo y máximo que es igual o menor que 1,5 veces el IQR del final de una caja.
.Si los datos están distribuidos con normalidad, se espera que aproximadamente el 95% de los datos se encuentre entre los bigotes.

*Un box-plot puede contener valores atípicos marcados como círculos y valores extremos marcados como asteriscos.

.Los valores atípicos son valores entre 1,5 y 3 IQR del final de una caja.
.Los valores extremos están a más de 3 IQR del final de una caja.













Comentarios

Entradas más populares de este blog

2) MUESTREOS: VENTAJAS Y DESVENTAJAS

1) Estadística aplicada, generalidades: Población, variables y muestra (muestreo)