Prueba de hipotesis con dos muestras y varias muestras de datos numericos

Prueba de hipotesis con dos muestras y varias muestras de datos numericos

Ejemplo de prueba de dos muestras

Para comprobar si las medias son iguales para más de dos grupos, realizamos una prueba de análisis de la varianza. Una prueba ANOVA determinará si la variable de agrupación explica una parte significativa de la variabilidad de la variable dependiente. Si es así, esperaríamos que la media de la variable dependiente fuera diferente en cada grupo. Los supuestos de una prueba ANOVA son los siguientes:
En este conjunto de datos Pima.tr el IMC se almacena en formato numérico, por lo que necesitamos categorizar el IMC primero ya que estamos interesados en saber si el IMC categórico está asociado con la concentración de glucosa en plasma. En el Ejercicio, se puede utilizar una sentencia «if-else-» para crear la variable bmi.cat. Alternativamente, también podemos utilizar la función cut(). Dado que tenemos muy pocos individuos con IMC < 18.5, colapsaremos las categorías «Bajo peso» y «Peso normal» juntas.
Aparentemente, el nivel de glucosa varía en las diferentes categorías. Ahora podemos solicitar la tabla ANOVA para este análisis para comprobar si el resultado de la prueba de hipótesis coincide con nuestra observación en las estadísticas de resumen.

Fórmula de la prueba t de dos muestras

En estadística, las pruebas t son un tipo de prueba de hipótesis que permite comparar medias. Se llaman pruebas t porque cada prueba t reduce los datos de la muestra a un número, el valor t. Si entiendes cómo las pruebas t calculan los valores t, estás en camino de entender cómo funcionan estas pruebas.
En esta serie de entradas, me estoy centrando en conceptos más que en ecuaciones para mostrar cómo funcionan las pruebas t. Sin embargo, esta entrada incluye dos ecuaciones sencillas que voy a analizar utilizando la analogía de la relación señal/ruido.
Si no hay diferencia entre la media de la muestra y el valor nulo, la señal en el numerador, así como el valor de la relación completa, es igual a cero. Por ejemplo, si la media de la muestra es 6 y el valor nulo es 6, la diferencia es cero.
El denominador es el ruido. La ecuación en el denominador es una medida de variabilidad conocida como el error estándar de la media. Esta estadística indica la precisión con la que su muestra estima la media de la población. Un número mayor indica que la estimación de su muestra es menos precisa porque tiene más error aleatorio.

Prueba de dos muestras en r

Utilice un método de comparación múltiple. El análisis de la varianza (ANOVA) es uno de estos métodos. Otros métodos de comparación múltiple incluyen la prueba de Tukey-Kramer de todas las diferencias entre pares, el análisis de medias (ANOM) para comparar las medias de los grupos con la media general o la prueba de Dunnett para comparar la media de cada grupo con una media de control.
Si el tamaño de la muestra es muy pequeño, es posible que no pueda comprobar la normalidad. Puede que tenga que confiar en su comprensión de los datos. Cuando no pueda asumir con seguridad la normalidad, puede realizar una prueba no paramétrica que no asuma la normalidad.
Una forma de medir el estado físico de una persona es medir su porcentaje de grasa corporal. Los porcentajes medios de grasa corporal varían según la edad, pero según algunas directrices, el rango normal para los hombres es del 15-20% de grasa corporal, y el rango normal para las mujeres es del 20-25% de grasa corporal.
Se puede ver claramente que las medidas de grasa corporal de los hombres y las mujeres de nuestra muestra coinciden, pero también hay algunas diferencias. Sólo con mirar los datos, es difícil sacar conclusiones sólidas sobre si las poblaciones subyacentes de hombres y mujeres en el gimnasio tienen la misma media de grasa corporal. Ese es el valor de las pruebas estadísticas: proporcionan una forma común y estadísticamente válida de tomar decisiones, de modo que todo el mundo toma la misma decisión sobre el mismo conjunto de valores de datos.

Ejemplo de prueba de hipótesis de dos muestras

FIGURA 3.9: La distribución nula para las diferencias de medias obtenidas mediante aleatorización. La diferencia original se marca mediante la línea azul. La línea roja marca el valor que corresponde al valor P de 0,05
de la prueba. Para explicarlo mejor, un valor p de 0,05 implica que el 5% de todas las pruebas serán falsos positivos. Un valor p ajustado al FDR de 0,05 implica que el 5% de las pruebas significativas serán falsos positivos. Los valores P ajustados al FDR darán lugar a un menor número de falsos positivos.
Los métodos son \hat{V_g} = aV_0 + bV_g\), donde \(V_0\) es la variabilidad de fondo y \(V_g\) es la variabilidad individual. Entonces, estos métodos estiman \(a\) y \(b\) de varias maneras para llegar a una versión «reducida» de la variabilidad, \(\hat{V_g}\). La inferencia bayesiana puede hacer uso del conocimiento previo para hacer inferencia sobre las propiedades de los datos. En un punto de vista bayesiano,
A continuación, utilizamos las estimaciones del error estándar ajustado en el espíritu bayesiano empírico, pero de una manera muy cruda. Simplemente reducimos las estimaciones de error estándar por genes hacia la mediana con pesos iguales \(a\) y \(b\). Es decir, añadimos la estimación individual a la

Acerca del autor

admin

Ver todos los artículos