Herramientas de usuario

Herramientas del sitio


es:manual:analisis:test:validez

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anteriorRevisión previa
Próxima revisión
Revisión previa
es:manual:analisis:test:validez [2022/05/19 18:49] rootes:manual:analisis:test:validez [2022/05/21 08:43] (actual) – [Fiabilidad] root
Línea 1: Línea 1:
-===== Conceptos de validez y fiabilidad ===== 
  
-En el campo de la evaluación se distingue entre dos conceptos fundamentales: La validez y la fiabilidad.  La validez hace referencia a la correspondencia entre lo que se quiere medir y lo que realmente se mide, mientras que la fiabilidad hace referencia a la precisión con la que se mide. El siguiente gráfico es bastante ilustrativo. Evidentemente lo deseable es que concurran ambos aspectos, pero en cualquier caso, la validez siempre es preferible a la fiabilidad.+===== Validez =====
  
- +==== Validez del constructo ====
-{{ es:manual:analisis:test:validez-fiabilidad.png?300 |Validez y fiabilidad }} +
- +
- +
-==== Validez ==== +
- +
-=== Validez del constructo ===+
  
 En el campo de la psicometría a su vez se hacen diferencias entre distintos tipos de validez. El concepto de validez mas común es el que se conoce como "validez del constructo" y es al que nos referimos en general al hablar de validez. Un test tiene validez si los resultados dependen realmente del conocimiento de la materia que se está midiendo y no de cualquier otro factor. Es decir, si las preguntas del test requieren conocimientos ajenos a la materia, o son conocidas previamente por los alumnos, la evaluación deja de ser válida. En el campo de la psicometría a su vez se hacen diferencias entre distintos tipos de validez. El concepto de validez mas común es el que se conoce como "validez del constructo" y es al que nos referimos en general al hablar de validez. Un test tiene validez si los resultados dependen realmente del conocimiento de la materia que se está midiendo y no de cualquier otro factor. Es decir, si las preguntas del test requieren conocimientos ajenos a la materia, o son conocidas previamente por los alumnos, la evaluación deja de ser válida.
  
-=== Validez de contenido ===+==== Validez de contenido ====
  
 El modelo de conocimiento clásico se basa en estimar el nivel de conocimiento global sobre una materia. Por consiguiente, si la materia esta dividida en diversos contenidos, para que la evaluación global sea válida es necesario que todos los contenidos esten representados en la evaluación, es decir que constituya una muestra adecuada y representativa de todos los contenidos de la materia a evaluar. Esto puede conseguirse simplemente con un muestreo aleatorio, si hay suficientes preguntas. El modelo de conocimiento clásico se basa en estimar el nivel de conocimiento global sobre una materia. Por consiguiente, si la materia esta dividida en diversos contenidos, para que la evaluación global sea válida es necesario que todos los contenidos esten representados en la evaluación, es decir que constituya una muestra adecuada y representativa de todos los contenidos de la materia a evaluar. Esto puede conseguirse simplemente con un muestreo aleatorio, si hay suficientes preguntas.
Línea 19: Línea 12:
 Como consecuencia directa de este concepto de validez, si los alumnos saben de antemano que solo se preguntarán ciertos temas, o que solo se hará un cierto tipo de ejercicios, la evaluación puede dejar de ser válida. Como consecuencia directa de este concepto de validez, si los alumnos saben de antemano que solo se preguntarán ciertos temas, o que solo se hará un cierto tipo de ejercicios, la evaluación puede dejar de ser válida.
  
-=== Validez convergente ===+==== Validez convergente ====
  
 Se habla de validez convergente cuando las mediciones del conocimiento de una materia realizadas con distintos métodos correlacionan entre sí. Es decir, si se mide mediante un test de preguntas de opción múltiple o mediante preguntas abiertas, o mediante ejercicios de problemas el conocimiento de una materia los niveles de conocimiento inferidos para un mismo alumno deberían ser iguales por los distintos métodos para que hubiera validez convergente. Se habla de validez convergente cuando las mediciones del conocimiento de una materia realizadas con distintos métodos correlacionan entre sí. Es decir, si se mide mediante un test de preguntas de opción múltiple o mediante preguntas abiertas, o mediante ejercicios de problemas el conocimiento de una materia los niveles de conocimiento inferidos para un mismo alumno deberían ser iguales por los distintos métodos para que hubiera validez convergente.
Línea 26: Línea 19:
  
 En el campo de la evaluación educativa normalmente se dice que una buena evaluación es una evaluación variada tanto en los contenidos (validez de contenidos) como en los métodos de evaluación. En el campo de la evaluación educativa normalmente se dice que una buena evaluación es una evaluación variada tanto en los contenidos (validez de contenidos) como en los métodos de evaluación.
- 
-==== Fiabilidad ==== 
- 
-El concepto de fiabilidad informalmente equivale al concepto de precisión de la medida. Un test será mas fiable cuando el error de la madida sea menor, es decir, cuando la medida que da sea lo mas cercana posible a la medida real. Sin embargo, a diferencia de la validez que es dificil de medir y cuantificar dentro de la teória clasica de los test (TCT) se han desarrollado definiciones matemáticas precisas de este concepto. Así pues, cuando se habla de //fiabilidad de un test// no nos referimos a algo abstracto o a la precisión en sentido general, sino a un valor estadístico que se puede definirse formalmente. 
- 
-La TCT se basa en el supuesto de que el nivel real de conocimiento de un alumno $V$ puede medirse mediante un número real (vease la introducción sobre modelos del conocimiento), $X$ obtenido por ejemplo como porcentaje de preguntas acertadas, pero que por efecto del azar y otros factores desconocidos ambos valores no coinciden, ya que hay siempre un cierto error $E$ en la medida, es decir:  $$V = X+E$$ 
-El modelo asume que los errores $E$ son aleatorios, que el valor medio de la suma de los errores tiende a ser 0, y que no se correlaciona ni con el valor real de conocimiento, ni con el error en otros test lo que implica que las medias son insesgadas: $$E(X) = E(V) + E(E); E(E) = \mu_X = \mu_V$$ y que el cálculo de las varianzas puede simplificarse $$\sigma_{X}^{2} = \sigma_{V}^{2} + \sigma_{E}^{2} + 2\sigma_{EV}^{2} = \sigma_{V}^{2} + \sigma_{E}^{2}$$ $$\sigma_{XV}^{2} = E((V*E)V) + E(V+E)E(V) = \sigma_{V}^{2}$$ 
- 
-El coeficiente de fiabilidad $\rho$ se define como el cuadrado del coeficiente de correlación entre la puntuación verdadera y la observada. Aplicando la definición de correlación, con la hipotesis de que los errores son aleatorios e insesgados, en este caso resulta ser proporcional a la relación entre las varianzas del error y la puntuación observada. A mayor error, menor fiabilidad. 
- 
-$$\rho_{XV}^2=\frac{\sigma_{XV}^2}{\sigma_X^2\sigma_V^2}=\frac{(\sigma_V^2)^2}{\sigma_X^2\sigma_V^2}=\frac{\sigma_V^2}{\sigma_X^2}=\frac{\sigma_X^2-\sigma_E^2}{\sigma_X^2}= 1-\frac{\sigma_E^2}{\sigma_X^2}$$ 
- 
-Sin embargo, como las puntuaciones verdaderas no se conocen, ni los errores tampoco, este coeficiente de correlación no puede hallarse directamente por lo que se recurre a estimaciones basadas en distintos supuestos. 
- 
-=== Test paralelos === 
-Consiste en hacer dos test con preguntas equivalentes, las puntuaciones verdaderas deben ser las mismas, pero las puntuaciones observadas pueden diferir por causa del error.  
- 
-$$X = V + E$$ 
-$$X' = V + E'$$ 
- 
-Suponiendo ademas que estos errores no están correlacionados entre si y que tienen igual varianza: $$\sigma_{E}^2 = \sigma_{E'}^2$$ puede deducirse que  
-$$E(VE') = E(EV) = E(EE') = 0$$ 
- 
-En este caso, la correlación entre la nota observada en el primer test y en el segundo test resulta ser exactamente el coeficiente de fiabilidad: 
- 
-$$\rho_{XX'}=\frac{E(XX')}{\sigma_X\sigma_{X'}}=\frac{E(V+E)+E(V+E'}{\sigma_X\sigma_{X'}}=\frac{E(V^2)E(VE')+E(EV)+E(EE')}{\sigma_X\sigma_{X'}}=\frac{\sigma_V^2}{\sigma_X^2}=\rho_{XV}^2$$ 
- 
-Evidentemente, suponer que el mismo test planteado dos veces al mismo alumno tendría errores completamente aleatorios, es demasiado suponer, simplemente porque el alumno recordaría las preguntas y las respuestas que dió en la primera ocasión, lo que invalida todo el planteamiento anterior. 
- 
-Sin embargo, se puede intentar una aproximación a este caso ideal, planteando lo que se denominan test paralelos, es decir, dos test distintos pero que tienen preguntas parecidas que en el fondo son casi las mismas pero cuya redacción es diferente para evitar el problema anterior. Esta técnica se denomina "test paralelos", y en la práctica tambien son muy difíciles de implementar. Para confirmar que dos test son efectivamente paralelos sus medias y desviaciones típicas deberían ser iguales. 
- 
- 
-=== $\lambda_4$ de Gutman === 
- 
-En el caso en que se planteen dos test diferentes a un mismo alumno, en el caso hipotético de que los dos test fueran perfectamente paralelos, el coeficiente de correlación entre ambos sería exactamente la fiabilidad, ya que las discrepancias solo serían debidas a los errores aleatorios. 
- 
-Si ambos test no son del todo paralelos, el valor que se obtiene de la correlación entre las puntuaciones en ambos test $\rho_{XX'}$ estaría siempre por debajo del valor de la fiabilidad. Por tanto hallar este valor nos da en cualquier caso una cota inferior de la fiabilidad del test. 
- 
-Cualquier test compuesto por $N$ preguntas puede dividirse en dos mitades, considerando cada una de ellas como un test diferente. Hallando la correlación entre ambas mitades obtendremos un valor que indica la consistencia interna del test y que es una cota inferior de la fiabilidad. Repitiendo el experimento varias veces, y tomando el mayor valor de todas las pruebas tendremos una cota inferior de la fiabilidad. 
- 
-Hay varias formas de dividir un test en dos mitades que se han usado tradicionalmente en el análisis de los test: 
- * Dividir el test en preguntas pares-impares, según el orden de presentación 
- * Ordenar la preguntas por dificultad y dividir por pares-impares. 
- * Mitades aleatorias. 
- 
-Los dos primeros casos son mas convenientes cuando el cálculo se hace manualmente, pero actualmente es mucho mas efectivo obtener las mitades de forma aleatoria y repetir el experimento muchas veces tomando el mayor valor. A este valor se le conoce como $\lambda_4$ de Gutman 
- 
- 
-=== Fórmula de Spearman-Brown === 
- 
-En general, la fiabilidad de un test aumenta al aumentar el número de preguntas que lo componen. Suponiendo que los test sean realmente paralelos, combinando dos test la fiabilidad aumenta según la conocida como fórmula de Spearman-Brown: $$\rho_{XX'}=\frac{2\rho_{12}}{1+\rho_{12}}$$ 
-en donde $\rho_{12}$ representa la correlación entre anterior (o entre ambas mitades), y  $\rho_{XX'}$ la nueva correlación. Esta fórmula puede generalizarse en el caso de combinar $N$ test paralelos: $$\rho_{XX'}^*=\frac{N\rho_{XX'}}{1+(N-1)\rho_{XX'}}$$ 
- 
-En la práctica aumentar el número de preguntas aumenta la fiabilidad, pero hasta un cierto punto, pero en el mejor de los casos el aumento no es ni mucho menos lineal. 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
-  
- 
- 
- 
  
  
es/manual/analisis/test/validez.1652986199.txt.gz · Última modificación: 2022/05/19 18:49 por root

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki