Este estudio replicado examina si las opiniones de los probadores de software—como las técnicas preferidas, la complejidad percibida y el rendimiento autoevaluado—influyen en suEste estudio replicado examina si las opiniones de los probadores de software—como las técnicas preferidas, la complejidad percibida y el rendimiento autoevaluado—influyen en su

Un Estudio de Replicación sobre Percepción vs Efectividad de las Pruebas de Software

2025/12/18 04:00

Tabla de enlaces

Resumen

1 Introducción

2 Estudio original: Preguntas de investigación y metodología

3 Estudio original: Amenazas a la validez

4 Estudio original: Resultados

5 Estudio replicado: Preguntas de investigación y metodología

6 Estudio replicado: Amenazas a la validez

7 Estudio replicado: Resultados

8 Discusión

9 Trabajo relacionado

10 Conclusiones y referencias

\

5 Estudio replicado: Preguntas de investigación y metodología

Decidimos investigar más a fondo los resultados del estudio original en busca de posibles causas detrás de las percepciones erróneas. La psicología considera que las percepciones de las personas pueden verse afectadas por características personales como actitudes, intereses personales y expectativas. Por lo tanto, decidimos examinar las opiniones de los participantes mediante la realización de una replicación diferenciada del estudio original [47] que amplía su objetivo de la siguiente manera:

  1. La encuesta de percepción de efectividad se amplía para incluir preguntas sobre programas.

  2. Queremos averiguar si las percepciones de los participantes pueden estar condicionadas por sus opiniones. Más precisamente: sus preferencias (técnica favorita), su rendimiento (la técnica que creen que aplicaron mejor) y la complejidad de la técnica o del programa (la técnica que creen que es más fácil de aplicar, o el programa más simple para probar).

    \ Por lo tanto, el estudio replicado reexamina RQ1 planteado en el estudio original (esta vez la encuesta realizada por los participantes también incluye preguntas sobre programas), y aborda las siguientes nuevas preguntas de investigación:

    RQ1.6: ¿Están las percepciones de los participantes relacionadas con el número de defectos reportados por los participantes? Queremos evaluar si los participantes perciben como la técnica más efectiva aquella con la que han reportado más defectos.

    RQ2: ¿Pueden las opiniones de los participantes utilizarse como predictores de la efectividad de las pruebas?

    – RQ2.1: ¿Cuáles son las opiniones de los participantes sobre las técnicas y los programas? Queremos saber si los participantes tienen diferentes opiniones sobre las técnicas o los programas.

    RQ2.2: ¿Predicen las opiniones de los participantes su efectividad? Queremos evaluar si las opiniones que los participantes tienen sobre las técnicas (o programas) predicen cuál es la más efectiva para ellos.

    RQ3: ¿Existe una relación entre las percepciones y opiniones de los participantes?

    RQ3.1: ¿Existe una relación entre las percepciones y opiniones de los participantes? Queremos evaluar si las opiniones que los participantes tienen sobre las técnicas (o programas) están relacionadas con sus percepciones.

    – RQ3.2: ¿Existe una relación entre las opiniones de los participantes? Queremos evaluar si una determinada opinión que los participantes tienen sobre las técnicas está relacionada con otras opiniones.

    \ Para responder a estas preguntas, replicamos el estudio original con estudiantes del mismo curso en el siguiente año académico. Esta vez tenemos 46 estudiantes. Los cambios realizados en la replicación del experimento son los siguientes: – El cuestionario que deben completar los participantes al final del experimento se amplía para incluir nuevas preguntas. La información que queremos capturar con las preguntas de opinión es: – Rendimiento de los participantes en las técnicas. Con esta pregunta nos referimos a la conformidad del proceso. La técnica mejor aplicada es la técnica que cada participante cree que aplicó de manera más exhaustiva. Corresponde a OT1: ¿Qué técnica aplicaste mejor?

    \ – Preferencias de los participantes. Queremos conocer la técnica favorita de cada participante. Aquella con la que se sintió más cómodo al aplicarla. Corresponde a OT2: ¿Qué técnica te gusta más?

    Complejidad de la técnica. Queremos conocer la técnica que cada participante cree que fue más fácil para obtener conformidad del proceso. Corresponde a OT3: ¿Qué técnica es la más fácil de aplicar?

    \ – Capacidad de prueba del programa. Queremos saber qué programa fue más fácil de probar. Es decir, el programa en el que la conformidad del proceso se pudo obtener más fácilmente. Corresponde a OP1: ¿Cuál es el programa más simple? La Tabla 16 resume las preguntas de la encuesta. Hemos elegido estas preguntas porque necesitamos hacer preguntas simples, que puedan ser fácilmente comprendidas por los participantes, siendo al mismo tiempo significativas. No queremos abrumar a los participantes con preguntas complejas que tengan muchas explicaciones. Un cuestionario complejo podría desalentar a los estudiantes a presentarlo.

    \ – Se cambian los defectos del programa. El estudio original está diseñado para que todas las técnicas sean efectivas en encontrar todos los defectos inyectados. Elegimos defectos detectables por todas las técnicas para que las técnicas puedan compararse de manera justa. El estudio replicado está diseñado para cubrir la situación en la que algunos defectos no pueden ser detectados por todas las técnicas. Por lo tanto, inyectamos algunos defectos que las técnicas no son efectivas para detectar. Por ejemplo, BT no puede detectar una característica no implementada (ya que se requiere que los participantes generen casos de prueba solo desde el código fuente). Del mismo modo,

EP no puede encontrar un defecto cuya detección depende de la combinación de dos clases de equivalencia inválidas. Por lo tanto, en el estudio replicado, inyectamos algunos defectos que pueden ser detectados por BT pero no por EP y algunos defectos que pueden ser detectados por EP pero no por BT en cada programa (cada programa está sembrado con seis defectos). Tenga en cuenta que el diseño está equilibrado: inyectamos el mismo número de defectos que BT puede detectar, pero no EP, que lo opuesto –EP puede detectar, pero no BT). Se espera que este cambio afecte la efectividad de EP y BT, que podría ser menor que en el estudio original. No debería afectar la efectividad de CR.

– Cambiamos el orden de aplicación del programa para estudiar más a fondo los problemas de maduración. El orden ahora es: cmdline, ntree, nametbl. Este cambio no debería afectar los resultados.

– Los participantes ejecutan sus propios casos de prueba. Podría ser que las percepciones erróneas obtenidas en el estudio original se deban al hecho de que los participantes no están ejecutando sus propios casos de prueba.

– Ya no hay dos versiones sino una. Los defectos y fallos no son el objetivo de este estudio. Esto ayuda a simplificar el experimento. La Tabla 17 muestra un resumen de los cambios realizados en el estudio.

Para medir la efectividad de la técnica procedemos de la misma manera que en el estudio original. No nos basamos en los fallos reportados, ya que los participantes podrían:

  1. Reportar falsos positivos (fallos no reales).
  2. Reportar el mismo fallo más de una vez (aunque se les pidió que no lo hicieran).
  3. Omitir fallos correspondientes a defectos que han sido ejercitados por la técnica, pero que por alguna razón no se han visto.

Medimos la nueva variable de respuesta (defectos reportados) contando el número de defectos/fallos reportados por cada participante. Analizamos RQ2.1 de la misma manera que RQ1.1, y RQ1.6, RQ2.2, RQ3.1 y RQ3.2 como RQ1.2. La Tabla 18 resume las pruebas estadísticas utilizadas para responder a cada pregunta de investigación.

\

6 Estudio replicado: Amenazas a la validez

Las amenazas a la validez enumeradas en el estudio original se aplican a este estudio replicado. Adicionalmente, hemos identificado las siguientes:

6.1 Validez de la conclusión

  1. Fiabilidad de la implementación del tratamiento. El experimento replicado es realizado por los mismos investigadores que realizaron el experimento original. Esto asegura que los dos grupos de participantes no implementen los tratamientos de manera diferente.

    6.2 Validez interna

    1. Aprensión a la evaluación. El uso de estudiantes y la asociación de su desempeño en el experimento con su calificación en el curso podría explicar que los participantes consideren que su desempeño y no las debilidades de las técnicas explican la efectividad de una técnica.

6.3 Validez del constructo

  1. Explicación preoperacional inadecuada de los constructos del efecto. Dado que las opiniones son constructos difíciles de operacionalizar, existe la posibilidad de que las preguntas que aparecen en el cuestionario no sean interpretadas por los participantes de la manera que pretendíamos. 6.4 Validez externa

  2. Reproducibilidad de los resultados. No está claro en qué medida los resultados obtenidos aquí son reproducibles. Por lo tanto, se necesitan más replicaciones del estudio.

    \ Los pasos que deben seguirse son:

    (a) Replicar el estudio capturando las razones de las respuestas dadas por los participantes.

    (b) Realizar el estudio con profesionales con las mismas características que los estudiantes utilizados en este estudio (personas con poca o ninguna experiencia en pruebas de software).

    (c) Explorar y definir qué tipos de experiencia podrían estar influyendo en los resultados (académica, profesional, programación, pruebas, etc.).

    (d) Realizar nuevos estudios teniendo en cuenta niveles crecientes de experiencia.

    \ Nuevamente, de todas las amenazas que afectan al estudio replicado, la única que podría afectar la validez de los resultados de este estudio en un contexto industrial es la relacionada con la generalización a otros tipos de sujetos.

\

:::info Autores:

  1. Sira Vegas
  2. Patricia Riofr´ıo
  3. Esperanza Marcos
  4. Natalia Juristo

:::

:::info Este artículo está disponible en arxiv bajo licencia CC BY-NC-ND 4.0.

:::

\

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.