Acest studiu replicat examinează dacă opiniile testatorilor de software—cum ar fi tehnicile preferate, complexitatea percepută și performanța auto-evaluată—le influențeazăAcest studiu replicat examinează dacă opiniile testatorilor de software—cum ar fi tehnicile preferate, complexitatea percepută și performanța auto-evaluată—le influențează

Un studiu de replicare privind percepția versus eficacitatea testării software

2025/12/18 04:00
7 min de lectură
Pentru opinii sau preocupări cu privire la acest conținut, contactează-ne la crypto.news@mexc.com

Tabel de Linkuri

Rezumat

1 Introducere

2 Studiul Original: Întrebări de Cercetare și Metodologie

3 Studiul Original: Amenințări la Validitate

4 Studiul Original: Rezultate

5 Studiul Replicat: Întrebări de Cercetare și Metodologie

6 Studiul Replicat: Amenințări la Validitate

7 Studiul Replicat: Rezultate

8 Discuții

9 Lucrări Conexe

10 Concluzii și Referințe

\

5 Studiul Replicat: Întrebări de Cercetare și Metodologie

Decidem să investigăm în continuare rezultatele studiului original în căutarea posibilelor factori care stau la baza percepțiilor eronate. Psihologia consideră că percepțiile oamenilor pot fi afectate de caracteristici personale precum atitudini, interese personale și așteptări. Prin urmare, decidem să examinăm opiniile participanților prin efectuarea unei replicări diferențiate a studiului original [47] care îi extinde scopul după cum urmează:

  1. Sondajul privind percepția eficacității este extins pentru a include întrebări despre programe.

  2. Dorim să aflăm dacă percepțiile participanților ar putea fi condiționate de opiniile lor. Mai precis: preferințele lor (tehnica preferată), performanța lor (tehnica pe care cred că au aplicat-o cel mai bine) și complexitatea tehnicii sau programului (tehnica pe care o consideră cea mai ușor de aplicat sau programul cel mai simplu de testat).

    \ Prin urmare, studiul replicat reexaminează RQ1 enunțată în studiul original (de această dată sondajul la care participă subiecții include și întrebări privind programele) și abordează următoarele întrebări de cercetare noi:

    RQ1.6: Sunt percepțiile participanților legate de numărul de defecte raportate de participanți? Dorim să evaluăm dacă participanții percep ca fiind cea mai eficace tehnică aceea cu care au raportat mai multe defecte.

    RQ2: Pot fi folosite opiniile participanților ca predictori pentru eficacitatea testării?

    – RQ2.1: Care sunt opiniile participanților despre tehnici și programe? Dorim să știm dacă participanții au opinii diferite despre tehnici sau programe.

    RQ2.2: Opiniile participanților le prezic eficacitatea? Dorim să evaluăm dacă opiniile pe care participanții le au despre tehnici (sau programe) prezic care este cea mai eficace pentru ei.

    RQ3: Există o relație între percepțiile și opiniile participanților?

    RQ3.1: Există o relație între percepțiile și opiniile participanților? Dorim să evaluăm dacă opiniile pe care participanții le au despre tehnici (sau programe) sunt legate de percepțiile lor.

    – RQ3.2: Există o relație între opiniile participanților? Dorim să evaluăm dacă o anumită opinie pe care participanții o au despre tehnici este legată de alte opinii.

    \ Pentru a răspunde la aceste întrebări, replicăm studiul original cu studenții aceluiași curs în anul academic următor. De această dată avem 46 de studenți. Modificările aduse replicării experimentului sunt următoarele: – Chestionarul care trebuie completat de participanți la sfârșitul experimentului este extins pentru a include întrebări noi. Informațiile pe care dorim să le capturăm cu întrebările de opinie sunt: – Performanța participanților asupra tehnicilor. Cu această întrebare ne referim la conformitatea procesului. Tehnica cel mai bine aplicată este tehnica pe care fiecare participant crede că a aplicat-o mai temeinic. Corespunde lui OT1: Ce tehnică ai aplicat cel mai bine?

    \ – Preferințele participanților. Dorim să știm tehnica preferată a fiecărui participant. Aceea cu care s-a simțit cel mai confortabil când a aplicat-o. Corespunde lui OT2: Ce tehnică îți place cel mai mult?

    Complexitatea tehnicii. Dorim să știm tehnica pe care fiecare participant o consideră cea mai ușor de obținut conformitatea procesului. Corespunde lui OT3: Care este tehnica cea mai ușor de aplicat?

    \ – Testabilitatea programului. Dorim să știm programul care a fost mai ușor de testat. Adică programul în care conformitatea procesului a putut fi obținută mai ușor. Corespunde lui OP1: Care este programul cel mai simplu? Tabelul 16 rezumă întrebările sondajului. Am ales aceste întrebări deoarece trebuie să punem întrebări simple, care pot fi înțelese cu ușurință de participanți, fiind în același timp semnificative. Nu dorim să copleșim participanții cu întrebări complexe care au multe explicații. Un chestionar complex ar putea descuraja studenții să îl trimită.

    \ – Defectele programului sunt modificate. Studiul original este conceput astfel încât toate tehnicile să fie eficace în găsirea tuturor defectelor injectate. Alegem defecte detectabile de toate tehnicile astfel încât tehnicile să poată fi comparate corect. Studiul replicat este conceput să acopere situația în care unele defecte nu pot fi detectate de toate tehnicile. Prin urmare, injectăm unele defecte pe care tehnicile nu sunt eficace în a le detecta. De exemplu, BT nu poate detecta o caracteristică neimplementată (deoarece participanților li se cere să genereze cazuri de testare doar din codul sursă). De asemenea,

EP nu poate găsi un defect a cărui detectare depinde de combinația a două clase de echivalență invalide. Prin urmare, în studiul replicat, injectăm unele defecte care pot fi detectate de BT dar nu de EP și unele defecte care pot fi detectate de EP dar nu de BT în fiecare program (fiecare program este însămânțat cu șase defecte). Rețineți că designul este echilibrat: injectăm același număr de defecte pe care BT le poate detecta, dar nu EP, ca și opusul –EP le poate detecta, dar nu BT). Se așteaptă ca această modificare să afecteze eficacitatea EP și BT, care ar putea fi mai mică decât în studiul original. Nu ar trebui să afecteze eficacitatea CR.

– Schimbăm ordinea de aplicare a programului pentru a studia în continuare problemele de maturare. Ordinea este acum: cmdline, ntree, nametbl. Această schimbare nu ar trebui să afecteze rezultatele.

– Participanții rulează propriile cazuri de testare. S-ar putea ca percepțiile eronate obținute în studiul original să se datoreze faptului că participanții nu rulează propriile cazuri de testare.

– Nu mai există două versiuni, ci una singură. Defectele și eșecurile nu sunt obiectivul acestui studiu. Acest lucru ajută la simplificarea experimentului. Tabelul 17 arată un rezumat al modificărilor aduse studiului.

Pentru a măsura eficacitatea tehnicii procedăm în același mod ca în studiul original. Nu ne bazăm pe eșecurile raportate, deoarece participanții ar putea:

  1. Raporta fals pozitive (eșecuri nereale).
  2. Raporta același eșec de mai multe ori (deși li s-a cerut să nu facă acest lucru).
  3. Pierde eșecuri corespunzătoare defectelor care au fost exercitate de tehnică, dar dintr-un motiv oarecare nu au fost observate.

Măsurăm noua variabilă de răspuns (defecte raportate) numărând numărul de defecte/eșecuri raportate de fiecare participant. Analizăm RQ2.1 în același mod ca RQ1.1, iar RQ1.6, RQ2.2, RQ3.1 și RQ3.2 ca RQ1.2. Tabelul 18 rezumă testele statistice folosite pentru a răspunde la fiecare întrebare de cercetare.

\

6 Studiul Replicat: Amenințări la Validitate

Amenințările la validitate enumerate în studiul original se aplică acestui studiu replicat. În plus, am identificat următoarele:

6.1 Validitatea Concluziei

  1. Fiabilitatea implementării tratamentului. Experimentul replicat este condus de aceiași cercetători care au efectuat experimentul original. Acest lucru asigură că cele două grupuri de participanți nu implementează tratamentele diferit.

    6.2 Validitatea Internă

    1. Anxietatea de evaluare. Utilizarea studenților și asocierea performanței lor în experiment cu nota lor la curs ar putea explica faptul că participanții consideră că performanța lor și nu punctele slabe ale tehnicilor explică eficacitatea unei tehnici.

6.3 Validitatea Constructului

  1. Explicație preoperațională inadecvată a constructelor de efect. Deoarece opiniile sunt constructe greu de operaționalizat, există posibilitatea ca întrebările care apar în chestionar să nu fie interpretate de participanți în modul în care am intenționat. 6.4 Validitatea Externă

  2. Reproducibilitatea rezultatelor. Nu este clar în ce măsură rezultatele obținute aici sunt reproducibile. Prin urmare, sunt necesare mai multe replicări ale studiului.

    \ Pașii care ar trebui urmați sunt:

    (a) Replicarea studiului capturând motivele pentru răspunsurile date de participanți.

    (b) Efectuarea studiului cu practicieni cu aceleași caracteristici ca studenții folosiți în acest studiu (persoane cu puțină sau deloc experiență în testarea software-ului).

    (c) Explorarea și definirea ce tipuri de experiență ar putea influența rezultatele (academică, profesională, programare, testare etc.).

    (d) Realizarea de noi studii luând în considerare niveluri crescânde de experiență.

    \ Din nou, dintre toate amenințările care afectează studiul replicat, singura care ar putea afecta validitatea rezultatelor acestui studiu într-un context industrial este cea legată de generalizarea la alte tipuri de subiecți.

\

:::info Autori:

  1. Sira Vegas
  2. Patricia Riofr´ıo
  3. Esperanza Marcos
  4. Natalia Juristo

:::

:::info Această lucrare este disponibilă pe arxiv sub licența CC BY-NC-ND 4.0.

:::

\

Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează crypto.news@mexc.com pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.