สารบัญลิงก์
บทคัดย่อ
1 บทนำ
2 การศึกษาต้นฉบับ: คำถามการวิจัยและวิธีการ
3 การศึกษาต้นฉบับ: ภัยคุกคามต่อความตรงของผล
4 การศึกษาต้นฉบับ: ผลลัพธ์
5 การศึกษาซ้ำ: คำถามการวิจัยและวิธีการ
6 การศึกษาซ้ำ: ภัยคุกคามต่อความตรงของผล
7 การศึกษาซ้ำ: ผลลัพธ์
8 การอภิปราย
9 งานวิจัยที่เกี่ยวข้อง
10 บทสรุปและเอกสารอ้างอิง
\
เราตัดสินใจที่จะสำรวจผลลัพธ์ของการศึกษาต้นฉบับเพิ่มเติมเพื่อค้นหาปัจจัยที่อาจทำให้เกิดความเข้าใจผิด จิตวิทยาพิจารณาว่าการรับรู้ของบุคคลสามารถได้รับผลกระทบจากลักษณะส่วนบุคคล เช่น ทัศนคติ ความสนใจส่วนตัว และความคาดหวัง ดังนั้นเราจึงตัดสินใจตรวจสอบความคิดเห็นของผู้เข้าร่วมโดยดำเนินการศึกษาซ้ำที่แตกต่างจากการศึกษาต้นฉบับ [47] ซึ่งขยายเป้าหมายดังต่อไปนี้:
การสำรวจการรับรู้ประสิทธิผลได้รับการขยายเพื่อรวมคำถามเกี่ยวกับโปรแกรม
เราต้องการทราบว่าการรับรู้ของผู้เข้าร่วมอาจได้รับเงื่อนไขจากความคิดเห็นของพวกเขาหรือไม่ โดยเฉพาะ: ความชอบของพวกเขา (เทคนิคที่ชื่นชอบ) ประสิทธิภาพของพวกเขา (เทคนิคที่พวกเขาคิดว่าตนเองใช้ได้ดีที่สุด) และความซับซ้อนของเทคนิคหรือโปรแกรม (เทคนิคที่พวกเขาคิดว่าใช้ได้ง่ายที่สุด หรือโปรแกรมที่เรียบง่ายที่สุดที่จะทดสอบ)
\ ดังนั้นการศึกษาซ้ำจึงทบทวน RQ1 ที่ระบุในการศึกษาต้นฉบับอีกครั้ง (ครั้งนี้การสำรวจที่ผู้เข้าร่วมทำยังรวมถึงคำถามเกี่ยวกับโปรแกรมด้วย) และตอบคำถามการวิจัยใหม่ต่อไปนี้:
– RQ1.6: การรับรู้ของผู้เข้าร่วมเกี่ยวข้องกับจำนวนข้อบกพร่องที่ผู้เข้าร่วมรายงานหรือไม่? เราต้องการประเมินว่าผู้เข้าร่วมรับรู้ว่าเทคนิคที่มีประสิทธิผลมากที่สุดคือเทคนิคที่พวกเขารายงานข้อบกพร่องมากกว่าหรือไม่
– RQ2: ความคิดเห็นของผู้เข้าร่วมสามารถใช้เป็นตัวทำนายประสิทธิผลการทดสอบได้หรือไม่?
– RQ2.1: ความคิดเห็นของผู้เข้าร่วมเกี่ยวกับเทคนิคและโปรแกรมคืออะไร? เราต้องการทราบว่าผู้เข้าร่วมมีความคิดเห็นที่แตกต่างกันเกี่ยวกับเทคนิคหรือโปรแกรมหรือไม่
– RQ2.2: ความคิดเห็นของผู้เข้าร่วมทำนายประสิทธิผลของพวกเขาหรือไม่? เราต้องการประเมินว่าความคิดเห็นที่ผู้เข้าร่วมมีเกี่ยวกับเทคนิค (หรือโปรแกรม) ทำนายว่าเทคนิคใดมีประสิทธิผลมากที่สุดสำหรับพวกเขาหรือไม่
– RQ3: มีความสัมพันธ์ระหว่างการรับรู้และความคิดเห็นของผู้เข้าร่วมหรือไม่?
– RQ3.1: มีความสัมพันธ์ระหว่างการรับรู้และความคิดเห็นของผู้เข้าร่วมหรือไม่? เราต้องการประเมินว่าความคิดเห็นที่ผู้เข้าร่วมมีเกี่ยวกับเทคนิค (หรือโปรแกรม) เกี่ยวข้องกับการรับรู้ของพวกเขาหรือไม่
– RQ3.2: มีความสัมพันธ์ระหว่างความคิดเห็นของผู้เข้าร่วมหรือไม่? เราต้องการประเมินว่าความคิดเห็นบางอย่างที่ผู้เข้าร่วมมีเกี่ยวกับเทคนิคเกี่ยวข้องกับความคิดเห็นอื่นๆ หรือไม่
\ เพื่อตอบคำถามเหล่านี้ เราทำการศึกษาต้นฉบับซ้ำกับนักศึกษาของหลักสูตรเดียวกันในปีการศึกษาถัดไป ครั้งนี้เรามีนักศึกษา 46 คน การเปลี่ยนแปลงที่ทำกับการทำซ้ำการทดลองมีดังนี้: – แบบสอบถามที่จะให้ผู้เข้าร่วมกรอกเมื่อสิ้นสุดการทดลองได้รับการขยายเพื่อรวมคำถามใหม่ ข้อมูลที่เราต้องการจับภาพด้วยคำถามความคิดเห็นคือ: – ประสิทธิภาพของผู้เข้าร่วมในเทคนิค คำถามนี้เราหมายถึงความสอดคล้องของกระบวนการ เทคนิคที่ใช้ได้ดีที่สุดคือเทคนิคที่ผู้เข้าร่วมแต่ละคนคิดว่าตนเองใช้อย่างละเอียดมากที่สุด มันสอดคล้องกับ OT1: คุณใช้เทคนิคใดได้ดีที่สุด?
\ – ความชอบของผู้เข้าร่วม เราต้องการทราบเทคนิคที่ผู้เข้าร่วมแต่ละคนชื่นชอบ เทคนิคที่พวกเขารู้สึกสบายใจที่สุดเมื่อใช้ มันสอดคล้องกับ OT2: คุณชอบเทคนิคใดที่สุด?
– ความซับซ้อนของเทคนิค เราต้องการทราบเทคนิคที่ผู้เข้าร่วมแต่ละคนคิดว่าได้ความสอดคล้องของกระบวนการได้ง่ายที่สุด มันสอดคล้องกับ OT3: เทคนิคใดใช้ได้ง่ายที่สุด?
\ – ความสามารถในการทดสอบของโปรแกรม เราต้องการทราบโปรแกรมที่ทดสอบได้ง่ายกว่า นั่นคือ โปรแกรมที่สามารถได้ความสอดคล้องของกระบวนการได้ง่ายกว่า มันสอดคล้องกับ OP1: โปรแกรมใดเรียบง่ายที่สุด? ตารางที่ 16 สรุปคำถามการสำรวจ เราเลือกคำถามเหล่านี้เพราะเราต้องการถามคำถามง่ายๆ ที่ผู้เข้าร่วมสามารถเข้าใจได้ง่าย ขณะเดียวกันก็มีความหมาย เราไม่ต้องการทำให้ผู้เข้าร่วมรู้สึกหนักใจด้วยคำถามที่ซับซ้อนซึ่งมีคำอธิบายมากมาย แบบสอบถามที่ซับซ้อนอาจทำให้นักศึกษาไม่อยากส่งแบบสอบถาม
\ – ข้อบกพร่องของโปรแกรมถูกเปลี่ยน การศึกษาต้นฉบับได้รับการออกแบบเพื่อให้เทคนิคทั้งหมดมีประสิทธิผลในการค้นหาข้อบกพร่องทั้งหมดที่ฉีดเข้าไป เราเลือกข้อบกพร่องที่ตรวจจับได้โดยเทคนิคทั้งหมดเพื่อให้สามารถเปรียบเทียบเทคนิคได้อย่างเป็นธรรม การศึกษาซ้ำได้รับการออกแบบเพื่อครอบคลุมสถานการณ์ที่ข้อบกพร่องบางอย่างไม่สามารถตรวจจับได้โดยเทคนิคทั้งหมด ดังนั้นเราจึงฉีดข้อบกพร่องบางอย่างที่เทคนิคไม่มีประสิทธิผลในการตรวจจับ ตัวอย่างเช่น BT ไม่สามารถตรวจจับฟีเจอร์ที่ไม่ได้ใช้งาน (เนื่องจากผู้เข้าร่วมต้องสร้างกรณีทดสอบจากซอร์สโค้ดเท่านั้น) เช่นเดียวกัน
EP ไม่สามารถหาข้อบกพร่องที่การตรวจจับขึ้นอยู่กับการรวมกันของคลาสสมมูลที่ไม่ถูกต้องสองคลาส ดังนั้นในการศึกษาซ้ำ เราฉีดข้อบกพร่องบางอย่างที่ BT สามารถตรวจจับได้ แต่ EP ไม่ได้ และข้อบกพร่องบางอย่างที่ EP สามารถตรวจจับได้ แต่ BT ไม่ได้ลงในแต่ละโปรแกรม (แต่ละโปรแกรมถูกเพาะเชื้อด้วยข้อบกพร่องหกข้อ) โปรดทราบว่าการออกแบบสมดุล: เราฉีดข้อบกพร่องจำนวนเท่ากันที่ BT สามารถตรวจจับได้ แต่ EP ไม่ได้ และตรงข้าม –EP สามารถตรวจจับได้ แต่ BT ไม่ได้) การเปลี่ยนแปลงนี้คาดว่าจะส่งผลต่อประสิทธิผลของ EP และ BT ซึ่งอาจต่ำกว่าการศึกษาต้นฉบับ มันไม่ควรส่งผลต่อประสิทธิผลของ CR
– เราเปลี่ยนลำดับการใช้โปรแกรมเพื่อศึกษาปัญหาการเติบโตเพิ่มเติม ลำดับตอนนี้คือ: cmdline, ntree, nametbl การเปลี่ยนแปลงนี้ไม่ควรส่งผลต่อผลลัพธ์
– ผู้เข้าร่วมรันกรณีทดสอบของตนเอง อาจเป็นไปได้ว่าความเข้าใจผิดที่ได้รับในการศึกษาต้นฉบับเกิดจากข้อเท็จจริงที่ว่าผู้เข้าร่วมไม่ได้รันกรณีทดสอบของตนเอง
– ไม่มีสองเวอร์ชันอีกต่อไป แต่มีเพียงเวอร์ชันเดียว ข้อบกพร่องและความล้มเหลวไม่ใช่เป้าหมายของการศึกษานี้ สิ่งนี้ช่วยทำให้การทดลองง่ายขึ้น ตารางที่ 17 แสดงสรุปการเปลี่ยนแปลงที่ทำกับการศึกษา
ในการวัดประสิทธิผลของเทคนิค เราดำเนินการในลักษณะเดียวกับการศึกษาต้นฉบับ เราไม่อาศัยความล้มเหลวที่รายงาน เนื่องจากผู้เข้าร่วมอาจ:
เราวัดตัวแปรตอบสนองใหม่ (ข้อบกพร่องที่รายงาน) โดยนับจำนวนข้อบกพร่อง/ความล้มเหลวที่ผู้เข้าร่วมแต่ละคนรายงาน เราวิเคราะห์ RQ2.1 ในลักษณะเดียวกับ RQ1.1 และ RQ1.6, RQ2.2, RQ3.1 และ RQ3.2 เช่นเดียวกับ RQ1.2 ตารางที่ 18 สรุปการทดสอบทางสถิติที่ใช้ในการตอบคำถามการวิจัยแต่ละข้อ
\
ภัยคุกคามต่อความตรงของผลที่ระบุในการศึกษาต้นฉบับใช้กับการศึกษาซ้ำนี้ นอกจากนี้เราได้ระบุภัยคุกคามต่อไปนี้:
ความน่าเชื่อถือของการดำเนินการทรีตเมนต์ การทดลองซ้ำดำเนินการโดยนักวิจัยคนเดียวกันที่ทำการทดลองต้นฉบับ สิ่งนี้รับรองว่ากลุ่มผู้เข้าร่วมทั้งสองกลุ่มไม่ได้ดำเนินการทรีตเมนต์แตกต่างกัน
6.2 ความตรงภายใน
1. ความวิตกกังวลในการประเมิน การใช้นักศึกษาและการเชื่อมโยงประสิทธิภาพของพวกเขาในการทดลองกับเกรดของพวกเขาในหลักสูตรอาจอธิบายว่าผู้เข้าร่วมพิจารณาว่าประสิทธิภาพของพวกเขาและไม่ใช่จุดอ่อนของเทคนิคอธิบายประสิทธิผลของเทคนิค
คำอธิบายก่อนการดำเนินการที่ไม่เพียงพอของโครงสร้างผล เนื่องจากความคิดเห็นเป็นโครงสร้างที่ยากในการดำเนินการ จึงมีความเป็นไปได้ว่าคำถามที่ปรากฏในแบบสอบถามไม่ได้รับการตีความโดยผู้เข้าร่วมตามที่เราตั้งใจไว้ 6.4 ความตรงภายนอก
การทำซ้ำได้ของผลลัพธ์ ไม่ชัดเจนว่าผลลัพธ์ที่ได้รับที่นี่สามารถทำซ้ำได้ในระดับใด ดังนั้นจึงจำเป็นต้องมีการทำซ้ำการศึกษาเพิ่มเติม
\ ขั้นตอนที่ควรปฏิบัติตามคือ:
(a) ทำการศึกษาซ้ำโดยจับภาพเหตุผลสำหรับคำตอบที่ผู้เข้าร่วมให้
(b) ทำการศึกษากับผู้ปฏิบัติที่มีลักษณะเดียวกับนักศึกษาที่ใช้ในการศึกษานี้ (ผู้ที่มีประสบการณ์น้อยหรือไม่มีประสบการณ์ในการทดสอบซอฟต์แวร์)
(c) สำรวจและกำหนดประเภทของประสบการณ์ที่อาจมีอิทธิพลต่อผลลัพธ์ (ทางวิชาการ มืออาชีพ การเขียนโปรแกรม การทดสอบ ฯลฯ)
(d) ดำเนินการศึกษาใหม่โดยคำนึงถึงระดับประสบการณ์ที่เพิ่มขึ้น
\ อีกครั้ง จากภัยคุกคามทั้งหมดที่ส่งผลต่อการศึกษาซ้ำ มีเพียงภัยคุกคามเดียวที่อาจส่งผลต่อความตรงของผลการศึกษานี้ในบริบทอุตสาหกรรม คือภัยคุกคามที่เกี่ยวข้องกับการสรุปเป็นประเภทวิชาอื่น
\
:::info ผู้เขียน:
:::
:::info บทความนี้ มีอยู่บน arxiv ภายใต้สัญญาอนุญาต CC BY-NC-ND 4.0
:::
\


