การทดสอบสมมติฐานเป็นขั้นตอนที่จำเป็นในสถิติ การทดสอบสมมติฐานจะประเมินข้อความสั่งที่ไม่เกิดร่วมกันสองข้อความเพื่อพิจารณาว่าข้อความสั่งใดได้รับการสนับสนุนดีที่สุดจากข้อมูลตัวอย่าง เมื่อมีการกล่าวถึงการค้นพบที่มีนัยสำคัญทางสถิติ ก็เกิดจากการทดสอบสมมติฐาน
วิธีการตรวจสอบ
วิธีทดสอบสมมติฐานทางสถิติคือวิธีการวิเคราะห์ทางสถิติ โดยทั่วไป จะมีการเปรียบเทียบสถิติสองชุด หรือชุดข้อมูลตัวอย่างจะถูกเปรียบเทียบกับชุดข้อมูลสังเคราะห์จากแบบจำลองในอุดมคติ ข้อมูลจะต้องถูกตีความในลักษณะที่จะเพิ่มความหมายใหม่ คุณสามารถตีความได้โดยสมมติว่าโครงสร้างบางอย่างของผลลัพธ์สุดท้ายและใช้วิธีทางสถิติเพื่อยืนยันหรือปฏิเสธสมมติฐาน สมมติฐานนี้เรียกว่าสมมติฐาน และการทดสอบทางสถิติที่ใช้เพื่อการนี้เรียกว่าสมมติฐานทางสถิติ
สมมติฐาน H0 และ H1
มีสองหลักแนวคิดของการทดสอบทางสถิติของสมมติฐาน - ที่เรียกว่า "สมมติฐานหลักหรือสมมติฐานว่าง" และ "สมมติฐานทางเลือก" พวกเขายังถูกเรียกว่าสมมติฐานเนย์มัน - เพียร์สัน สมมติฐานการทดสอบทางสถิติเรียกว่าสมมติฐานว่าง สมมติฐานหลักหรือ H0 สำหรับระยะสั้น มักเรียกว่าสมมติฐานเริ่มต้นหรือข้อสันนิษฐานว่าไม่มีอะไรเปลี่ยนแปลง การละเมิดสมมติฐานการทดสอบมักถูกอ้างถึงเป็นสมมติฐานแรก สมมติฐานทางเลือก หรือ H1 H1 เป็นชวเลขสำหรับสมมติฐานอื่น ๆ เพราะทั้งหมดที่เรารู้เกี่ยวกับมันคือข้อมูล H0 สามารถละทิ้งได้
ก่อนจะปฏิเสธหรือไม่ปฏิเสธสมมติฐานว่าง ต้องตีความผลการทดสอบ การเปรียบเทียบถือว่ามีนัยสำคัญทางสถิติหากความสัมพันธ์ระหว่างชุดข้อมูลไม่น่าจะใช้สมมติฐานว่างตามความน่าจะเป็นของเกณฑ์ - ระดับนัยสำคัญ นอกจากนี้ยังมีเกณฑ์ความเหมาะสมสำหรับการทดสอบสมมติฐานทางสถิติ นี่คือชื่อของเกณฑ์การทดสอบสมมติฐานซึ่งเกี่ยวข้องกับกฎที่คาดคะเนของการแจกแจงที่ไม่รู้จัก นี่คือการวัดเชิงตัวเลขของความคลาดเคลื่อนระหว่างการแจกแจงเชิงประจักษ์และเชิงทฤษฎี
ขั้นตอนและเกณฑ์การทดสอบสมมติฐานทางสถิติ
วิธีการเลือกสมมติฐานที่พบบ่อยที่สุดจะขึ้นอยู่กับเกณฑ์ข้อมูล Akaike หรือค่าสัมประสิทธิ์เบย์ การทดสอบสมมติฐานทางสถิติเป็นเทคนิคหลักในการอนุมานและการอนุมานแบบเบย์ แม้ว่าทั้งสองประเภทจะมีความแตกต่างกันอย่างเห็นได้ชัด การทดสอบสมมติฐานทางสถิติกำหนดขั้นตอนที่ควบคุมความน่าจะเป็นของการตัดสินใจผิดพลาดเกี่ยวกับค่าเริ่มต้นที่ไม่ถูกต้องหรือสมมติฐานว่าง ขั้นตอนขึ้นอยู่กับแนวโน้มที่จะทำงาน ความน่าจะเป็นของการตัดสินใจผิดพลาดนี้คือความไม่น่าจะเป็นไปได้ที่สมมติฐานว่างเป็นจริง และไม่มีสมมติฐานทางเลือกอื่นใดโดยเฉพาะ การทดสอบไม่สามารถแสดงว่าจริงหรือเท็จ
วิธีทางเลือกของทฤษฎีการตัดสินใจ
วิธีทางเลือกของทฤษฎีการตัดสินใจที่มีอยู่ ซึ่งถือว่าสมมติฐานว่างและสมมติฐานแรกมีความเท่าเทียมกันมากขึ้น แนวทางการตัดสินใจอื่นๆ เช่น ทฤษฎีเบย์ พยายามสร้างสมดุลระหว่างผลที่ตามมาของการตัดสินใจที่ไม่ถูกต้องในความเป็นไปได้ทั้งหมด แทนที่จะเน้นที่สมมติฐานเปล่าเพียงข้อเดียว วิธีอื่นๆ อีกหลายวิธีในการตัดสินใจว่าสมมติฐานใดถูกต้องขึ้นอยู่กับข้อมูล ซึ่งมีคุณสมบัติตามที่ต้องการ แต่การทดสอบสมมติฐานเป็นแนวทางหลักในการวิเคราะห์ข้อมูลในสาขาวิทยาศาสตร์ต่างๆ
ทดสอบสมมติฐานทางสถิติ
เมื่อใดก็ตามที่ผลลัพธ์ชุดหนึ่งแตกต่างจากชุดอื่น จะต้องอาศัยการทดสอบสมมติฐานทางสถิติหรือการทดสอบสมมติฐานทางสถิติ การตีความต้องใช้ความเข้าใจที่ถูกต้องเกี่ยวกับค่า p และค่าวิกฤต สิ่งสำคัญคือต้องเข้าใจด้วยว่าการทดสอบอาจมีข้อผิดพลาดโดยไม่คำนึงถึงระดับความสำคัญ ดังนั้นข้อสรุปอาจไม่ถูกต้อง
ขั้นตอนการทดสอบประกอบด้วยหลายขั้นตอน:
- กำลังสร้างสมมติฐานเบื้องต้นสำหรับการวิจัย
- มีการระบุ null ที่เกี่ยวข้องและสมมติฐานทางเลือก
- อธิบายสมมติฐานทางสถิติเกี่ยวกับตัวอย่างในการทดสอบ
- การพิจารณาว่าการทดสอบใดเหมาะสม
- เลือกระดับนัยสำคัญและเกณฑ์ความน่าจะเป็นด้านล่างซึ่งสมมติฐานว่างจะถูกปฏิเสธ
- การกระจายของสถิติการทดสอบสมมติฐานว่างแสดงค่าที่เป็นไปได้ที่สมมติฐานว่างถูกปฏิเสธ
- กำลังคำนวณ
- มีการตัดสินใจที่จะปฏิเสธหรือยอมรับสมมติฐานว่างเพื่อเป็นทางเลือก
มีทางเลือกอื่นที่ใช้ค่า p
การทดสอบนัยสำคัญ
ข้อมูลบริสุทธิ์ไม่มีการใช้งานจริงหากไม่มีการตีความ ในสถิติ เมื่อพูดถึงคำถามเกี่ยวกับข้อมูลและการตีความผลลัพธ์ จะใช้วิธีการทางสถิติเพื่อให้แน่ใจว่าคำตอบจะถูกต้องหรือเป็นไปได้ เมื่อทดสอบสมมติฐานทางสถิติ วิธีการประเภทนี้เรียกว่าการทดสอบทางสถิติหรือการทดสอบนัยสำคัญ คำว่า "สมมติฐาน" นั้นชวนให้นึกถึงวิธีการทางวิทยาศาสตร์ที่มีการตรวจสอบสมมติฐานและทฤษฎี ในสถิติ การทดสอบสมมติฐานมีผลเป็นปริมาณที่กำหนดสมมติฐานที่กำหนด ช่วยให้คุณตีความได้ว่าข้อสันนิษฐานที่เป็นจริงหรือละเมิด
การตีความทางสถิติของการทดสอบ
การทดสอบสมมติฐานใช้เพื่อกำหนดผลการวิจัยที่จะนำไปสู่การปฏิเสธสมมติฐานว่างสำหรับระดับนัยสำคัญที่กำหนดไว้ล่วงหน้า ผลลัพธ์ของการทดสอบสมมติฐานทางสถิติต้องตีความเพื่อให้สามารถดำเนินการต่อไปได้ เกณฑ์การทดสอบสมมติฐานทางสถิติทั่วไปมีสองรูปแบบ เหล่านี้คือค่า p และค่าวิกฤต ขึ้นอยู่กับเกณฑ์ที่เลือก ผลลัพธ์ที่ได้จะต้องตีความต่างกัน
ค่า p คืออะไร
เอาต์พุตมีนัยสำคัญทางสถิติเมื่อตีความค่า p อันที่จริง ตัวบ่งชี้นี้หมายถึงความน่าจะเป็นของข้อผิดพลาด หากสมมติฐานว่างถูกปฏิเสธ กล่าวอีกนัยหนึ่ง สามารถใช้เพื่อตั้งชื่อค่าที่สามารถใช้ในการตีความหรือหาปริมาณผลการทดสอบ และเพื่อกำหนดความน่าจะเป็นของข้อผิดพลาดในการปฏิเสธสมมติฐานว่าง ตัวอย่างเช่น คุณสามารถทำการทดสอบภาวะปกติกับตัวอย่างข้อมูล และพบว่ามีโอกาสผิดปกติเพียงเล็กน้อย อย่างไรก็ตาม สมมติฐานว่างไม่จำเป็นต้องถูกปฏิเสธ การทดสอบสมมติฐานทางสถิติอาจส่งกลับค่า p ทำได้โดยการเปรียบเทียบค่าของ p กับค่าขีดจำกัดที่กำหนดไว้ล่วงหน้าซึ่งเรียกว่าระดับนัยสำคัญ
ระดับความสำคัญ
ระดับความสำคัญมักเขียนด้วยอักษรกรีกตัวพิมพ์เล็ก "อัลฟ่า" ค่าทั่วไปที่ใช้สำหรับอัลฟาคือ 5% หรือ 0.05 ค่าอัลฟาที่น้อยกว่าแนะนำการตีความสมมติฐานว่างที่เชื่อถือได้มากขึ้น ค่า p ถูกเปรียบเทียบกับค่าอัลฟาที่เลือกไว้ล่วงหน้า ผลลัพธ์จะมีนัยสำคัญทางสถิติหากค่า p น้อยกว่าอัลฟา ระดับนัยสำคัญสามารถกลับด้านได้โดยการลบออกจากระดับหนึ่ง สิ่งนี้ทำเพื่อกำหนดระดับความเชื่อมั่นของสมมติฐานจากข้อมูลตัวอย่างที่สังเกตได้ เมื่อใช้วิธีการทดสอบสมมติฐานทางสถิตินี้ ค่า P จะมีความน่าจะเป็น ซึ่งหมายความว่าในกระบวนการตีความผลการทดสอบทางสถิตินั้น เราไม่รู้ว่าอะไรจริงหรือเท็จ
ทฤษฎีการทดสอบสมมติฐานทางสถิติ
การปฏิเสธสมมติฐานว่างหมายความว่ามีหลักฐานทางสถิติเพียงพอที่มีแนวโน้มว่าจะเป็นไปได้ มิฉะนั้น แสดงว่ามีสถิติไม่เพียงพอที่จะปฏิเสธ เราสามารถนึกถึงการทดสอบทางสถิติในแง่ของการแบ่งขั้วของการปฏิเสธและยอมรับสมมติฐานว่าง อันตรายของการทดสอบทางสถิติของสมมติฐานว่างคือ หากยอมรับ อาจดูเหมือนเป็นจริง แต่จะดีกว่าถ้าจะบอกว่าสมมติฐานว่างไม่ถูกปฏิเสธเพราะมีหลักฐานทางสถิติไม่เพียงพอที่จะปฏิเสธ
ช่วงเวลานี้มักจะสร้างความสับสนให้กับมือใหม่ ในกรณีเช่นนี้ สิ่งสำคัญคือต้องเตือนตัวเองว่าผลลัพธ์ที่ได้คือความน่าจะเป็น และแม้แต่การยอมรับสมมติฐานว่างก็ยังมีโอกาสผิดพลาดเล็กน้อย
สมมติฐานว่างจริงหรือเท็จ
การตีความค่า p ไม่ได้หมายความว่าศูนย์สมมติฐานเป็นจริงหรือเท็จ ซึ่งหมายความว่าได้มีการเลือกว่าจะปฏิเสธหรือไม่ปฏิเสธสมมติฐานว่างที่ระดับนัยสำคัญทางสถิติระดับหนึ่งโดยพิจารณาจากข้อมูลเชิงประจักษ์และการทดสอบทางสถิติที่เลือก ดังนั้น ค่า p จึงถือได้ว่าเป็นความน่าจะเป็นของข้อมูลที่ให้ภายใต้สมมติฐานที่กำหนดไว้ล่วงหน้าซึ่งฝังอยู่ในการทดสอบทางสถิติ ค่า p คือการวัดแนวโน้มที่ตัวอย่างข้อมูลจะถูกสังเกตหากสมมติฐานว่างเป็นจริง
การตีความค่าวิกฤต
การทดสอบบางอย่างไม่ส่งคืนหน้า แต่อาจส่งคืนรายการค่าวิกฤต ผลการศึกษาดังกล่าวตีความในลักษณะเดียวกัน แทนที่จะเปรียบเทียบค่า p เดียวกับระดับนัยสำคัญที่กำหนดไว้ล่วงหน้า สถิติการทดสอบจะถูกเปรียบเทียบกับค่าวิกฤต หากปรากฏว่าน้อยกว่า แสดงว่าเป็นไปไม่ได้ที่จะปฏิเสธสมมติฐานว่าง ถ้ามากกว่าหรือเท่ากับ สมมุติฐานว่างควรถูกปฏิเสธ ความหมายของอัลกอริธึมการทดสอบสมมติฐานทางสถิติและการตีความผลลัพธ์นั้นคล้ายกับค่า p ระดับนัยสำคัญที่เลือกคือการตัดสินใจที่น่าจะเป็นที่จะปฏิเสธหรือไม่ปฏิเสธสมมติฐานการทดสอบพื้นฐานที่ได้รับจากข้อมูล
ข้อผิดพลาดในการทดสอบทางสถิติ
การตีความการทดสอบสมมติฐานทางสถิติมีความน่าจะเป็น งานทดสอบสมมติฐานทางสถิติคือไม่ต้องค้นหาข้อความจริงหรือเท็จ หลักฐานการทดสอบอาจผิดพลาด ตัวอย่างเช่น ถ้าอัลฟ่าเป็น 5% หมายความว่าส่วนใหญ่ 1 ใน 20สมมติฐานว่างจะถูกปฏิเสธโดยไม่ได้ตั้งใจ หรือจะไม่ใช่เพราะสัญญาณรบกวนทางสถิติในตัวอย่างข้อมูล จากจุดนี้ ค่า p เล็กน้อยที่จะปฏิเสธสมมติฐานว่างอาจหมายความว่ามันเป็นเท็จหรือมีข้อผิดพลาดเกิดขึ้น หากเกิดข้อผิดพลาดประเภทนี้ ผลลัพธ์จะเรียกว่าผลบวกลวง และข้อผิดพลาดดังกล่าวเป็นข้อผิดพลาดประเภทแรกเมื่อทดสอบสมมติฐานทางสถิติ ในทางกลับกัน หากค่า p มากพอที่จะหมายถึงการปฏิเสธสมมติฐานว่าง ก็อาจหมายความว่ามันเป็นเรื่องจริง หรือไม่ถูกต้องและเกิดเหตุการณ์ที่ไม่น่าจะเกิดขึ้นเนื่องจากข้อผิดพลาดที่เกิดขึ้น ข้อผิดพลาดประเภทนี้เรียกว่าผลลบปลอม
ความน่าจะเป็นของข้อผิดพลาด
เมื่อทดสอบสมมติฐานทางสถิติ ยังมีโอกาสเกิดข้อผิดพลาดประเภทนี้ ข้อมูลที่เป็นเท็จหรือข้อสรุปที่ผิดพลาดนั้นมีความเป็นไปได้ค่อนข้างมาก ตามหลักการแล้ว ควรเลือกระดับนัยสำคัญที่ลดโอกาสเกิดข้อผิดพลาดอย่างใดอย่างหนึ่งเหล่านี้ให้เหลือน้อยที่สุด ตัวอย่างเช่น การทดสอบทางสถิติของสมมติฐานว่างอาจมีระดับนัยสำคัญที่ต่ำมาก แม้ว่าระดับนัยสำคัญ เช่น 0.05 และ 0.01 เป็นเรื่องปกติในหลายสาขาของวิทยาศาสตร์ แต่ระดับนัยสำคัญที่ใช้บ่อยที่สุดคือ 310^-7 หรือ 0.0000003 ซึ่งมักเรียกกันว่า “5-ซิกมา” ซึ่งหมายความว่าข้อสรุปเป็นแบบสุ่มโดยมีความน่าจะเป็น 1 ใน 3.5 ล้านซ้ำอิสระของการทดลอง ตัวอย่างของการทดสอบสมมติฐานทางสถิติมักจะมีข้อผิดพลาดดังกล่าว นี่เป็นเหตุผลว่าทำไมการได้รับผลลัพธ์ที่เป็นอิสระจึงเป็นสิ่งสำคัญการยืนยัน
ตัวอย่างการใช้การยืนยันทางสถิติ
ในทางปฏิบัติมีตัวอย่างทั่วไปหลายประการของการทดสอบสมมติฐาน หนึ่งในความนิยมมากที่สุดเรียกว่า "Tea Tasting" ดร.มิวเรียล บริสตอล เพื่อนร่วมงานของโรเบิร์ต ฟิชเชอร์ ผู้ก่อตั้งไบโอเมตริกซ์ อ้างว่าสามารถบอกได้อย่างมั่นใจว่าได้เติมชาหรือนมลงในถ้วยชาหรือนมก่อน ฟิชเชอร์เสนอว่าจะให้ถ้วยแปดใบแก่เธอ (สี่ถ้วยจากแต่ละพันธุ์) โดยสุ่ม สถิติการทดสอบนั้นง่าย: การนับจำนวนความสำเร็จในการเลือกถ้วย พื้นที่วิกฤตเป็นความสำเร็จเพียงส่วนเดียวจากทั้งหมด 4 รายการ โดยอาจอิงตามเกณฑ์ความน่าจะเป็นปกติ (< 5%; 1 ใน 70 ≈ 1.4%) ฟิชเชอร์แย้งว่าไม่จำเป็นต้องมีสมมติฐานทางเลือก ผู้หญิงคนนั้นระบุถ้วยแต่ละถ้วยได้อย่างถูกต้อง ซึ่งถือเป็นผลลัพธ์ที่มีนัยสำคัญทางสถิติ ประสบการณ์นี้นำไปสู่หนังสือวิธีการทางสถิติสำหรับนักวิจัยของหนังสือฟิชเชอร์
ตัวอย่างจำเลย
ขั้นตอนการพิจารณาคดีทางสถิติเปรียบได้กับศาลอาญาที่จำเลยเป็นผู้บริสุทธิ์จนกว่าจะได้รับการพิสูจน์ว่ามีความผิด อัยการพยายามพิสูจน์ความผิดของจำเลย เฉพาะเมื่อมีหลักฐานเพียงพอในข้อหาเท่านั้นจึงจะถือว่าจำเลยมีความผิด ในตอนต้นของกระบวนการ มีสองสมมติฐาน: "จำเลยไม่มีความผิด" และ "จำเลยมีความผิด" สมมติฐานเรื่องความไร้เดียงสาสามารถถูกปฏิเสธได้ก็ต่อเมื่อข้อผิดพลาดไม่น่าจะเกิดขึ้นได้มากนัก เนื่องจากเราไม่ต้องการตัดสินลงโทษจำเลยผู้บริสุทธิ์ ข้อผิดพลาดดังกล่าวเรียกว่าข้อผิดพลาด Type I และเกิดขึ้นไม่ค่อยถูกควบคุม ผลที่ตามมาจากพฤติกรรมที่ไม่สมมาตรนี้ ข้อผิดพลาด Type II เช่น การพ้นผิดของผู้กระทำความผิด เป็นเรื่องปกติมากขึ้น
สถิติมีประโยชน์เมื่อวิเคราะห์ข้อมูลจำนวนมาก สิ่งนี้ใช้ได้กับการทดสอบสมมติฐานอย่างเท่าเทียมกัน ซึ่งสามารถพิสูจน์ข้อสรุปได้แม้ว่าจะไม่มีทฤษฎีทางวิทยาศาสตร์อยู่ก็ตาม ในตัวอย่างการชิมชา "ชัดเจน" ว่าการเทนมลงในชาหรือการรินชาใส่นมไม่มีความแตกต่างกัน
การทดสอบสมมติฐานที่นำไปใช้ได้จริง ได้แก่:
- ทดสอบว่าผู้ชายฝันร้ายมากกว่าผู้หญิงหรือไม่
- แสดงที่มาของเอกสาร;
- การประเมินอิทธิพลของพระจันทร์เต็มดวงต่อพฤติกรรม
- การกำหนดระยะที่ค้างคาวสามารถตรวจจับแมลงโดยใช้เสียงสะท้อน;
- การเลือกวิธีเลิกบุหรี่ที่ดีที่สุด
- การเช็คสติ๊กเกอร์กันชนสะท้อนพฤติกรรมเจ้าของรถ
การทดสอบสมมติฐานทางสถิติมีบทบาทสำคัญในสถิติโดยทั่วไปและในการอนุมานทางสถิติ การทดสอบค่าใช้แทนการเปรียบเทียบแบบดั้งเดิมของค่าที่คาดการณ์ไว้และผลการทดลองที่เป็นแก่นของวิธีการทางวิทยาศาสตร์ เมื่อทฤษฎีมีความสามารถในการทำนายสัญญาณของความสัมพันธ์เท่านั้น การทดสอบสมมติฐานโดยตรงสามารถกำหนดค่าในลักษณะที่มีเพียงผลลัพธ์ที่มีนัยสำคัญทางสถิติเท่านั้นที่สนับสนุนทฤษฎี รูปแบบของทฤษฎีการประเมินนี้เข้มงวดที่สุดวิจารณ์การใช้การทดสอบสมมติฐาน