สมมติฐานที่อยู่ในแบบจำลองทางสถิติอธิบายชุดของการแจกแจงความน่าจะเป็น ซึ่งบางข้อสันนิษฐานว่าประมาณการแจกแจงอย่างเพียงพอ เลือกชุดข้อมูลเฉพาะจากคำจำกัดความ การแจกแจงความน่าจะเป็นที่มีอยู่ในตัวแบบทางสถิติคือสิ่งที่ทำให้แบบจำลองทางสถิติแตกต่างจากแบบจำลองทางคณิตศาสตร์อื่นๆ ที่ไม่ใช่ทางสถิติ
การเชื่อมต่อกับคณิตศาสตร์
วิธีการทางวิทยาศาสตร์นี้มีรากฐานมาจากคณิตศาสตร์เป็นหลัก แบบจำลองทางสถิติของระบบมักจะถูกกำหนดโดยสมการทางคณิตศาสตร์ที่เกี่ยวข้องกับตัวแปรสุ่มอย่างน้อยหนึ่งตัวและอาจเป็นตัวแปรอื่นๆ ที่ไม่ใช่แบบสุ่ม ดังนั้น แบบจำลองทางสถิติจึงเป็น "การแสดงทฤษฎีอย่างเป็นทางการ" (Hermann Ader, quoting Kenneth Bollen)
การทดสอบสมมติฐานทางสถิติทั้งหมดและการประมาณทางสถิติทั้งหมดมาจากแบบจำลองทางสถิติ โดยทั่วไป แบบจำลองทางสถิติเป็นส่วนหนึ่งของพื้นฐานของการอนุมานทางสถิติ
วิธีการทางสถิติการสร้างแบบจำลอง
อย่างไม่เป็นทางการ โมเดลทางสถิติถือได้ว่าเป็นสมมติฐานทางสถิติ (หรือชุดสมมติฐานทางสถิติ) ที่มีคุณสมบัติบางอย่าง: สมมติฐานนี้ช่วยให้เราคำนวณความน่าจะเป็นของเหตุการณ์ใดๆ ได้ ตัวอย่างเช่น ให้พิจารณาลูกเต๋าหกด้านธรรมดาคู่หนึ่ง เราจะศึกษาสมมติฐานทางสถิติที่แตกต่างกันสองข้อเกี่ยวกับกระดูก
สมมติฐานทางสถิติข้อแรกถือเป็นแบบจำลองทางสถิติ เนื่องจากมีเพียงสมมติฐานเดียวเท่านั้น เราสามารถคำนวณความน่าจะเป็นของเหตุการณ์ใดๆ ได้ สมมติฐานทางสถิติทางเลือกไม่ถือเป็นแบบจำลองทางสถิติ เนื่องจากมีเพียงสมมติฐานเดียวเท่านั้น เราไม่สามารถคำนวณความน่าจะเป็นของแต่ละเหตุการณ์ได้
ในตัวอย่างด้านบนด้วยสมมติฐานแรก การคำนวณความน่าจะเป็นของเหตุการณ์เป็นเรื่องง่าย อย่างไรก็ตาม ในตัวอย่างอื่นๆ การคำนวณอาจซับซ้อนหรือทำไม่ได้ (เช่น อาจต้องใช้เวลานับล้านปีในการคำนวณ) สำหรับสมมติฐานที่เป็นแบบจำลองทางสถิติ ความยากนี้เป็นที่ยอมรับ: การคำนวณไม่จำเป็นต้องเป็นไปได้ในทางปฏิบัติ เพียงแต่เป็นไปได้ในทางทฤษฎี
ตัวอย่างรุ่น
สมมติว่าเรามีเด็กนักเรียนจำนวนเท่ากัน ความสูงของเด็กจะสัมพันธ์กับอายุแบบสุ่ม เช่น เมื่อเรารู้ว่าเด็กอายุ 7 ขวบ จะส่งผลต่อความน่าจะเป็นที่เด็กจะสูง 5 ฟุต (ประมาณ 152 ซม.) เราสามารถสร้างความสัมพันธ์นี้ในรูปแบบการถดถอยเชิงเส้นได้ เช่น: growth=b0 + b1agei+ εi โดยที่ b0 คือทางแยก b1 คือพารามิเตอร์ที่อายุจะถูกคูณเมื่อได้รับการคาดการณ์การเติบโต εi คือระยะข้อผิดพลาด นี่หมายความว่าความสูงถูกทำนายตามอายุโดยมีข้อผิดพลาด
โมเดลที่ถูกต้องต้องตรงกับจุดข้อมูลทั้งหมด ดังนั้นเส้นตรง (heighti=b0 + b1agei) จึงไม่สามารถเป็นสมการสำหรับตัวแบบข้อมูลได้ เว้นแต่ว่ามันจะพอดีกับจุดข้อมูลทั้งหมดทุกประการ กล่าวคือ จุดข้อมูลทั้งหมดอยู่บนเส้นอย่างสมบูรณ์ ข้อผิดพลาด εi ต้องรวมอยู่ในสมการสำหรับโมเดลเพื่อให้พอดีกับจุดข้อมูลทั้งหมด
ในการอนุมานทางสถิติ ก่อนอื่นเราต้องถือว่าการแจกแจงความน่าจะเป็นสำหรับ εi ตัวอย่างเช่น เราสามารถสมมติได้ว่าการแจกแจงของ εi เป็นเกาส์เซียน โดยมีค่าเฉลี่ยเป็นศูนย์ ในกรณีนี้ โมเดลจะมี 3 พารามิเตอร์: b0, b1 และความแปรปรวนของการแจกแจงแบบเกาส์เซียน
คำอธิบายทั่วไป
แบบจำลองทางสถิติเป็นคลาสพิเศษของแบบจำลองทางคณิตศาสตร์ สิ่งที่ทำให้แบบจำลองทางสถิติแตกต่างจากแบบจำลองทางคณิตศาสตร์อื่นๆ ก็คือ แบบจำลองนั้นไม่มีการกำหนดขึ้นเอง มันถูกใช้เพื่อจำลองข้อมูลสถิติ ดังนั้น ในแบบจำลองทางสถิติที่กำหนดด้วยสมการทางคณิตศาสตร์ ตัวแปรบางตัวไม่มีค่าเฉพาะ แต่มีการกระจายความน่าจะเป็นแทน นั่นคือ ตัวแปรบางตัวเป็นแบบสุ่ม ในตัวอย่างข้างต้น ε เป็นตัวแปรสุ่ม หากไม่มีตัวแปรนี้ ตัวแบบคือจะถูกกำหนด
ตัวแบบทางสถิติมักใช้ในการวิเคราะห์และการสร้างแบบจำลองทางสถิติ แม้ว่ากระบวนการทางกายภาพที่กำลังสร้างแบบจำลองนั้นถูกกำหนดไว้แล้วก็ตาม ตัวอย่างเช่น การโยนเหรียญเป็นกระบวนการที่กำหนดขึ้นโดยหลักการ แต่ก็มักจะจำลองเป็นแบบสุ่ม (ผ่านกระบวนการเบอร์นูลลี)
โมเดลพาราเมตริก
ตัวแบบพาราเมตริกคือตัวแบบทางสถิติที่ใช้บ่อยที่สุด เกี่ยวกับแบบจำลองกึ่งพารามิเตอร์และแบบไม่อิงพารามิเตอร์ เซอร์ เดวิด ค็อกซ์ กล่าวว่า "โดยทั่วไปแล้วพวกมันจะรวมสมมติฐานเกี่ยวกับโครงสร้างและรูปร่างของการแจกแจงไว้น้อยกว่า แต่มักจะมีสมมติฐานที่ชัดเจนเกี่ยวกับความเป็นอิสระ" เช่นเดียวกับโมเดลอื่นๆ ที่กล่าวถึง พวกมันมักถูกใช้ในวิธีการทางสถิติของการสร้างแบบจำลองทางคณิตศาสตร์
รุ่นหลายระดับ
แบบจำลองหลายระดับ (หรือที่เรียกว่าแบบจำลองเชิงเส้นแบบลำดับชั้น โมเดลข้อมูลแบบซ้อน โมเดลแบบผสม สัมประสิทธิ์การสุ่ม แบบจำลองเอฟเฟกต์แบบสุ่ม โมเดลพารามิเตอร์สุ่ม หรือแบบจำลองที่แบ่งพาร์ติชัน) เป็นแบบจำลองพารามิเตอร์ทางสถิติที่แตกต่างกันมากกว่าหนึ่งระดับ ตัวอย่างคือโมเดลผลสัมฤทธิ์ทางการเรียนของนักเรียนที่มีตัวชี้วัดสำหรับนักเรียนแต่ละคน เช่นเดียวกับตัวชี้วัดสำหรับห้องเรียนที่นักเรียนถูกจัดกลุ่ม โมเดลเหล่านี้ถือได้ว่าเป็นการสรุปของตัวแบบเชิงเส้น (โดยเฉพาะ การถดถอยเชิงเส้น) แม้ว่าจะสามารถขยายไปยังโมเดลที่ไม่ใช่เชิงเส้นได้ก็ตาม โมเดลเหล่านี้ได้กลายเป็นได้รับความนิยมมากขึ้นเมื่อมีกำลังประมวลผลและซอฟต์แวร์เพียงพอ
แบบจำลองหลายระดับเหมาะอย่างยิ่งสำหรับโครงการวิจัยที่มีการจัดระเบียบข้อมูลสำหรับผู้เข้าร่วมมากกว่าหนึ่งระดับ (เช่น ข้อมูลที่ซ้อนกัน) หน่วยของการวิเคราะห์มักจะเป็นรายบุคคล (ในระดับที่ต่ำกว่า) ที่ซ้อนอยู่ในหน่วยบริบท/หน่วยรวม (ในระดับที่สูงกว่า) แม้ว่าโดยทั่วไปแล้วระดับข้อมูลต่ำสุดในแบบจำลองหลายระดับจะเป็นแบบรายบุคคล แต่ก็สามารถพิจารณาการวัดรายบุคคลซ้ำๆ กันได้ ดังนั้น แบบจำลองหลายระดับจึงเป็นทางเลือกหนึ่งของการวิเคราะห์สำหรับการวิเคราะห์การวัดซ้ำแบบตัวแปรเดียวหรือหลายตัวแปร สามารถพิจารณาความแตกต่างส่วนบุคคลในเส้นโค้งการเติบโตได้ นอกจากนี้ แบบจำลองหลายระดับสามารถใช้เป็นทางเลือกแทน ANCOVA โดยที่คะแนนตัวแปรตามจะถูกปรับสำหรับตัวแปรร่วม (เช่น ความแตกต่างของแต่ละบุคคล) ก่อนการทดสอบความแตกต่างของการรักษา แบบจำลองหลายระดับสามารถวิเคราะห์การทดลองเหล่านี้โดยไม่ต้องสันนิษฐานถึงความชันถดถอยที่สม่ำเสมอซึ่งกำหนดโดย ANCOVA
โมเดลหลายระดับสามารถใช้กับข้อมูลหลายระดับได้ แม้ว่าโมเดลสองระดับจะเป็นโมเดลทั่วไปที่สุด และส่วนที่เหลือของบทความนี้จะเน้นที่สิ่งเหล่านี้ ตัวแปรตามควรตรวจสอบที่ระดับต่ำสุดของการวิเคราะห์
เลือกรุ่น
เลือกรุ่นเป็นงานในการเลือกจากชุดของตัวแบบผู้สมัครที่ได้รับข้อมูล ซึ่งดำเนินการภายในกรอบของแบบจำลองทางสถิติ ในกรณีที่ง่ายที่สุด จะพิจารณาชุดข้อมูลที่มีอยู่แล้ว อย่างไรก็ตาม งานอาจเกี่ยวข้องกับการออกแบบการทดลองด้วย เพื่อให้ข้อมูลที่รวบรวมได้เหมาะสมกับงานการเลือกแบบจำลอง จากโมเดลของผู้สมัครที่มีอำนาจทำนายหรืออธิบายคล้ายกัน โมเดลที่ง่ายที่สุดน่าจะเป็นตัวเลือกที่ดีที่สุด (มีดโกนของ Occam)
Konishi & Kitagawa กล่าวว่า "ปัญหาการอนุมานทางสถิติส่วนใหญ่ถือได้ว่าเป็นปัญหาที่เกี่ยวข้องกับการสร้างแบบจำลองทางสถิติ" ในทำนองเดียวกัน ค็อกซ์กล่าวว่า “การแปลเนื้อหาในแบบจำลองทางสถิติมักจะเป็นส่วนที่สำคัญที่สุดของการวิเคราะห์อย่างไร”
การเลือกรุ่นยังสามารถอ้างถึงปัญหาของการเลือกแบบจำลองตัวแทนสองสามตัวจากชุดแบบจำลองการคำนวณขนาดใหญ่เพื่อการตัดสินใจหรือการเพิ่มประสิทธิภาพภายใต้ความไม่แน่นอน
รูปแบบกราฟิก
โมเดลกราฟิกหรือโมเดลกราฟิกความน่าจะเป็น (PGM) หรือโมเดลความน่าจะเป็นที่มีโครงสร้างเป็นโมเดลความน่าจะเป็นที่กราฟแสดงโครงสร้างของความสัมพันธ์แบบมีเงื่อนไขระหว่างตัวแปรสุ่ม มักใช้ในทฤษฎีความน่าจะเป็น สถิติ (โดยเฉพาะสถิติเบย์) และการเรียนรู้ของเครื่อง
โมเดลเศรษฐมิติ
เศรษฐมิติเป็นแบบจำลองทางสถิติที่ใช้ในเศรษฐมิติ แบบจำลองทางเศรษฐมิติกำหนดความสัมพันธ์ทางสถิติที่เชื่อว่ามีอยู่ระหว่างปริมาณทางเศรษฐกิจต่างๆ ที่เกี่ยวข้องกับปรากฏการณ์ทางเศรษฐกิจโดยเฉพาะ แบบจำลองทางเศรษฐมิติสามารถได้มาจากแบบจำลองทางเศรษฐกิจที่กำหนดขึ้นเองซึ่งคำนึงถึงความไม่แน่นอนในบัญชี หรือจากแบบจำลองทางเศรษฐศาสตร์ที่สุ่มตัวอย่างเอง อย่างไรก็ตาม คุณสามารถใช้แบบจำลองทางเศรษฐมิติที่ไม่เกี่ยวข้องกับทฤษฎีทางเศรษฐศาสตร์ใดๆ ก็ได้