แบบจำลองทางสถิติเป็นการคาดคะเนทางคณิตศาสตร์ที่รวบรวมชุดสมมติฐานต่างๆ เกี่ยวกับการสร้างข้อมูลตัวอย่างบางส่วน คำนี้มักถูกนำเสนอในรูปแบบอุดมคติ
สมมติฐานที่แสดงในรูปแบบสถิติแสดงชุดของการแจกแจงความน่าจะเป็น หลายรายการมีจุดประสงค์เพื่อประมาณการแจกจ่ายที่ถูกต้องจากชุดข้อมูลใดชุดหนึ่งที่กำลังดึงออกมา การแจกแจงความน่าจะเป็นที่มีอยู่ในตัวแบบทางสถิติคือสิ่งที่ทำให้การฉายภาพแตกต่างจากการแก้ไขทางคณิตศาสตร์อื่นๆ
ฉายภาพทั่วไป
แบบจำลองทางคณิตศาสตร์เป็นคำอธิบายของระบบโดยใช้แนวคิดและภาษาบางอย่าง โดยนำไปใช้กับวิทยาศาสตร์ธรรมชาติ (เช่น ฟิสิกส์ ชีววิทยา ธรณีศาสตร์ เคมี) และสาขาวิชาวิศวกรรม (เช่น วิทยาการคอมพิวเตอร์ วิศวกรรมไฟฟ้า) ตลอดจนสังคมศาสตร์ (เช่น เศรษฐศาสตร์ จิตวิทยา สังคมวิทยา รัฐศาสตร์)
โมเดลช่วยอธิบายระบบและศึกษาอิทธิพลของส่วนประกอบต่างๆ และทำนายพฤติกรรม
แบบจำลองทางคณิตศาสตร์มีได้หลายรูปแบบ รวมถึงระบบไดนามิก การคาดคะเนทางสถิติ สมการเชิงอนุพันธ์ หรือพารามิเตอร์ทางทฤษฎีเกม ประเภทเหล่านี้และประเภทอื่นๆ อาจทับซ้อนกัน และแบบจำลองนี้มีโครงสร้างนามธรรมจำนวนมาก โดยทั่วไป การคาดคะเนทางคณิตศาสตร์ยังสามารถรวมองค์ประกอบทางตรรกะได้ด้วย ในหลายกรณี คุณภาพของสาขาวิทยาศาสตร์ขึ้นอยู่กับว่าแบบจำลองทางคณิตศาสตร์ที่พัฒนาขึ้นในทางทฤษฎีนั้นเห็นด้วยกับผลการทดลองซ้ำมากน้อยเพียงใด การขาดข้อตกลงระหว่างกระบวนการทางทฤษฎีและการวัดเชิงทดลองมักนำไปสู่ความก้าวหน้าที่สำคัญเมื่อมีการพัฒนาทฤษฎีที่ดีขึ้น
ในสาขาวิทยาศาสตร์กายภาพ แบบจำลองทางคณิตศาสตร์แบบดั้งเดิมมีองค์ประกอบจำนวนมากดังต่อไปนี้:
- สมการควบคุม
- รุ่นย่อยเพิ่มเติม
- กำหนดสมการ
- สมการส่วนประกอบ
- สมมติฐานและข้อจำกัด
- เงื่อนไขเริ่มต้นและขอบเขต
- ข้อจำกัดแบบคลาสสิกและสมการจลนศาสตร์
สูตร
ตามกฎแล้ว โมเดลทางสถิติถูกกำหนดโดยสมการทางคณิตศาสตร์ที่รวมตัวแปรสุ่มตั้งแต่หนึ่งตัวขึ้นไป และตัวแปรอื่นๆ ที่เกิดขึ้นตามธรรมชาติอาจเป็นไปได้ ในทำนองเดียวกัน การฉายภาพถือเป็น "แนวคิดที่เป็นทางการของแนวคิด"
การทดสอบสมมติฐานทางสถิติและการประเมินทางสถิติทั้งหมดได้จากแบบจำลองทางคณิตศาสตร์
แนะนำตัว
อย่างไม่เป็นทางการ แบบจำลองทางสถิติสามารถมองได้ว่าเป็นข้อสมมติ (หรือชุดสมมติฐาน) ด้วยคุณสมบัติเฉพาะ: ช่วยให้สามารถคำนวณความน่าจะเป็นของเหตุการณ์ใดๆ ได้ ตัวอย่างเช่น ให้พิจารณาลูกเต๋าหกด้านธรรมดาคู่หนึ่ง จำเป็นต้องมีการสำรวจสมมติฐานทางสถิติที่แตกต่างกันสองข้อเกี่ยวกับกระดูก
สมมติฐานแรกคือ:
สำหรับลูกเต๋าแต่ละลูก ความน่าจะเป็นที่จะได้หนึ่งในตัวเลข (1, 2, 3, 4, 5 และ 6) คือ: 1/6.
จากสมมติฐานนี้ เราสามารถคำนวณความน่าจะเป็นของลูกเต๋าทั้งสองได้: 1:1/6×1/6=1/36.
โดยทั่วไป คุณสามารถคำนวณความน่าจะเป็นของเหตุการณ์ใดๆ ก็ได้ อย่างไรก็ตาม ควรเข้าใจว่าเป็นไปไม่ได้ที่จะคำนวณความน่าจะเป็นของเหตุการณ์ที่ไม่สำคัญอื่น ๆ
ความคิดเห็นแรกเท่านั้นที่รวบรวมแบบจำลองทางคณิตศาสตร์เชิงสถิติ: เนื่องจากการสันนิษฐานเพียงข้อเดียวจึงเป็นไปได้ที่จะกำหนดความน่าจะเป็นของแต่ละการกระทำ
ในตัวอย่างด้านบนที่ได้รับอนุญาตเบื้องต้น ง่ายต่อการระบุความเป็นไปได้ของเหตุการณ์ ด้วยตัวอย่างอื่นๆ การคำนวณอาจทำได้ยากหรือไม่สมจริง (เช่น อาจต้องใช้เวลาหลายปีในการคำนวณ) สำหรับผู้ที่ออกแบบแบบจำลองการวิเคราะห์ทางสถิติ ความซับซ้อนดังกล่าวถือว่าไม่เป็นที่ยอมรับ: การดำเนินการคำนวณไม่ควรเป็นไปไม่ได้ในทางปฏิบัติและเป็นไปไม่ได้ในทางทฤษฎี
คำจำกัดความอย่างเป็นทางการ
ในทางคณิตศาสตร์ โมเดลทางสถิติของระบบมักจะถือเป็นคู่ (S, P) โดยที่ S คือชุดของการสังเกตที่เป็นไปได้ เช่น พื้นที่ตัวอย่าง และ P คือชุดของการแจกแจงความน่าจะเป็นใน S
สัญชาตญาณของคำจำกัดความนี้มีดังต่อไปนี้ สันนิษฐานว่ามีการกระจายความน่าจะเป็น "จริง" ที่เกิดจากกระบวนการที่สร้างข้อมูลบางอย่าง
Set
เป็นผู้กำหนดพารามิเตอร์ของแบบจำลอง การกำหนดพารามิเตอร์โดยทั่วไปต้องใช้ค่าที่แตกต่างกันเพื่อส่งผลให้มีการแจกแจงที่แตกต่างกัน เช่น
ต้องถือ (กล่าวคือ ต้องฉีด) พารามิเตอร์ที่ตรงตามข้อกำหนดนั้นสามารถระบุได้
ตัวอย่าง
สมมติว่ามีนักเรียนอายุต่างกันจำนวนหนึ่ง ความสูงของเด็กจะสัมพันธ์กับปีเกิดอย่างสุ่ม เช่น เมื่อเด็กนักเรียนอายุ 7 ขวบ จะส่งผลต่อความน่าจะเป็นของการเติบโต เพียงเพื่อให้บุคคลนั้นสูงกว่า 3 เซนติเมตร
คุณสามารถกำหนดแนวทางนี้ให้เป็นรูปแบบการถดถอยเป็นเส้นตรงได้ ตัวอย่างเช่น ความสูง i=b 0 + b 1agei + εi โดยที่ b 0 คือจุดตัด b 1 คือพารามิเตอร์ที่ใช้ระบุอายุ ทวีคูณเมื่อได้รับการตรวจสอบระดับความสูง นี่เป็นเงื่อนไขข้อผิดพลาด นั่นคือจะถือว่าความสูงถูกทำนายตามอายุโดยมีข้อผิดพลาดบางประการ
แบบฟอร์มที่ถูกต้องต้องตรงกับจุดข้อมูลทั้งหมด ดังนั้น ทิศทางเป็นเส้นตรง (ระดับ i=b 0 + b 1agei) จึงไม่สามารถเป็นสมการสำหรับตัวแบบข้อมูลได้ - หากไม่ได้ตอบทุกประเด็นอย่างชัดเจน เช่นโดยไม่มีข้อยกเว้น ข้อมูลทั้งหมดอยู่ในบรรทัดอย่างไม่มีที่ติ ระยะขอบของข้อผิดพลาด εi ต้องป้อนลงในสมการเพื่อให้แบบฟอร์มตรงกับรายการข้อมูลทั้งหมด
ในการอนุมานทางสถิติ ก่อนอื่นเราต้องถือว่าการแจกแจงความน่าจะเป็นสำหรับ ε i ตัวอย่างเช่น เราสามารถสรุปได้ว่าการแจกแจงของ ε i มีรูปร่างแบบเกาส์เซียนที่มีค่าเฉลี่ยเป็นศูนย์ ในกรณีนี้ โมเดลจะมี 3 พารามิเตอร์: b 0, b 1 และความแปรปรวนของการแจกแจงแบบเกาส์เซียน
คุณสามารถระบุรุ่นอย่างเป็นทางการเป็น (S, P).
ในตัวอย่างนี้ โมเดลถูกกำหนดโดยการระบุ S ดังนั้นจึงสามารถตั้งสมมติฐานเกี่ยวกับ P ได้ มีสองตัวเลือก:
การเติบโตนี้สามารถประมาณโดยฟังก์ชันเชิงเส้นของอายุ
ข้อผิดพลาดในการประมาณมีการกระจายภายในแบบเกาส์เซียน
หมายเหตุทั่วไป
พารามิเตอร์ทางสถิติของตัวแบบเป็นคลาสพิเศษของการฉายภาพทางคณิตศาสตร์ อะไรทำให้สายพันธุ์หนึ่งแตกต่างจากสายพันธุ์อื่น? ดังนั้นแบบจำลองทางสถิติจึงไม่ถูกกำหนด ดังนั้น ตัวแปรบางตัวจึงไม่มีค่าที่แน่นอน ซึ่งแตกต่างจากสมการทางคณิตศาสตร์ แต่มีการกระจายตัวของความเป็นไปได้แทน นั่นคือตัวแปรแต่ละตัวถือเป็นการสุ่ม ในตัวอย่างข้างต้น ε เป็นตัวแปรสุ่ม หากไม่มีมัน การฉายภาพจะเป็นตัวกำหนด
การสร้างแบบจำลองทางสถิติมักถูกใช้ แม้ว่ากระบวนการด้านวัสดุจะถือเป็นตัวกำหนด ตัวอย่างเช่น โดยหลักการแล้วการโยนเหรียญถือเป็นการกระทำที่กำหนดไว้ล่วงหน้าอย่างไรก็ตาม กรณีนี้ส่วนใหญ่ยังเป็นแบบจำลองสุ่ม (ผ่านกระบวนการเบอร์นูลลี)
ตามคำบอกของโคนิชิและคิตางาวะ โมเดลทางสถิติมีสามเป้าหมาย:
- พยากรณ์
- การขุดข้อมูล
- คำอธิบายโครงสร้างสุ่ม
ขนาดฉาย
สมมติว่ามีรูปแบบการทำนายทางสถิติ
โมเดลนี้เรียกว่า Parametric ถ้า O มีมิติจำกัด ในการแก้ปัญหา คุณต้องเขียนว่า
โดยที่ k เป็นจำนวนเต็มบวก (R หมายถึงจำนวนจริงใดๆ) ในที่นี้เรียกว่ามิติของโมเดล
ตัวอย่างเช่น เราสามารถสมมติได้ว่าข้อมูลทั้งหมดมาจากการแจกแจงแบบเกาส์เซียนแบบไม่มีตัวแปร:
ในตัวอย่างนี้ ขนาดของ k คือ 2.
และอีกตัวอย่างหนึ่ง ข้อมูลสามารถสมมติได้ว่าประกอบด้วยจุด (x, y) ซึ่งถือว่ากระจายเป็นเส้นตรงโดยมีค่าตกค้างแบบเกาส์เซียน (มีค่าเฉลี่ยเป็นศูนย์) จากนั้นมิติของแบบจำลองทางเศรษฐศาสตร์ทางสถิติจะเท่ากับ 3: จุดตัดของเส้นตรง ความชัน และความแปรปรวนของการกระจายตัวของเศษที่เหลือ ควรสังเกตว่าในเรขาคณิต เส้นตรงมีมิติเท่ากับ 1.
แม้ว่าค่าข้างต้นจะเป็นพารามิเตอร์เดียวในทางเทคนิคที่มีมิติ k แต่บางครั้งก็ถือว่ามีค่าที่แตกต่างกัน k ตัวอย่างเช่น ด้วยการแจกแจงแบบเกาส์เซียนแบบหนึ่งมิติ O เป็นพารามิเตอร์เดียวที่มีขนาด 2 แต่บางครั้งถือว่ามีสองพารามิเตอร์พารามิเตอร์แต่ละตัว - ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน
รูปแบบกระบวนการทางสถิติไม่มีพารามิเตอร์ ถ้าชุดของค่า O เป็นอนันต์มิติ นอกจากนี้ยังเป็นแบบกึ่งพารามิเตอร์หากมีทั้งพารามิเตอร์แบบจำกัดมิติและแบบอนันต์มิติ อย่างเป็นทางการ ถ้า k เป็นมิติของ O และ n คือจำนวนตัวอย่าง โมเดลกึ่งพารามิเตอร์และไม่ใช่พารามิเตอร์จะมี
จากนั้นโมเดลเป็นแบบกึ่งพารามิเตอร์ มิฉะนั้น การฉายภาพจะไม่มีพารามิเตอร์
ตัวแบบพาราเมตริกคือสถิติที่ใช้บ่อยที่สุด เกี่ยวกับการประมาณการแบบกึ่งพารามิเตอร์และแบบไม่อิงพารามิเตอร์ Sir David Cox กล่าวว่า:
"โดยปกติ พวกเขาเกี่ยวข้องกับสมมติฐานที่น้อยที่สุดเกี่ยวกับพื้นผิวและรูปร่างการกระจาย แต่มีทฤษฎีที่ทรงพลังเกี่ยวกับการพึ่งตนเอง"
รุ่นที่ซ้อนกัน
อย่าสับสนกับการฉายภาพหลายระดับ
แบบจำลองทางสถิติสองแบบจะซ้อนกันถ้าตัวแรกสามารถแปลงเป็นรุ่นที่สองได้โดยการจำกัดพารามิเตอร์ของตัวแรก ตัวอย่างเช่น ชุดของการแจกแจงแบบเกาส์เซียนทั้งหมดมีชุดการแจกแจงแบบไม่มีค่าเฉลี่ยที่ซ้อนกัน:
นั่นคือ คุณต้องจำกัดค่าเฉลี่ยในชุดของการแจกแจงแบบเกาส์เซียนทั้งหมดเพื่อให้ได้การแจกแจงที่มีค่าเฉลี่ยเป็นศูนย์ ตัวอย่างที่สอง โมเดลกำลังสอง y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) มีตัวแบบเชิงเส้นในตัว y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - เช่น พารามิเตอร์ b2 เท่ากับ 0.
ในทั้งสองตัวอย่างนี้ รุ่นแรกมีมิติที่สูงกว่ารุ่นที่สอง เป็นเช่นนี้บ่อยครั้งแต่ไม่เสมอไป อีกตัวอย่างหนึ่งคือชุดของการแจกแจงแบบเกาส์เซียนที่มีค่าเฉลี่ยบวก ซึ่งมีมิติ 2.
เปรียบเทียบรุ่น
สันนิษฐานว่ามีการกระจายความน่าจะเป็น "จริง" ซึ่งอยู่ภายใต้ข้อมูลที่สังเกตได้ซึ่งเกิดจากกระบวนการที่สร้างมันขึ้นมา
และยังสามารถเปรียบเทียบแบบจำลองได้โดยใช้การวิเคราะห์เชิงสำรวจหรือการยืนยัน ในการวิเคราะห์เชิงสำรวจ จะมีการกำหนดแบบจำลองที่แตกต่างกัน และการประเมินจะพิจารณาว่าแต่ละรายการอธิบายข้อมูลได้ดีเพียงใด ในการวิเคราะห์เชิงยืนยัน สมมติฐานที่ตั้งไว้ก่อนหน้านี้จะถูกนำไปเปรียบเทียบกับสมมติฐานเดิม เกณฑ์ทั่วไปสำหรับสิ่งนี้ ได้แก่ P 2 ปัจจัยแบบเบย์และความน่าจะเป็นสัมพัทธ์
ความคิดของโคนิชิกับคิตางาวะ
“ปัญหาส่วนใหญ่ในรูปแบบทางคณิตศาสตร์ทางสถิติถือเป็นคำถามเชิงคาดการณ์ โดยปกติแล้วจะกำหนดขึ้นเพื่อเปรียบเทียบปัจจัยหลายประการ”
นอกจากนี้ เซอร์เดวิด ค็อกซ์กล่าวว่า "จากการแปลหัวข้อนี้ ปัญหาในรูปแบบทางสถิติมักจะเป็นส่วนที่สำคัญที่สุดของการวิเคราะห์"