แบบจำลองทางสถิติ: แก่นแท้ของวิธีการ การก่อสร้าง และการวิเคราะห์

สารบัญ:

แบบจำลองทางสถิติ: แก่นแท้ของวิธีการ การก่อสร้าง และการวิเคราะห์
แบบจำลองทางสถิติ: แก่นแท้ของวิธีการ การก่อสร้าง และการวิเคราะห์
Anonim

แบบจำลองทางสถิติเป็นการคาดคะเนทางคณิตศาสตร์ที่รวบรวมชุดสมมติฐานต่างๆ เกี่ยวกับการสร้างข้อมูลตัวอย่างบางส่วน คำนี้มักถูกนำเสนอในรูปแบบอุดมคติ

สมมติฐานที่แสดงในรูปแบบสถิติแสดงชุดของการแจกแจงความน่าจะเป็น หลายรายการมีจุดประสงค์เพื่อประมาณการแจกจ่ายที่ถูกต้องจากชุดข้อมูลใดชุดหนึ่งที่กำลังดึงออกมา การแจกแจงความน่าจะเป็นที่มีอยู่ในตัวแบบทางสถิติคือสิ่งที่ทำให้การฉายภาพแตกต่างจากการแก้ไขทางคณิตศาสตร์อื่นๆ

ฉายภาพทั่วไป

แบบจำลองกระบวนการทางสถิติ
แบบจำลองกระบวนการทางสถิติ

แบบจำลองทางคณิตศาสตร์เป็นคำอธิบายของระบบโดยใช้แนวคิดและภาษาบางอย่าง โดยนำไปใช้กับวิทยาศาสตร์ธรรมชาติ (เช่น ฟิสิกส์ ชีววิทยา ธรณีศาสตร์ เคมี) และสาขาวิชาวิศวกรรม (เช่น วิทยาการคอมพิวเตอร์ วิศวกรรมไฟฟ้า) ตลอดจนสังคมศาสตร์ (เช่น เศรษฐศาสตร์ จิตวิทยา สังคมวิทยา รัฐศาสตร์)

โมเดลช่วยอธิบายระบบและศึกษาอิทธิพลของส่วนประกอบต่างๆ และทำนายพฤติกรรม

แบบจำลองทางคณิตศาสตร์มีได้หลายรูปแบบ รวมถึงระบบไดนามิก การคาดคะเนทางสถิติ สมการเชิงอนุพันธ์ หรือพารามิเตอร์ทางทฤษฎีเกม ประเภทเหล่านี้และประเภทอื่นๆ อาจทับซ้อนกัน และแบบจำลองนี้มีโครงสร้างนามธรรมจำนวนมาก โดยทั่วไป การคาดคะเนทางคณิตศาสตร์ยังสามารถรวมองค์ประกอบทางตรรกะได้ด้วย ในหลายกรณี คุณภาพของสาขาวิทยาศาสตร์ขึ้นอยู่กับว่าแบบจำลองทางคณิตศาสตร์ที่พัฒนาขึ้นในทางทฤษฎีนั้นเห็นด้วยกับผลการทดลองซ้ำมากน้อยเพียงใด การขาดข้อตกลงระหว่างกระบวนการทางทฤษฎีและการวัดเชิงทดลองมักนำไปสู่ความก้าวหน้าที่สำคัญเมื่อมีการพัฒนาทฤษฎีที่ดีขึ้น

ในสาขาวิทยาศาสตร์กายภาพ แบบจำลองทางคณิตศาสตร์แบบดั้งเดิมมีองค์ประกอบจำนวนมากดังต่อไปนี้:

  • สมการควบคุม
  • รุ่นย่อยเพิ่มเติม
  • กำหนดสมการ
  • สมการส่วนประกอบ
  • สมมติฐานและข้อจำกัด
  • เงื่อนไขเริ่มต้นและขอบเขต
  • ข้อจำกัดแบบคลาสสิกและสมการจลนศาสตร์

สูตร

ตามกฎแล้ว โมเดลทางสถิติถูกกำหนดโดยสมการทางคณิตศาสตร์ที่รวมตัวแปรสุ่มตั้งแต่หนึ่งตัวขึ้นไป และตัวแปรอื่นๆ ที่เกิดขึ้นตามธรรมชาติอาจเป็นไปได้ ในทำนองเดียวกัน การฉายภาพถือเป็น "แนวคิดที่เป็นทางการของแนวคิด"

การทดสอบสมมติฐานทางสถิติและการประเมินทางสถิติทั้งหมดได้จากแบบจำลองทางคณิตศาสตร์

แนะนำตัว

แบบจำลองทางคณิตศาสตร์เชิงสถิติ
แบบจำลองทางคณิตศาสตร์เชิงสถิติ

อย่างไม่เป็นทางการ แบบจำลองทางสถิติสามารถมองได้ว่าเป็นข้อสมมติ (หรือชุดสมมติฐาน) ด้วยคุณสมบัติเฉพาะ: ช่วยให้สามารถคำนวณความน่าจะเป็นของเหตุการณ์ใดๆ ได้ ตัวอย่างเช่น ให้พิจารณาลูกเต๋าหกด้านธรรมดาคู่หนึ่ง จำเป็นต้องมีการสำรวจสมมติฐานทางสถิติที่แตกต่างกันสองข้อเกี่ยวกับกระดูก

สมมติฐานแรกคือ:

สำหรับลูกเต๋าแต่ละลูก ความน่าจะเป็นที่จะได้หนึ่งในตัวเลข (1, 2, 3, 4, 5 และ 6) คือ: 1/6.

จากสมมติฐานนี้ เราสามารถคำนวณความน่าจะเป็นของลูกเต๋าทั้งสองได้: 1:1/6×1/6=1/36.

โดยทั่วไป คุณสามารถคำนวณความน่าจะเป็นของเหตุการณ์ใดๆ ก็ได้ อย่างไรก็ตาม ควรเข้าใจว่าเป็นไปไม่ได้ที่จะคำนวณความน่าจะเป็นของเหตุการณ์ที่ไม่สำคัญอื่น ๆ

ความคิดเห็นแรกเท่านั้นที่รวบรวมแบบจำลองทางคณิตศาสตร์เชิงสถิติ: เนื่องจากการสันนิษฐานเพียงข้อเดียวจึงเป็นไปได้ที่จะกำหนดความน่าจะเป็นของแต่ละการกระทำ

ในตัวอย่างด้านบนที่ได้รับอนุญาตเบื้องต้น ง่ายต่อการระบุความเป็นไปได้ของเหตุการณ์ ด้วยตัวอย่างอื่นๆ การคำนวณอาจทำได้ยากหรือไม่สมจริง (เช่น อาจต้องใช้เวลาหลายปีในการคำนวณ) สำหรับผู้ที่ออกแบบแบบจำลองการวิเคราะห์ทางสถิติ ความซับซ้อนดังกล่าวถือว่าไม่เป็นที่ยอมรับ: การดำเนินการคำนวณไม่ควรเป็นไปไม่ได้ในทางปฏิบัติและเป็นไปไม่ได้ในทางทฤษฎี

คำจำกัดความอย่างเป็นทางการ

ในทางคณิตศาสตร์ โมเดลทางสถิติของระบบมักจะถือเป็นคู่ (S, P) โดยที่ S คือชุดของการสังเกตที่เป็นไปได้ เช่น พื้นที่ตัวอย่าง และ P คือชุดของการแจกแจงความน่าจะเป็นใน S

สัญชาตญาณของคำจำกัดความนี้มีดังต่อไปนี้ สันนิษฐานว่ามีการกระจายความน่าจะเป็น "จริง" ที่เกิดจากกระบวนการที่สร้างข้อมูลบางอย่าง

Set

เป็นผู้กำหนดพารามิเตอร์ของแบบจำลอง การกำหนดพารามิเตอร์โดยทั่วไปต้องใช้ค่าที่แตกต่างกันเพื่อส่งผลให้มีการแจกแจงที่แตกต่างกัน เช่น

แบบจำลองผลลัพธ์
แบบจำลองผลลัพธ์

ต้องถือ (กล่าวคือ ต้องฉีด) พารามิเตอร์ที่ตรงตามข้อกำหนดนั้นสามารถระบุได้

ตัวอย่าง

กราฟสถิติ
กราฟสถิติ

สมมติว่ามีนักเรียนอายุต่างกันจำนวนหนึ่ง ความสูงของเด็กจะสัมพันธ์กับปีเกิดอย่างสุ่ม เช่น เมื่อเด็กนักเรียนอายุ 7 ขวบ จะส่งผลต่อความน่าจะเป็นของการเติบโต เพียงเพื่อให้บุคคลนั้นสูงกว่า 3 เซนติเมตร

คุณสามารถกำหนดแนวทางนี้ให้เป็นรูปแบบการถดถอยเป็นเส้นตรงได้ ตัวอย่างเช่น ความสูง i=b 0 + b 1agei + εi โดยที่ b 0 คือจุดตัด b 1 คือพารามิเตอร์ที่ใช้ระบุอายุ ทวีคูณเมื่อได้รับการตรวจสอบระดับความสูง นี่เป็นเงื่อนไขข้อผิดพลาด นั่นคือจะถือว่าความสูงถูกทำนายตามอายุโดยมีข้อผิดพลาดบางประการ

แบบฟอร์มที่ถูกต้องต้องตรงกับจุดข้อมูลทั้งหมด ดังนั้น ทิศทางเป็นเส้นตรง (ระดับ i=b 0 + b 1agei) จึงไม่สามารถเป็นสมการสำหรับตัวแบบข้อมูลได้ - หากไม่ได้ตอบทุกประเด็นอย่างชัดเจน เช่นโดยไม่มีข้อยกเว้น ข้อมูลทั้งหมดอยู่ในบรรทัดอย่างไม่มีที่ติ ระยะขอบของข้อผิดพลาด εi ต้องป้อนลงในสมการเพื่อให้แบบฟอร์มตรงกับรายการข้อมูลทั้งหมด

ในการอนุมานทางสถิติ ก่อนอื่นเราต้องถือว่าการแจกแจงความน่าจะเป็นสำหรับ ε i ตัวอย่างเช่น เราสามารถสรุปได้ว่าการแจกแจงของ ε i มีรูปร่างแบบเกาส์เซียนที่มีค่าเฉลี่ยเป็นศูนย์ ในกรณีนี้ โมเดลจะมี 3 พารามิเตอร์: b 0, b 1 และความแปรปรวนของการแจกแจงแบบเกาส์เซียน

คุณสามารถระบุรุ่นอย่างเป็นทางการเป็น (S, P).

ในตัวอย่างนี้ โมเดลถูกกำหนดโดยการระบุ S ดังนั้นจึงสามารถตั้งสมมติฐานเกี่ยวกับ P ได้ มีสองตัวเลือก:

การเติบโตนี้สามารถประมาณโดยฟังก์ชันเชิงเส้นของอายุ

ข้อผิดพลาดในการประมาณมีการกระจายภายในแบบเกาส์เซียน

หมายเหตุทั่วไป

พารามิเตอร์ทางสถิติของตัวแบบเป็นคลาสพิเศษของการฉายภาพทางคณิตศาสตร์ อะไรทำให้สายพันธุ์หนึ่งแตกต่างจากสายพันธุ์อื่น? ดังนั้นแบบจำลองทางสถิติจึงไม่ถูกกำหนด ดังนั้น ตัวแปรบางตัวจึงไม่มีค่าที่แน่นอน ซึ่งแตกต่างจากสมการทางคณิตศาสตร์ แต่มีการกระจายตัวของความเป็นไปได้แทน นั่นคือตัวแปรแต่ละตัวถือเป็นการสุ่ม ในตัวอย่างข้างต้น ε เป็นตัวแปรสุ่ม หากไม่มีมัน การฉายภาพจะเป็นตัวกำหนด

การสร้างแบบจำลองทางสถิติมักถูกใช้ แม้ว่ากระบวนการด้านวัสดุจะถือเป็นตัวกำหนด ตัวอย่างเช่น โดยหลักการแล้วการโยนเหรียญถือเป็นการกระทำที่กำหนดไว้ล่วงหน้าอย่างไรก็ตาม กรณีนี้ส่วนใหญ่ยังเป็นแบบจำลองสุ่ม (ผ่านกระบวนการเบอร์นูลลี)

ตามคำบอกของโคนิชิและคิตางาวะ โมเดลทางสถิติมีสามเป้าหมาย:

  • พยากรณ์
  • การขุดข้อมูล
  • คำอธิบายโครงสร้างสุ่ม

ขนาดฉาย

สมมติว่ามีรูปแบบการทำนายทางสถิติ

โมเดลนี้เรียกว่า Parametric ถ้า O มีมิติจำกัด ในการแก้ปัญหา คุณต้องเขียนว่า

ความแตกต่างของแบบจำลอง
ความแตกต่างของแบบจำลอง

โดยที่ k เป็นจำนวนเต็มบวก (R หมายถึงจำนวนจริงใดๆ) ในที่นี้เรียกว่ามิติของโมเดล

ตัวอย่างเช่น เราสามารถสมมติได้ว่าข้อมูลทั้งหมดมาจากการแจกแจงแบบเกาส์เซียนแบบไม่มีตัวแปร:

สูตรสถิติ
สูตรสถิติ

ในตัวอย่างนี้ ขนาดของ k คือ 2.

และอีกตัวอย่างหนึ่ง ข้อมูลสามารถสมมติได้ว่าประกอบด้วยจุด (x, y) ซึ่งถือว่ากระจายเป็นเส้นตรงโดยมีค่าตกค้างแบบเกาส์เซียน (มีค่าเฉลี่ยเป็นศูนย์) จากนั้นมิติของแบบจำลองทางเศรษฐศาสตร์ทางสถิติจะเท่ากับ 3: จุดตัดของเส้นตรง ความชัน และความแปรปรวนของการกระจายตัวของเศษที่เหลือ ควรสังเกตว่าในเรขาคณิต เส้นตรงมีมิติเท่ากับ 1.

แม้ว่าค่าข้างต้นจะเป็นพารามิเตอร์เดียวในทางเทคนิคที่มีมิติ k แต่บางครั้งก็ถือว่ามีค่าที่แตกต่างกัน k ตัวอย่างเช่น ด้วยการแจกแจงแบบเกาส์เซียนแบบหนึ่งมิติ O เป็นพารามิเตอร์เดียวที่มีขนาด 2 แต่บางครั้งถือว่ามีสองพารามิเตอร์พารามิเตอร์แต่ละตัว - ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน

รูปแบบกระบวนการทางสถิติไม่มีพารามิเตอร์ ถ้าชุดของค่า O เป็นอนันต์มิติ นอกจากนี้ยังเป็นแบบกึ่งพารามิเตอร์หากมีทั้งพารามิเตอร์แบบจำกัดมิติและแบบอนันต์มิติ อย่างเป็นทางการ ถ้า k เป็นมิติของ O และ n คือจำนวนตัวอย่าง โมเดลกึ่งพารามิเตอร์และไม่ใช่พารามิเตอร์จะมี

รุ่นสูตร
รุ่นสูตร

จากนั้นโมเดลเป็นแบบกึ่งพารามิเตอร์ มิฉะนั้น การฉายภาพจะไม่มีพารามิเตอร์

ตัวแบบพาราเมตริกคือสถิติที่ใช้บ่อยที่สุด เกี่ยวกับการประมาณการแบบกึ่งพารามิเตอร์และแบบไม่อิงพารามิเตอร์ Sir David Cox กล่าวว่า:

"โดยปกติ พวกเขาเกี่ยวข้องกับสมมติฐานที่น้อยที่สุดเกี่ยวกับพื้นผิวและรูปร่างการกระจาย แต่มีทฤษฎีที่ทรงพลังเกี่ยวกับการพึ่งตนเอง"

รุ่นที่ซ้อนกัน

อย่าสับสนกับการฉายภาพหลายระดับ

แบบจำลองทางสถิติสองแบบจะซ้อนกันถ้าตัวแรกสามารถแปลงเป็นรุ่นที่สองได้โดยการจำกัดพารามิเตอร์ของตัวแรก ตัวอย่างเช่น ชุดของการแจกแจงแบบเกาส์เซียนทั้งหมดมีชุดการแจกแจงแบบไม่มีค่าเฉลี่ยที่ซ้อนกัน:

นั่นคือ คุณต้องจำกัดค่าเฉลี่ยในชุดของการแจกแจงแบบเกาส์เซียนทั้งหมดเพื่อให้ได้การแจกแจงที่มีค่าเฉลี่ยเป็นศูนย์ ตัวอย่างที่สอง โมเดลกำลังสอง y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) มีตัวแบบเชิงเส้นในตัว y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - เช่น พารามิเตอร์ b2 เท่ากับ 0.

ในทั้งสองตัวอย่างนี้ รุ่นแรกมีมิติที่สูงกว่ารุ่นที่สอง เป็นเช่นนี้บ่อยครั้งแต่ไม่เสมอไป อีกตัวอย่างหนึ่งคือชุดของการแจกแจงแบบเกาส์เซียนที่มีค่าเฉลี่ยบวก ซึ่งมีมิติ 2.

เปรียบเทียบรุ่น

แบบจำลองทางสถิติ
แบบจำลองทางสถิติ

สันนิษฐานว่ามีการกระจายความน่าจะเป็น "จริง" ซึ่งอยู่ภายใต้ข้อมูลที่สังเกตได้ซึ่งเกิดจากกระบวนการที่สร้างมันขึ้นมา

และยังสามารถเปรียบเทียบแบบจำลองได้โดยใช้การวิเคราะห์เชิงสำรวจหรือการยืนยัน ในการวิเคราะห์เชิงสำรวจ จะมีการกำหนดแบบจำลองที่แตกต่างกัน และการประเมินจะพิจารณาว่าแต่ละรายการอธิบายข้อมูลได้ดีเพียงใด ในการวิเคราะห์เชิงยืนยัน สมมติฐานที่ตั้งไว้ก่อนหน้านี้จะถูกนำไปเปรียบเทียบกับสมมติฐานเดิม เกณฑ์ทั่วไปสำหรับสิ่งนี้ ได้แก่ P 2 ปัจจัยแบบเบย์และความน่าจะเป็นสัมพัทธ์

ความคิดของโคนิชิกับคิตางาวะ

“ปัญหาส่วนใหญ่ในรูปแบบทางคณิตศาสตร์ทางสถิติถือเป็นคำถามเชิงคาดการณ์ โดยปกติแล้วจะกำหนดขึ้นเพื่อเปรียบเทียบปัจจัยหลายประการ”

นอกจากนี้ เซอร์เดวิด ค็อกซ์กล่าวว่า "จากการแปลหัวข้อนี้ ปัญหาในรูปแบบทางสถิติมักจะเป็นส่วนที่สำคัญที่สุดของการวิเคราะห์"

แนะนำ: