การถดถอยโลจิสติก: โมเดลและวิธีการ

สารบัญ:

การถดถอยโลจิสติก: โมเดลและวิธีการ
การถดถอยโลจิสติก: โมเดลและวิธีการ
Anonim

วิธีการถดถอยโลจิสติกและการวิเคราะห์การเลือกปฏิบัติจะใช้เมื่อจำเป็นต้องแยกความแตกต่างของผู้ตอบแบบสอบถามอย่างชัดเจนตามหมวดหมู่เป้าหมาย ในกรณีนี้ กลุ่มต่างๆ จะถูกแสดงด้วยระดับของพารามิเตอร์ตัวแปรเดียว มาดูแบบจำลองการถดถอยโลจิสติกอย่างละเอียดถี่ถ้วนและหาสาเหตุว่าทำไมจึงจำเป็น

การถดถอยโลจิสติก
การถดถอยโลจิสติก

ข้อมูลทั่วไป

ตัวอย่างของปัญหาที่ใช้การถดถอยโลจิสติกคือการจัดประเภทผู้ตอบแบบสอบถามออกเป็นกลุ่มที่ซื้อและไม่ซื้อมัสตาร์ด ความแตกต่างจะดำเนินการตามลักษณะทางสังคมและประชากร ซึ่งรวมถึงโดยเฉพาะอย่างยิ่ง อายุ เพศ จำนวนญาติ รายได้ ฯลฯ ในการดำเนินงาน มีเกณฑ์การสร้างความแตกต่างและตัวแปร อันหลังเข้ารหัสหมวดหมู่เป้าหมายซึ่งอันที่จริงควรแบ่งผู้ตอบแบบสอบถาม

ความแตกต่าง

ควรกล่าวไว้ว่าช่วงของกรณีที่มีการใช้การถดถอยโลจิสติกนั้นแคบกว่าการวิเคราะห์แบบจำแนกมาก ในเรื่องนี้ถือว่าการใช้วิธีหลังเป็นวิธีสากลในการสร้างความแตกต่างเป็นที่ชื่นชอบมากขึ้น นอกจากนี้ ผู้เชี่ยวชาญแนะนำให้เริ่มการศึกษาการจำแนกประเภทด้วยการวิเคราะห์จำแนก และในกรณีที่ไม่แน่นอนเกี่ยวกับผลลัพธ์ คุณสามารถใช้การถดถอยโลจิสติกได้ ความต้องการนี้เกิดจากปัจจัยหลายประการ การถดถอยโลจิสติกจะใช้เมื่อมีความเข้าใจที่ชัดเจนเกี่ยวกับประเภทของตัวแปรอิสระและตัวแปรตาม ดังนั้นจึงเลือกหนึ่งใน 3 ขั้นตอนที่เป็นไปได้ ในการวิเคราะห์จำแนก ผู้วิจัยมักเกี่ยวข้องกับการดำเนินการแบบคงที่เพียงครั้งเดียว มันเกี่ยวข้องกับตัวแปรหมวดหมู่ที่ขึ้นอยู่กับหนึ่งและหลายตัวแปรด้วยมาตราส่วนประเภทใดก็ได้

ดู

งานของการศึกษาทางสถิติที่ใช้การถดถอยโลจิสติกคือการกำหนดความน่าจะเป็นที่ผู้ตอบโดยเฉพาะจะถูกมอบหมายให้กับกลุ่มใดกลุ่มหนึ่ง ความแตกต่างจะดำเนินการตามพารามิเตอร์บางอย่าง ในทางปฏิบัติ ตามค่านิยมของปัจจัยอิสระตั้งแต่หนึ่งปัจจัยขึ้นไป เราสามารถจำแนกผู้ตอบออกเป็นสองกลุ่ม ในกรณีนี้ การถดถอยโลจิสติกแบบไบนารีเกิดขึ้น นอกจากนี้ พารามิเตอร์ที่ระบุยังสามารถใช้เมื่อแบ่งออกเป็นกลุ่มที่มีมากกว่าสองกลุ่ม ในสถานการณ์เช่นนี้ การถดถอยโลจิสติกพหุนามเกิดขึ้น กลุ่มผลลัพธ์จะแสดงในระดับของตัวแปรเดียว

การถดถอยโลจิสติก
การถดถอยโลจิสติก

ตัวอย่าง

สมมติว่ามีผู้ตอบแบบสอบถามตอบคำถามว่าสนใจข้อเสนอซื้อที่ดินในเขตชานเมืองมอสโกหรือไม่ ตัวเลือกคือ "ไม่"และใช่. จำเป็นต้องค้นหาว่าปัจจัยใดบ้างที่มีอิทธิพลเหนือการตัดสินใจของผู้มีโอกาสเป็นผู้ซื้อ ในการทำเช่นนี้ผู้ตอบแบบสอบถามจะถูกถามคำถามเกี่ยวกับโครงสร้างพื้นฐานของอาณาเขต, ระยะทางไปยังเมืองหลวง, พื้นที่ของไซต์, การมี / ไม่มีอาคารที่อยู่อาศัย ฯลฯ การใช้การถดถอยแบบไบนารีทำให้สามารถกระจายได้ ผู้ตอบแบบสอบถามออกเป็นสองกลุ่ม อันดับแรกจะรวมถึงผู้ที่สนใจในการซื้อกิจการ - ผู้ซื้อที่มีศักยภาพและคนที่สองตามลำดับคือผู้ที่ไม่สนใจข้อเสนอดังกล่าว นอกจากนี้ สำหรับผู้ตอบแต่ละราย จะคำนวณความน่าจะเป็นที่จะถูกกำหนดให้กับหมวดหมู่ใดหมวดหนึ่ง

ลักษณะเปรียบเทียบ

ความแตกต่างจากสองตัวเลือกข้างต้นคือจำนวนกลุ่มที่แตกต่างกันและประเภทของตัวแปรตามและตัวแปรอิสระ ในการถดถอยแบบไบนารี ตัวอย่างเช่น การศึกษาการพึ่งพาปัจจัยสองขั้วในเงื่อนไขอิสระตั้งแต่หนึ่งสภาวะขึ้นไป ยิ่งกว่านั้นหลังสามารถมีมาตราส่วนได้ทุกประเภท การถดถอยพหุนามถือเป็นรูปแบบหนึ่งของตัวเลือกการจัดหมวดหมู่นี้ ในนั้นมากกว่า 2 กลุ่มเป็นของตัวแปรตาม ปัจจัยอิสระต้องมีมาตราส่วนหรือมาตราส่วนเล็กน้อย

โลจิสติกถดถอยใน spss

ในแพ็คเกจสถิติ 11-12 มีการแนะนำเวอร์ชันใหม่ของการวิเคราะห์ - ลำดับ วิธีนี้ใช้เมื่อปัจจัยที่ขึ้นต่อกันอยู่ในมาตราส่วนชื่อเดียวกัน (ลำดับ) ในกรณีนี้ ตัวแปรอิสระจะถูกเลือกประเภทเฉพาะหนึ่งประเภท ต้องเป็นลำดับหรือระบุ การจำแนกออกเป็นหลายประเภทถือว่ามากที่สุดสากล. วิธีนี้สามารถใช้ได้ในทุกการศึกษาที่ใช้การถดถอยโลจิสติก อย่างไรก็ตาม วิธีเดียวที่จะปรับปรุงคุณภาพของโมเดลคือการใช้ทั้งสามเทคนิค

การตรวจสอบคุณภาพที่เพียงพอและการถดถอยโลจิสติก
การตรวจสอบคุณภาพที่เพียงพอและการถดถอยโลจิสติก

การจัดลำดับ

ควรกล่าวว่าก่อนหน้านี้ในชุดข้อมูลสถิติไม่มีความเป็นไปได้ทั่วไปในการวิเคราะห์เฉพาะสำหรับปัจจัยที่ขึ้นต่อกันด้วยมาตราส่วนลำดับ สำหรับตัวแปรทั้งหมดที่มีมากกว่า 2 กลุ่ม จะใช้ตัวแปรพหุนาม การวิเคราะห์เชิงลำดับที่เพิ่งเปิดตัวเมื่อเร็วๆ นี้มีคุณลักษณะหลายอย่าง โดยคำนึงถึงลักษณะเฉพาะของมาตราส่วน ในขณะเดียวกันในสื่อการสอน การถดถอยโลจิสติกเชิงลำดับมักไม่ถือเป็นเทคนิคที่แยกจากกัน นี่เป็นเพราะสาเหตุต่อไปนี้: การวิเคราะห์ลำดับไม่มีข้อได้เปรียบที่มีนัยสำคัญเหนือพหุนาม ผู้วิจัยอาจใช้ตัวหลังได้ดีเมื่อมีตัวแปรขึ้นกับค่าลำดับและค่าเล็กน้อย ในขณะเดียวกัน กระบวนการจัดหมวดหมู่เองก็แทบไม่ต่างกันเลย ซึ่งหมายความว่าการวิเคราะห์ลำดับจะไม่ทำให้เกิดปัญหาใดๆ

ตัวเลือกการวิเคราะห์

ลองพิจารณากรณีง่าย ๆ - การถดถอยแบบไบนารี สมมติว่าในกระบวนการวิจัยการตลาด ความต้องการผู้สำเร็จการศึกษาจากมหาวิทยาลัยในเขตปริมณฑลบางแห่งได้รับการประเมิน ในแบบสอบถาม ผู้ตอบถูกถามคำถาม ได้แก่

  1. คุณทำงานอยู่หรือเปล่า? (ql).
  2. เข้าสู่ปีที่สำเร็จการศึกษา (q 21).
  3. ค่าเฉลี่ยคืออะไรคะแนนจบการศึกษา (aver).
  4. เพศ (q22).

การถดถอยโลจิสติกจะประเมินผลกระทบของปัจจัยอิสระ aver, q 21 และ q 22 บนตัวแปร ql พูดง่ายๆ ก็คือ การวิเคราะห์มีวัตถุประสงค์เพื่อกำหนดแนวโน้มการจ้างงานของผู้สำเร็จการศึกษาโดยพิจารณาจากข้อมูลเกี่ยวกับสาขาวิชา ปีที่สำเร็จการศึกษา และเกรดเฉลี่ย

ตัวบ่งชี้การถดถอยโลจิสติก sigmoid
ตัวบ่งชี้การถดถอยโลจิสติก sigmoid

การถดถอยโลจิสติก

ในการตั้งค่าพารามิเตอร์โดยใช้การถดถอยแบบไบนารี ให้ใช้เมนู Analyze►Regression►Binary Logistic ในหน้าต่าง Logistic Regression เลือกปัจจัยที่ขึ้นต่อกันจากรายการตัวแปรที่มีอยู่ทางด้านซ้าย มันคือ ql ตัวแปรนี้ต้องอยู่ในฟิลด์ Dependent หลังจากนั้น มีความจำเป็นต้องแนะนำปัจจัยอิสระในพล็อต Covariates - q 21, q 22, aver จากนั้น คุณต้องเลือกวิธีรวมไว้ในการวิเคราะห์ของคุณ หากจำนวนปัจจัยอิสระมากกว่า 2 จะใช้วิธีการแนะนำตัวแปรทั้งหมดพร้อมกันซึ่งกำหนดโดยค่าเริ่มต้น แต่จะทีละขั้นตอน วิธีที่นิยมที่สุดคือ Backward:LR เมื่อใช้ปุ่มเลือก คุณสามารถรวมผู้ตอบแบบสอบถามทั้งหมดไว้ในการศึกษาได้ ไม่ใช่เฉพาะกลุ่มเป้าหมายเท่านั้น

กำหนดตัวแปรตามหมวดหมู่

ปุ่มหมวดหมู่ควรใช้เมื่อตัวแปรอิสระตัวใดตัวหนึ่งเป็นค่าเล็กน้อยที่มีมากกว่า 2 หมวดหมู่ ในสถานการณ์นี้ ในหน้าต่าง Define Categorical Variables พารามิเตอร์ดังกล่าวจะวางอยู่ในส่วน Categorical Covariates ในตัวอย่างนี้ ไม่มีตัวแปรดังกล่าว หลังจากนั้นในรายการแบบหล่นลง ความคมชัดดังต่อไปนี้เลือกรายการเบี่ยงเบนแล้วกดปุ่มเปลี่ยน เป็นผลให้ตัวแปรตามหลายตัวจะถูกสร้างขึ้นจากปัจจัยที่ระบุแต่ละตัว จำนวนของพวกเขาสอดคล้องกับจำนวนหมวดหมู่ของเงื่อนไขเริ่มต้น

บันทึกตัวแปรใหม่

โดยใช้ปุ่มบันทึกในกล่องโต้ตอบหลักของการศึกษา การสร้างพารามิเตอร์ใหม่จะถูกตั้งค่า พวกเขาจะประกอบด้วยตัวบ่งชี้ที่คำนวณในกระบวนการถดถอย โดยเฉพาะอย่างยิ่ง คุณสามารถสร้างตัวแปรที่กำหนด:

  1. อยู่ในหมวดหมู่เฉพาะ (สมาชิกกลุ่ม)
  2. ความน่าจะเป็นของการมอบหมายผู้ตอบแบบสอบถามให้กับแต่ละกลุ่มการศึกษา (ความน่าจะเป็น)

เมื่อใช้ปุ่มตัวเลือก ผู้วิจัยจะไม่เห็นตัวเลือกที่สำคัญใดๆ จึงสามารถละเลยได้ หลังจากคลิกปุ่ม "ตกลง" ผลการวิเคราะห์จะแสดงในหน้าต่างหลัก

สัมประสิทธิ์การถดถอยโลจิสติก
สัมประสิทธิ์การถดถอยโลจิสติก

ตรวจสอบคุณภาพความเพียงพอและการถดถอยโลจิสติก

พิจารณาตารางสัมประสิทธิ์แบบจำลอง Omnibus Testsof แสดงผลการวิเคราะห์คุณภาพของการประมาณของแบบจำลอง เนื่องจากการตั้งค่าตัวเลือกทีละขั้นตอน คุณต้องดูผลลัพธ์ของขั้นตอนสุดท้าย (ขั้นตอนที่ 2) ผลลัพธ์ที่เป็นบวกจะได้รับการพิจารณาหากพบการเพิ่มขึ้นของตัวบ่งชี้ Chi-square เมื่อย้ายไปยังขั้นถัดไปที่มีนัยสำคัญในระดับสูง (Sig. < 0.05) คุณภาพของแบบจำลองจะได้รับการประเมินในบรรทัดแบบจำลอง หากได้ค่าติดลบแต่ไม่ถือว่ามีนัยสำคัญกับความมีนัยสำคัญโดยรวมสูงของแบบจำลอง ค่าสุดท้ายถือว่าเหมาะสมในทางปฏิบัติ

โต๊ะ

สรุปแบบจำลองทำให้สามารถประมาณดัชนีความแปรปรวนรวม ซึ่งอธิบายโดยแบบจำลองที่สร้างขึ้น (ดัชนี R Square) ขอแนะนำให้ใช้ค่า Nagelker พารามิเตอร์ Nagelkerke R Square ถือได้ว่าเป็นตัวบ่งชี้เชิงบวก หากอยู่เหนือ 0.50 หลังจากนั้น ผลลัพธ์ของการจำแนกประเภทจะได้รับการประเมิน ซึ่งตัวชี้วัดที่แท้จริงของการเป็นของประเภทใดประเภทหนึ่งภายใต้การศึกษาจะถูกเปรียบเทียบกับตัวชี้วัดที่คาดการณ์ตามแบบจำลองการถดถอย สำหรับสิ่งนี้จะใช้ตารางการจำแนกประเภท นอกจากนี้ยังช่วยให้เราสามารถสรุปเกี่ยวกับความถูกต้องของความแตกต่างสำหรับแต่ละกลุ่มที่อยู่ระหว่างการพิจารณา

แบบจำลองการถดถอยโลจิสติก
แบบจำลองการถดถอยโลจิสติก

ตารางต่อไปนี้ให้โอกาสในการค้นหาความสำคัญทางสถิติของปัจจัยอิสระที่เข้าสู่การวิเคราะห์ ตลอดจนค่าสัมประสิทธิ์การถดถอยโลจิสติกที่ไม่ได้มาตรฐานแต่ละรายการ จากตัวชี้วัดเหล่านี้ เป็นไปได้ที่จะทำนายความเป็นเจ้าของของผู้ตอบแบบสอบถามแต่ละคนในกลุ่มตัวอย่าง คุณสามารถใช้ปุ่มบันทึกเพื่อป้อนตัวแปรใหม่ พวกเขาจะมีข้อมูลเกี่ยวกับการเป็นของหมวดหมู่เฉพาะ (Predictedcategory) และความน่าจะเป็นที่จะรวมอยู่ในกลุ่มเหล่านี้ (การเป็นสมาชิกความน่าจะเป็นที่คาดการณ์ไว้) หลังจากคลิก "ตกลง" ผลการคำนวณจะปรากฏในหน้าต่างหลักของ Multinomial Logistic Regression

ตารางแรกซึ่งมีตัวบ่งชี้ที่สำคัญสำหรับผู้วิจัยคือข้อมูลการติดตั้งแบบจำลอง ระดับนัยสำคัญทางสถิติระดับสูงจะบ่งบอกถึงคุณภาพสูงและความเหมาะสมของการใช้แบบจำลองในการแก้ปัญหาในทางปฏิบัติ ตารางสำคัญอีกตารางหนึ่งคือ Pseudo R-Square ช่วยให้คุณสามารถประมาณสัดส่วนของความแปรปรวนทั้งหมดในปัจจัยตาม ซึ่งกำหนดโดยตัวแปรอิสระที่เลือกสำหรับการวิเคราะห์ ตามตารางการทดสอบอัตราส่วนความน่าจะเป็น เราสามารถสรุปเกี่ยวกับนัยสำคัญทางสถิติของส่วนหลังได้ ค่าประมาณของพารามิเตอร์สะท้อนถึงค่าสัมประสิทธิ์ที่ไม่ได้มาตรฐาน ใช้ในการสร้างสมการ นอกจากนี้ สำหรับตัวแปรแต่ละชุด จะมีการกำหนดนัยสำคัญทางสถิติของผลกระทบต่อปัจจัยพึ่งพา ในขณะเดียวกัน ในการวิจัยการตลาด มักจะจำเป็นต้องแยกความแตกต่างของผู้ตอบตามหมวดหมู่ ไม่ใช่เป็นรายบุคคล แต่เป็นส่วนหนึ่งของกลุ่มเป้าหมาย สำหรับสิ่งนี้ จะใช้ตารางความถี่ที่สังเกตและคาดการณ์

การใช้งานจริง

วิธีการวิเคราะห์ที่พิจารณาแล้วใช้กันอย่างแพร่หลายในงานของเทรดเดอร์ ในปี 1991 ตัวบ่งชี้การถดถอยโลจิสติก sigmoid ได้รับการพัฒนา เป็นเครื่องมือที่ใช้งานง่ายและมีประสิทธิภาพในการคาดการณ์ราคาที่น่าจะเป็นไปได้ก่อนที่จะ "ร้อนเกินไป" ตัวบ่งชี้จะแสดงบนแผนภูมิเป็นช่องทางที่เกิดจากเส้นคู่ขนานสองเส้น พวกมันอยู่ห่างจากแนวโน้มเท่ากัน ความกว้างของทางเดินจะขึ้นอยู่กับกรอบเวลาเท่านั้น ตัวบ่งชี้นี้ใช้เมื่อทำงานกับสินทรัพย์เกือบทั้งหมด ตั้งแต่คู่สกุลเงินไปจนถึงโลหะมีค่า

การถดถอยโลจิสติกใน spss
การถดถอยโลจิสติกใน spss

ในทางปฏิบัติ มีการพัฒนากลยุทธ์หลัก 2 ประการสำหรับการใช้เครื่องมือ: สำหรับการฝ่าวงล้อมและเลี้ยว ในกรณีหลัง ผู้ค้าจะเน้นที่การเปลี่ยนแปลงของราคาภายในช่องทาง เมื่อค่าเข้าใกล้แนวรับหรือแนวต้าน การเดิมพันจะอยู่ที่แนวโน้มที่การเคลื่อนไหวจะเริ่มในทิศทางตรงกันข้าม หากราคาเข้าใกล้ขอบบน คุณสามารถกำจัดสินทรัพย์ได้ หากอยู่ที่ขีด จำกัด ล่างคุณควรคิดที่จะซื้อ กลยุทธ์การฝ่าวงล้อมเกี่ยวข้องกับการใช้คำสั่ง มีการติดตั้งนอกขอบเขตในระยะทางที่ค่อนข้างเล็ก โดยพิจารณาว่าราคาในบางกรณีละเมิดพวกเขาในช่วงเวลาสั้น ๆ คุณควรเล่นอย่างปลอดภัยและตั้งค่าการหยุดการขาดทุน ในเวลาเดียวกัน ไม่ว่ากลยุทธ์ที่เลือกไว้จะเป็นอย่างไร เทรดเดอร์จำเป็นต้องรับรู้และประเมินสถานการณ์ที่เกิดขึ้นในตลาดอย่างใจเย็นที่สุด

สรุป

ดังนั้น การใช้การถดถอยโลจิสติกทำให้คุณสามารถจำแนกผู้ตอบเป็นหมวดหมู่ได้อย่างรวดเร็วและง่ายดายตามพารามิเตอร์ที่กำหนด เมื่อวิเคราะห์ คุณสามารถใช้วิธีการใดก็ได้ โดยเฉพาะอย่างยิ่ง การถดถอยพหุนามนั้นเป็นสากล อย่างไรก็ตาม ผู้เชี่ยวชาญแนะนำให้ใช้วิธีการทั้งหมดที่อธิบายไว้ข้างต้นร่วมกัน เนื่องจากในกรณีนี้คุณภาพของโมเดลจะสูงขึ้นอย่างมาก ในทางกลับกัน จะเป็นการขยายขอบเขตการใช้งาน