การปรับขนาดหลายมิติ: คำจำกัดความ เป้าหมาย วัตถุประสงค์ และตัวอย่าง

2025 ผู้เขียน: Angel Austin | [email protected]. แก้ไขล่าสุด: 2025-01-23 12:35

การปรับขนาดหลายตัวแปร (MDS) เป็นเครื่องมือสำหรับแสดงระดับความคล้ายคลึงกันของแต่ละกรณีในชุดข้อมูล หมายถึงชุดของวิธีการอุปสมบทที่เกี่ยวข้องกันซึ่งใช้ในการแสดงข้อมูลโดยเฉพาะอย่างยิ่งเพื่อแสดงข้อมูลที่อยู่ในเมทริกซ์ระยะทาง นี่คือรูปแบบหนึ่งของการลดขนาดแบบไม่เชิงเส้น อัลกอริธึม MDS มุ่งหวังที่จะวางแต่ละอ็อบเจ็กต์ไว้ในพื้นที่ N-dimensional เพื่อให้ระยะห่างระหว่างวัตถุถูกรักษาไว้อย่างดีที่สุด จากนั้นแต่ละวัตถุจะได้รับพิกัดในแต่ละมิติ N

จำนวนมิติข้อมูลของกราฟ MDS สามารถเกิน 2 และระบุลำดับความสำคัญ การเลือก N=2 จะเพิ่มประสิทธิภาพการจัดวางวัตถุสำหรับ 2D scatterplot คุณสามารถดูตัวอย่างการปรับขนาดหลายมิติได้ในรูปภาพในบทความ ตัวอย่างที่มีสัญลักษณ์เป็นภาษารัสเซียเป็นตัวอย่างที่ดี

เอสเซนส์

วิธีการปรับขนาดหลายมิติ (MMS,MDS) คือชุดเครื่องมือแบบคลาสสิกเพิ่มเติมที่สรุปขั้นตอนการเพิ่มประสิทธิภาพสำหรับชุดฟังก์ชันการสูญเสียและเมทริกซ์อินพุตของระยะทางที่ทราบด้วยน้ำหนัก และอื่นๆ ในบริบทนี้ ฟังก์ชันการสูญเสียที่มีประโยชน์เรียกว่า stress ซึ่งมักจะถูกย่อให้เล็กสุดโดยขั้นตอนที่เรียกว่า stress majorization

คู่มือ

มีหลายตัวเลือกสำหรับการปรับขนาดหลายมิติ โปรแกรม MDS จะลดภาระงานโดยอัตโนมัติเพื่อรับโซลูชัน แกนหลักของอัลกอริธึม MDS ที่ไม่ใช่เมตริกคือกระบวนการเพิ่มประสิทธิภาพสองเท่า อันดับแรก ต้องหาการแปลงความใกล้เคียงแบบโมโนโทนิกที่เหมาะสมที่สุด ประการที่สอง จุดการกำหนดค่าต้องอยู่ในตำแหน่งที่เหมาะสมที่สุดเพื่อให้ระยะทางตรงกับค่าความใกล้ชิดที่ปรับขนาดให้ใกล้เคียงที่สุด

ขยาย

การขยายมาตราส่วนเมตริกหลายมิติในสถิติโดยที่พื้นที่เป้าหมายเป็นพื้นที่ที่ไม่ใช่แบบยุคลิดที่ราบรื่นตามอำเภอใจ โดยที่ความแตกต่างคือระยะทางบนพื้นผิวและพื้นที่เป้าหมายเป็นพื้นผิวที่แตกต่างกัน โปรแกรมเฉพาะเรื่องช่วยให้คุณค้นหาสิ่งที่แนบมาด้วยการบิดเบือนน้อยที่สุดของพื้นผิวหนึ่งไปยังอีกที่หนึ่ง

ขั้นตอน

การศึกษาโดยใช้มาตราส่วนหลายตัวแปรมีหลายขั้นตอน:

สูตรโจทย์. คุณต้องการเปรียบเทียบตัวแปรอะไร คุณต้องการเปรียบเทียบตัวแปรจำนวนเท่าใด จะใช้การศึกษาไปเพื่อวัตถุประสงค์ใด
กำลังรับข้อมูลเข้าผู้ตอบถูกถามคำถามหลายชุด สำหรับผลิตภัณฑ์แต่ละคู่ พวกเขาจะถูกขอให้ให้คะแนนความเหมือน คำถามแรกอาจเป็นคำถามสำหรับ Coca-Cola/Pepsi เช่น คำถามถัดไปสำหรับเบียร์ คำถามถัดไปสำหรับ Dr. Pepper เป็นต้น จำนวนคำถามขึ้นอยู่กับจำนวนแบรนด์

แนวทางอื่น

ยังมีอีกสองวิธี มีเทคนิคที่เรียกว่า "ข้อมูลการรับรู้: วิธีการที่ได้รับ" ซึ่งผลิตภัณฑ์ถูกแยกออกเป็นคุณลักษณะและการประเมินจะทำในระดับความแตกต่างของความหมาย อีกวิธีหนึ่งคือ “แนวทางข้อมูลการกำหนดลักษณะ” ซึ่งผู้ตอบจะถูกถามเกี่ยวกับความชอบมากกว่าความคล้ายคลึงกัน

ประกอบด้วยขั้นตอนต่อไปนี้:

เปิดตัวโปรแกรมสถิติ MDS ซอฟต์แวร์สำหรับดำเนินการตามขั้นตอนมีอยู่ในชุดซอฟต์แวร์ทางสถิติจำนวนมาก มักมีตัวเลือกระหว่าง MDS เมตริก (ซึ่งเกี่ยวข้องกับข้อมูลระดับช่วงหรืออัตราส่วน) และ MDS ที่ไม่ใช่เมตริก (ซึ่งเกี่ยวข้องกับข้อมูลลำดับ)
การกำหนดจำนวนการวัด. ผู้วิจัยต้องกำหนดจำนวนการวัดที่เขาต้องการสร้างบนคอมพิวเตอร์ ยิ่งมีการวัดมากเท่าไร ก็ยิ่งมีความเหมาะสมทางสถิติมากขึ้นเท่านั้น แต่ยิ่งยากต่อการตีความผลลัพธ์
แสดงผลและกำหนดการวัด - โปรแกรมสถิติ (หรือโมดูลที่เกี่ยวข้อง) จะแสดงผลลัพธ์ แผนที่จะแสดงแต่ละผลิตภัณฑ์ (โดยปกติเป็นแบบ 2 มิติ)ช่องว่าง). ความใกล้เคียงของผลิตภัณฑ์ซึ่งกันและกันบ่งบอกถึงความคล้ายคลึงหรือความชอบขึ้นอยู่กับวิธีการที่ใช้ อย่างไรก็ตาม การวัดจริง ๆ แล้วสอดคล้องกับการวัดพฤติกรรมของระบบนั้นไม่ชัดเจนเสมอไป สามารถตัดสินความสอดคล้องตามอัตนัยได้ที่นี่
ตรวจสอบผลลัพธ์สำหรับความน่าเชื่อถือและความถูกต้อง - คำนวณ R-squared เพื่อกำหนดสัดส่วนของความแปรปรวนของข้อมูลที่ปรับขนาดซึ่งสามารถพิจารณาได้ด้วยขั้นตอน MDS Square R 0.6 ถือเป็นระดับต่ำสุดที่ยอมรับได้ R กำลังสอง 0.8 ถือว่าดีสำหรับการปรับขนาดแบบเมตริก ในขณะที่ 0.9 ถือว่าดีสำหรับการปรับขนาดแบบไม่มีเมตริก

การทดสอบต่างๆ

การทดสอบอื่นๆ ที่เป็นไปได้ ได้แก่ การทดสอบความเครียดประเภท Kruskal การทดสอบข้อมูลแบบแยกส่วน การทดสอบความเสถียรของข้อมูล และการทดสอบความน่าเชื่อถือของการทดสอบซ้ำ เขียนรายละเอียดเกี่ยวกับผลการทดสอบ ควรมีการระบุระยะทางอย่างน้อย (เช่น ดัชนี Sorenson ดัชนี Jaccard) และความน่าเชื่อถือ (เช่น ค่าความเครียด) ควบคู่ไปกับการทำแผนที่

นอกจากนี้ ขอแนะนำให้ใช้อัลกอริทึม (เช่น Kruskal, Mather) ซึ่งมักกำหนดโดยโปรแกรมที่ใช้ (บางครั้งแทนที่รายงานอัลกอริทึม) หากคุณกำหนดการกำหนดค่าเริ่มต้นหรือมีตัวเลือกสุ่ม หมายเลข ของมิติรัน ผลลัพธ์มอนติคาร์โล จำนวนการวนซ้ำ คะแนนความเสถียร และความแปรปรวนตามสัดส่วนของแต่ละแกน (r-square)

ข้อมูลภาพและวิธีการวิเคราะห์ข้อมูลสเกลหลายมิติ

การสร้างภาพข้อมูลเป็นการศึกษาการแสดงข้อมูลนามธรรมเชิงโต้ตอบ (ภาพ) เพื่อเพิ่มพูนความรู้ความเข้าใจของมนุษย์ ข้อมูลนามธรรมมีทั้งข้อมูลที่เป็นตัวเลขและไม่ใช่ตัวเลข เช่น ข้อมูลที่เป็นข้อความและข้อมูลทางภูมิศาสตร์ อย่างไรก็ตาม การสร้างภาพข้อมูลแตกต่างจากการสร้างภาพทางวิทยาศาสตร์: “มันเป็นการแสดงข้อมูล (การสร้างภาพข้อมูล) เมื่อเลือกการแสดงเชิงพื้นที่ และ scivis (การสร้างภาพทางวิทยาศาสตร์) เมื่อให้การแทนเชิงพื้นที่”

สาขาการสร้างภาพข้อมูลเกิดจากการวิจัยปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ แอปพลิเคชันวิทยาการคอมพิวเตอร์ กราฟิก การออกแบบภาพ จิตวิทยา และวิธีการทางธุรกิจ มีการใช้มากขึ้นเป็นองค์ประกอบสำคัญในการวิจัยทางวิทยาศาสตร์ ห้องสมุดดิจิทัล การทำเหมืองข้อมูล ข้อมูลทางการเงิน การวิจัยตลาด การควบคุมการผลิต และอื่นๆ

วิธีการและหลักการ

การแสดงข้อมูลเป็นภาพแสดงให้เห็นว่าวิธีการสร้างภาพและการโต้ตอบใช้ประโยชน์จากการรับรู้ของมนุษย์อย่างมากมาย ทำให้ผู้ใช้สามารถดู สำรวจ และทำความเข้าใจข้อมูลจำนวนมากได้พร้อมๆ กัน การสร้างภาพข้อมูลมีจุดมุ่งหมายเพื่อสร้างแนวทางในการสื่อสารข้อมูลที่เป็นนามธรรม ข้อมูลในรูปแบบที่เข้าใจง่าย

การวิเคราะห์ข้อมูลเป็นส่วนสำคัญของการวิจัยประยุกต์และการแก้ปัญหาในอุตสาหกรรม ที่สุดแนวทางพื้นฐานในการวิเคราะห์ข้อมูลได้แก่ การสร้างภาพข้อมูล (ฮิสโตแกรม แผนภาพกระจาย แผนผังพื้นผิว แผนที่ต้นไม้ แผนภาพพิกัดคู่ขนาน ฯลฯ) สถิติ (การทดสอบสมมติฐาน การถดถอย PCA ฯลฯ) การวิเคราะห์ข้อมูล (การจับคู่ ฯลฯ).d.) และวิธีการเรียนรู้ของเครื่อง (การจัดกลุ่ม การจำแนก ต้นไม้การตัดสินใจ ฯลฯ)

ในแนวทางเหล่านี้ การสร้างภาพข้อมูลหรือการวิเคราะห์ข้อมูลด้วยภาพขึ้นอยู่กับทักษะการคิดของเจ้าหน้าที่ฝ่ายวิเคราะห์มากที่สุด และช่วยให้ค้นพบข้อมูลเชิงลึกที่นำไปใช้ได้จริงแบบไม่มีโครงสร้าง ซึ่งถูกจำกัดด้วยจินตนาการและความคิดสร้างสรรค์ของมนุษย์เท่านั้น นักวิเคราะห์ไม่จำเป็นต้องเรียนรู้เทคนิคที่ซับซ้อนใดๆ เพื่อให้สามารถตีความการสร้างภาพข้อมูลได้ การสร้างภาพข้อมูลยังเป็นรูปแบบการสร้างสมมติฐานที่สามารถและมักจะมาพร้อมกับการวิเคราะห์เชิงวิเคราะห์หรือเป็นทางการมากขึ้น เช่น การทดสอบสมมติฐานทางสถิติ

การศึกษา

การศึกษาสมัยใหม่เกี่ยวกับการสร้างภาพข้อมูลเริ่มต้นด้วยคอมพิวเตอร์กราฟิกซึ่ง "ใช้ในการศึกษาปัญหาทางวิทยาศาสตร์ตั้งแต่แรกเริ่ม อย่างไรก็ตาม ในช่วงปีแรกๆ การขาดพลังด้านกราฟิกมักจะจำกัดความสามารถในการใช้ประโยชน์ได้ เริ่มให้ความสำคัญกับการสร้างภาพข้อมูลขึ้นเป็นลำดับแรก เพื่อพัฒนาในปี พ.ศ. 2530 ด้วยการเปิดตัวซอฟต์แวร์พิเศษสำหรับคอมพิวเตอร์กราฟิกและการแสดงภาพในคอมพิวเตอร์วิทยาศาสตร์ นับแต่นั้นเป็นต้นมา มีการประชุมและการประชุมเชิงปฏิบัติการหลายครั้งซึ่งจัดโดย IEEE Computer Society และ ACM SIGGRAPH"

ครอบคลุมหัวข้อทั่วไปของการสร้างภาพข้อมูล การสร้างภาพข้อมูล และการสร้างภาพข้อมูลทางวิทยาศาสตร์รวมถึงพื้นที่ที่เฉพาะเจาะจงมากขึ้น เช่น การแสดงปริมาณ

สรุป

การปรับขนาดหลายมิติทั่วไป (GMDS) เป็นส่วนขยายของการปรับขนาดหลายมิติแบบเมตริกซึ่งพื้นที่เป้าหมายไม่ใช่แบบยุคลิด เมื่อความแตกต่างคือระยะทางบนพื้นผิว และพื้นที่เป้าหมายคืออีกพื้นผิวหนึ่ง GMDS ช่วยให้คุณค้นหาการซ้อนของพื้นผิวหนึ่งไปยังอีกพื้นผิวหนึ่งได้โดยมีความผิดเพี้ยนน้อยที่สุด

GMDS เป็นงานวิจัยแนวใหม่ ในปัจจุบัน แอปพลิเคชั่นหลักคือการจดจำวัตถุที่เปลี่ยนรูปแบบได้ (เช่น สำหรับการจดจำใบหน้า 3 มิติ) และการทำแผนที่พื้นผิว

วัตถุประสงค์ของการปรับขนาดหลายมิติคือการแสดงข้อมูลหลายมิติ ข้อมูลหลายมิติ กล่าวคือ ข้อมูลที่ต้องใช้มากกว่าสองหรือสามมิติในการแสดง อาจตีความได้ยาก วิธีหนึ่งในการทำให้เข้าใจง่ายคือสมมติว่าข้อมูลที่น่าสนใจอยู่บนท่อร่วมที่ไม่ใช่เชิงเส้นที่ฝังอยู่ในพื้นที่มิติสูง หากตัวรวบรวมมีขนาดต่ำเพียงพอ ข้อมูลสามารถแสดงเป็นภาพในพื้นที่มิติต่ำได้

วิธีการลดขนาดแบบไม่เชิงเส้นหลายวิธีเกี่ยวข้องกับวิธีการเชิงเส้น เมธอดที่ไม่เป็นเชิงเส้นสามารถจำแนกอย่างกว้างๆ ได้เป็นสองกลุ่ม: เมธอดที่ให้การทำแผนที่ (ตั้งแต่พื้นที่มิติสูงไปจนถึงการฝังในมิติต่ำ หรือในทางกลับกัน) และวิธีที่ให้การแสดงข้อมูลเป็นภาพ ในบริบทของการเรียนรู้ของเครื่อง วิธีการทำแผนที่สามารถดูได้ดังนี้ขั้นตอนเบื้องต้นของการแยกคุณลักษณะ หลังจากที่ใช้อัลกอริธึมการรู้จำรูปแบบ โดยปกติสิ่งที่ให้การแสดงภาพข้อมูลจะขึ้นอยู่กับข้อมูลระยะใกล้ เช่น การวัดระยะทาง การปรับขนาดแบบหลายมิติยังเป็นเรื่องธรรมดาในด้านจิตวิทยาและมนุษยศาสตร์อื่นๆ

หากจำนวนแอตทริบิวต์มีขนาดใหญ่ พื้นที่ของสตริงที่เป็นไปได้เฉพาะก็จะมีขนาดใหญ่แบบเอ็กซ์โปเนนเชียลเช่นกัน ดังนั้น ยิ่งมิติใหญ่ขึ้นเท่าใด การพรรณนาพื้นที่ก็จะยิ่งยากขึ้นเท่านั้น สิ่งนี้ทำให้เกิดปัญหามากมาย อัลกอริธึมที่ทำงานบนข้อมูลที่มีมิติสูงมักจะมีความซับซ้อนของเวลาสูงมาก การลดข้อมูลให้เหลือมิติน้อยลงมักจะทำให้อัลกอริธึมการวิเคราะห์มีประสิทธิภาพมากขึ้น และสามารถช่วยให้อัลกอริธึมแมชชีนเลิร์นนิงคาดการณ์ได้แม่นยำยิ่งขึ้น นี่คือเหตุผลที่การปรับขนาดข้อมูลหลายมิติจึงเป็นที่นิยม