วิธีการจัดกลุ่มเป็นงานในการจัดกลุ่มชุดของวัตถุเพื่อให้อยู่ในกลุ่มเดียวกันมีความคล้ายคลึงกันมากกว่าวัตถุในอุตสาหกรรมอื่น เป็นงานหลักของการทำเหมืองข้อมูลและเทคนิคการวิเคราะห์ทางสถิติทั่วไปที่ใช้ในหลายสาขา รวมถึงการเรียนรู้ของเครื่อง การรู้จำรูปแบบ การจดจำภาพ การดึงข้อมูล การบีบอัดข้อมูล และคอมพิวเตอร์กราฟิก
ปัญหาการเพิ่มประสิทธิภาพ
วิธีการจัดกลุ่มเองไม่ใช่อัลกอริทึมเฉพาะ แต่เป็นงานทั่วไปที่ต้องแก้ไข สิ่งนี้สามารถทำได้ด้วยอัลกอริธึมต่างๆ ที่แตกต่างกันอย่างมากในการทำความเข้าใจว่าอะไรคือกลุ่มและวิธีค้นหาอย่างมีประสิทธิภาพ การใช้วิธีการจัดกลุ่มสำหรับการก่อตัวของ meta subjects รวมถึงการใช้กลุ่ม withระยะห่างเล็กน้อยระหว่างสมาชิก พื้นที่หนาแน่นของช่องว่าง ช่วงเวลา หรือการแจกแจงทางสถิติบางอย่าง ดังนั้น การจัดกลุ่มสามารถกำหนดเป็นปัญหาการปรับให้เหมาะสมแบบหลายวัตถุประสงค์ได้
วิธีการที่เหมาะสมและการตั้งค่าพารามิเตอร์ (รวมถึงรายการต่างๆ เช่น ฟังก์ชันระยะทางที่จะใช้ เกณฑ์ความหนาแน่น หรือจำนวนคลัสเตอร์ที่คาดไว้) ขึ้นอยู่กับชุดข้อมูลแต่ละชุดและจุดประสงค์ในการใช้ผลลัพธ์ การวิเคราะห์เช่นนี้ไม่ใช่งานอัตโนมัติ แต่เป็นกระบวนการวนซ้ำของการค้นพบความรู้หรือการเพิ่มประสิทธิภาพแบบหลายวัตถุประสงค์เชิงโต้ตอบ วิธีการจัดกลุ่มนี้รวมถึงการลองผิดลองถูกและลองผิดลองถูก บ่อยครั้งจำเป็นต้องแก้ไขการประมวลผลข้อมูลล่วงหน้าและพารามิเตอร์โมเดลจนกว่าผลลัพธ์จะบรรลุคุณสมบัติที่ต้องการ
นอกจากคำว่า "การจัดกลุ่ม" แล้ว ยังมีคำอีกหลายคำที่มีความหมายคล้ายกัน รวมถึงการจำแนกประเภทอัตโนมัติ อนุกรมวิธานเชิงตัวเลข การวิเคราะห์ทั้งด้านวิทยาและการแบ่งประเภท ความแตกต่างเล็กๆ น้อยๆ มักอยู่ที่การใช้วิธีการจัดกลุ่มเพื่อสร้างความสัมพันธ์แบบ meta subject ในขณะที่ดึงข้อมูล กลุ่มผลลัพธ์เป็นที่สนใจ ในการจำแนกประเภทอัตโนมัติ กลุ่มนั้นมีอำนาจในการเลือกปฏิบัติที่ทำหน้าที่เหล่านี้อยู่แล้ว
การวิเคราะห์คลัสเตอร์มาจากผลงานมากมายของ Kroeber ในปี 1932 มันถูกนำเข้าสู่จิตวิทยาโดย Zubin ในปี 1938 และโดย Robert Tryon ในปี 1939 และงานเหล่านี้ถูกใช้โดย Cattell ตั้งแต่ปี 1943 เพื่อระบุการจำแนกประเภทของวิธีการจัดกลุ่มในทางทฤษฎี
เงื่อนไข
แนวคิดของ "คลัสเตอร์" ไม่สามารถกำหนดได้อย่างแม่นยำ นี่เป็นหนึ่งในสาเหตุที่ทำให้คลัสเตอร์มีวิธีการมากมาย มีตัวส่วนร่วมคือกลุ่มของวัตถุข้อมูล อย่างไรก็ตาม นักวิจัยต่างใช้แบบจำลองที่แตกต่างกัน และการใช้วิธีการจัดกลุ่มเหล่านี้แต่ละครั้งเกี่ยวข้องกับข้อมูลที่แตกต่างกัน แนวคิดที่พบโดยอัลกอริธึมต่างๆ แตกต่างกันอย่างมากในคุณสมบัติของมัน
การใช้วิธีการจัดกลุ่มเป็นกุญแจสำคัญในการทำความเข้าใจความแตกต่างระหว่างคำแนะนำ รูปแบบคลัสเตอร์ทั่วไป ได้แก่
- เซนทรอยด์ ส. ตัวอย่างเช่น เมื่อการจัดกลุ่ม k-mean แทนแต่ละคลัสเตอร์ด้วยเวกเตอร์เฉลี่ยหนึ่งตัว
- รูปแบบการเชื่อมต่อ s. ตัวอย่างเช่น การจัดกลุ่มตามลำดับชั้น ซึ่งสร้างแบบจำลองตามการเชื่อมต่อระยะทาง
- รูปแบบการจัดจำหน่าย s. ในกรณีนี้ คลัสเตอร์จะสร้างโมเดลโดยใช้วิธีการจัดกลุ่มเพื่อสร้างการแจกแจงทางสถิติ meta subject เช่นการแยกปกติหลายตัวแปรซึ่งใช้ได้กับอัลกอริธึมการขยายใหญ่สุดที่คาดหวัง
- แบบจำลองความหนาแน่น s. ตัวอย่างเช่น DBSCAN (Spatial Clustering Algorithm with Noise) และ OPTICS (Order Points for Structure Detection) ซึ่งกำหนดคลัสเตอร์เป็นพื้นที่หนาแน่นที่เชื่อมต่อในพื้นที่ข้อมูล
- ซับสเปซรุ่นค. ใน biclustering (หรือที่เรียกว่า co-clustering หรือสองโหมด) กลุ่มต่างๆ จะถูกจำลองด้วยองค์ประกอบทั้งสองและมีแอตทริบิวต์ที่เหมาะสม
- รุ่น s. อัลกอริทึมบางตัวไม่ปรับปรุงความสัมพันธ์สำหรับวิธีการจัดกลุ่มเพื่อสร้างผลลัพธ์ของหัวข้อเมตาและเพียงแค่จัดกลุ่มข้อมูล
- รุ่นตามกราฟ กลุ่ม นั่นคือ ชุดย่อยของโหนด ซึ่งทุก ๆ การเชื่อมต่อสองส่วนในส่วนขอบถือได้ว่าเป็นต้นแบบของรูปร่างคลัสเตอร์ การลดลงของอุปสงค์ทั้งหมดเรียกว่า quasi-cliques มีการนำเสนอชื่อเดียวกันในอัลกอริธึมการทำคลัสเตอร์ HCS
- ประสาทรุ่น s. เครือข่ายที่ไม่มีผู้ดูแลซึ่งเป็นที่รู้จักดีที่สุดคือแผนที่ที่จัดระเบียบตนเอง และเป็นแบบจำลองเหล่านี้ที่โดยปกติสามารถกำหนดลักษณะได้เหมือนกับวิธีการจัดกลุ่มข้างต้นอย่างน้อยหนึ่งวิธีสำหรับการก่อตัวของผลลัพธ์เกี่ยวกับเมตาดาต้า ประกอบด้วยระบบซับสเปซเมื่อโครงข่ายประสาทเทียมใช้รูปแบบที่จำเป็นของการวิเคราะห์องค์ประกอบหลักหรือส่วนประกอบอิสระ
อันที่จริงคำนี้คือชุดของกลุ่มดังกล่าว ซึ่งมักจะมีอ็อบเจ็กต์ทั้งหมดในชุดวิธีการจัดกลุ่มข้อมูล นอกจากนี้ยังสามารถระบุความสัมพันธ์ของคลัสเตอร์กับแต่ละอื่น ๆ เช่น ลำดับชั้นของระบบที่สร้างขึ้นภายในกันและกัน การจัดกลุ่มสามารถแบ่งออกเป็นด้านต่อไปนี้:
- วิธีการจัดกลุ่มฮาร์ดเซนทรอยด์ ที่นี่ แต่ละอ็อบเจ็กต์เป็นของกลุ่มหรืออยู่นอกกลุ่ม
- ระบบนิ่มหรือคลุมเครือ. ณ จุดนี้ แต่ละอ็อบเจ็กต์มีอยู่แล้วในระดับหนึ่งของคลัสเตอร์ใดๆ เรียกอีกอย่างว่าวิธีการจัดกลุ่มแบบคลุมเครือ c-means
และความแตกต่างที่ลึกซึ้งยิ่งขึ้นก็เป็นไปได้เช่นกัน ตัวอย่างเช่น:
- การแบ่งกลุ่มอย่างเข้มงวด ที่นี่แต่ละอ็อบเจ็กต์เป็นของหนึ่งกลุ่ม
- การแบ่งกลุ่มอย่างเข้มงวดกับค่าผิดปกติ ในกรณีนี้ ออบเจ็กต์อาจไม่อยู่ในคลัสเตอร์ใดๆ และถือว่าไม่จำเป็น
- การทำคลัสเตอร์ที่ทับซ้อนกัน (ทางเลือกที่มีหลายมุมมอง) ที่นี่ ออบเจ็กต์สามารถเป็นของมากกว่าหนึ่งสาขา โดยทั่วไปแล้วจะเกี่ยวข้องกับคลัสเตอร์ที่เป็นของแข็ง
- วิธีการจัดกลุ่มตามลำดับชั้น ออบเจ็กต์ที่เป็นของกลุ่มย่อยยังอยู่ในระบบย่อยพาเรนต์ด้วย
- การก่อตัวของซับสเปซ แม้ว่าจะคล้ายกับคลัสเตอร์ที่ทับซ้อนกัน แต่ภายในระบบที่กำหนดไว้เฉพาะ กลุ่มร่วมกันไม่ควรทับซ้อนกัน
คำแนะนำ
ตามที่ระบุไว้ข้างต้น อัลกอริธึมการจัดกลุ่มสามารถจำแนกตามโมเดลคลัสเตอร์ได้ การตรวจสอบต่อไปนี้จะแสดงเฉพาะตัวอย่างที่ชัดเจนที่สุดของคำแนะนำเหล่านี้ เนื่องจากอาจมีอัลกอริธึมที่เผยแพร่มากกว่า 100 แบบ จึงไม่มีโมเดลสำหรับคลัสเตอร์ทั้งหมด ดังนั้นจึงไม่สามารถจำแนกได้ง่าย
ไม่มีอัลกอริธึมการจัดกลุ่มที่ถูกต้องตามความเป็นจริง แต่ดังที่กล่าวไว้ข้างต้น คำสั่งอยู่ในมุมมองของผู้สังเกตเสมอ อัลกอริธึมการจัดกลุ่มที่เหมาะสมที่สุดสำหรับปัญหาหนึ่งๆ มักจะต้องได้รับการคัดเลือกจากการทดลอง เว้นแต่จะมีเหตุผลทางคณิตศาสตร์สำหรับการเลือกแบบจำลองหนึ่งมากกว่าอีกแบบหนึ่ง ควรสังเกตว่าอัลกอริทึมที่ออกแบบมาสำหรับประเภทเดียวมักใช้ไม่ได้กับชุดข้อมูลที่มีหัวเรื่องที่แตกต่างกันอย่างสิ้นเชิง ตัวอย่างเช่น ค่า k ไม่พบกลุ่มที่ไม่นูน
การจัดกลุ่มตามการเชื่อมต่อ
สหภาพนี้มีชื่อเรียกอีกอย่างว่าแบบจำลองลำดับชั้น เป็นไปตามแนวคิดทั่วไปที่ว่าวัตถุเชื่อมต่อกับส่วนใกล้เคียงมากกว่าวัตถุที่อยู่ไกลออกไปมาก อัลกอริธึมเหล่านี้เชื่อมต่ออ็อบเจ็กต์ สร้างคลัสเตอร์ที่แตกต่างกัน ขึ้นอยู่กับระยะห่าง กลุ่มสามารถอธิบายได้เป็นส่วนใหญ่ตามระยะทางสูงสุดที่จำเป็นในการเชื่อมต่อส่วนต่างๆ ของคลัสเตอร์ ในทุกระยะทางที่เป็นไปได้ กลุ่มอื่นๆ จะก่อตัวขึ้น ซึ่งสามารถแสดงโดยใช้ภาพสามมิติ สิ่งนี้อธิบายที่มาของชื่อสามัญ "การจัดกลุ่มแบบลำดับชั้น" กล่าวคือ อัลกอริธึมเหล่านี้ไม่ได้จัดเตรียมพาร์ติชั่นเดียวของชุดข้อมูล แต่ให้คำสั่งที่กว้างขวางแทน ต้องขอบคุณเขาที่ทำให้มีการระบายน้ำซึ่งกันและกันในระยะทางที่แน่นอน ในแผนภาพ แกน y แสดงถึงระยะทางที่กระจุกดาวมารวมกัน และวัตถุถูกจัดเรียงตามเส้น X เพื่อไม่ให้กลุ่มผสมกัน
การจัดกลุ่มตามการเชื่อมต่อเป็นกลุ่มวิธีการที่แตกต่างกันในวิธีคำนวณระยะทาง นอกเหนือจากการเลือกฟังก์ชันระยะทางตามปกติแล้ว ผู้ใช้ยังต้องตัดสินใจเกี่ยวกับเกณฑ์การเชื่อมต่อด้วย เนื่องจากคลัสเตอร์ประกอบด้วยหลายอ็อบเจ็กต์ จึงมีตัวเลือกมากมายสำหรับการคำนวณ ตัวเลือกยอดนิยมเรียกว่าการจัดกลุ่มแบบคันเดียว นี่คือวิธีการลิงก์แบบเต็ม ซึ่งมี UPGMA หรือ WPGMA (กลุ่มคู่ที่ไม่ถ่วงน้ำหนักหรือถ่วงน้ำหนักด้วยค่าเฉลี่ยเลขคณิต หรือที่เรียกว่าคลัสเตอร์ลิงก์เฉลี่ย) นอกจากนี้ ระบบลำดับชั้นยังสามารถเป็นแบบรวม (เริ่มต้นด้วยองค์ประกอบแต่ละรายการและรวมเข้าด้วยกันเป็นกลุ่ม) หรือแบ่ง (เริ่มต้นด้วยชุดข้อมูลที่สมบูรณ์แล้วแบ่งออกเป็นส่วนๆ)
กระจายคลัสเตอร์
โมเดลเหล่านี้มีความเกี่ยวข้องมากที่สุดกับสถิติที่อิงตามการแยกส่วน สามารถกำหนดคลัสเตอร์เป็นวัตถุที่น่าจะอยู่ในการกระจายเดียวกันได้อย่างง่ายดาย คุณลักษณะที่มีประโยชน์ของแนวทางนี้คือคล้ายกับวิธีสร้างชุดข้อมูลเทียม โดยการสุ่มตัวอย่างวัตถุจากการแจกแจง
ในขณะที่พื้นฐานทางทฤษฎีของวิธีการเหล่านี้ดีเยี่ยม แต่ก็ประสบปัญหาสำคัญอย่างหนึ่งที่เรียกว่า overfitting เว้นแต่จะมีการจำกัดความซับซ้อนของแบบจำลอง การเชื่อมโยงที่ใหญ่กว่ามักจะอธิบายข้อมูลได้ดีขึ้น ทำให้ยากต่อการเลือกวิธีการที่เหมาะสม
แบบผสมเกาส์เซียน
วิธีนี้ใช้อัลกอริธึมการขยายความคาดหมายสูงสุดทุกประเภท ในที่นี้ ชุดข้อมูลมักจะสร้างแบบจำลองด้วยจำนวนการแจกแจงแบบเกาส์เซียนคงที่ (เพื่อหลีกเลี่ยงการแทนที่) ที่เริ่มต้นแบบสุ่มและพารามิเตอร์จะถูกปรับให้เหมาะสมซ้ำแล้วซ้ำเล่าเพื่อให้พอดีกับชุดข้อมูลมากขึ้น ระบบนี้จะมาบรรจบกันเพื่อปรับให้เหมาะสมที่สุดในพื้นที่ นั่นคือเหตุผลที่การวิ่งหลายครั้งสามารถให้ได้ผลลัพธ์ที่แตกต่างกัน เพื่อให้ได้คลัสเตอร์ที่แคบที่สุด คุณลักษณะมักจะถูกกำหนดให้กับการกระจายแบบเกาส์เซียนที่พวกเขาน่าจะเป็นเจ้าของมากที่สุด และสำหรับกลุ่มที่นุ่มนวลกว่านี้ก็ไม่จำเป็น
การจัดกลุ่มตามการแจกจ่ายสร้างโมเดลที่ซับซ้อนซึ่งสามารถจับความสัมพันธ์และการพึ่งพาระหว่างแอตทริบิวต์ได้ในท้ายที่สุด อย่างไรก็ตาม อัลกอริธึมเหล่านี้สร้างภาระเพิ่มเติมให้กับผู้ใช้ สำหรับชุดข้อมูลในโลกแห่งความเป็นจริงหลายๆ ชุด อาจไม่มีแบบจำลองทางคณิตศาสตร์ที่กำหนดไว้อย่างกระชับ (เช่น สมมติว่าการแจกแจงแบบเกาส์เซียนเป็นข้อสันนิษฐานที่ค่อนข้างชัดเจน)
การจัดกลุ่มตามความหนาแน่น
ในตัวอย่างนี้ โดยทั่วไปแล้วกลุ่มต่างๆ จะถูกกำหนดให้เป็นพื้นที่ที่มีการซึมผ่านไม่ได้สูงกว่าชุดข้อมูลที่เหลือ วัตถุในส่วนที่หายากเหล่านี้ ซึ่งจำเป็นต้องแยกส่วนประกอบทั้งหมด มักจะถือว่าเป็นจุดรบกวนและจุดขอบ
วิธีการจัดกลุ่มตามความหนาแน่นที่นิยมมากที่สุดคือ DBSCAN (อัลกอริทึมการจัดกลุ่มเสียงรบกวนเชิงพื้นที่) ต่างจากวิธีการใหม่ ๆ มากมาย แต่มีคอมโพเนนต์คลัสเตอร์ที่กำหนดไว้อย่างดีที่เรียกว่า "ความหนาแน่นในการเข้าถึง" คล้ายกับการทำคลัสเตอร์แบบอิงลิงก์ โดยอิงตามจุดเชื่อมต่อภายในเกณฑ์ระยะทางที่กำหนด อย่างไรก็ตาม วิธีนี้รวบรวมเฉพาะรายการที่ตรงตามเกณฑ์ความหนาแน่นเท่านั้น ในเวอร์ชันดั้งเดิม ซึ่งกำหนดเป็นจำนวนขั้นต่ำของอ็อบเจ็กต์อื่นในรัศมีนี้ คลัสเตอร์ประกอบด้วยทั้งหมดรายการที่เกี่ยวข้องกับความหนาแน่น (ซึ่งสามารถสร้างกลุ่มรูปแบบอิสระ ซึ่งแตกต่างจากวิธีอื่นๆ) และวัตถุทั้งหมดที่อยู่ในขอบเขตที่อนุญาต
คุณสมบัติที่น่าสนใจอีกอย่างของ DBSCAN คือความซับซ้อนค่อนข้างต่ำ - ต้องใช้จำนวนการสืบค้นช่วงเชิงเส้นกับฐานข้อมูล และสิ่งที่ผิดปกติอีกอย่างก็คือ มันจะพบผลลัพธ์ที่เหมือนกัน (นี่เป็นตัวกำหนดจุดแกนและจุดรบกวน แต่ไม่ใช่สำหรับองค์ประกอบขอบเขต) ในทุกการวิ่ง ดังนั้นจึงไม่จำเป็นต้องเรียกใช้หลายครั้ง
ข้อเสียเปรียบหลักของ DBSCAN และ OPTICS คือพวกเขาคาดหวังว่าความหนาแน่นจะลดลงเพื่อตรวจจับขอบเขตของคลัสเตอร์ ตัวอย่างเช่น ในชุดข้อมูลที่มีการแจกแจงแบบเกาส์เซียนที่ทับซ้อนกัน ซึ่งเป็นกรณีการใช้งานทั่วไปสำหรับออบเจกต์ประดิษฐ์ ขอบเขตคลัสเตอร์ที่สร้างโดยอัลกอริทึมเหล่านี้มักปรากฏโดยอำเภอใจ สิ่งนี้เกิดขึ้นเนื่องจากความหนาแน่นของกลุ่มลดลงอย่างต่อเนื่อง และในชุดข้อมูลผสมแบบเกาส์เซียน อัลกอริธึมเหล่านี้มักจะมีประสิทธิภาพเหนือกว่าวิธีการต่างๆ เช่น การทำคลัสเตอร์ EM ซึ่งสามารถจำลองระบบประเภทเหล่านี้ได้อย่างแม่นยำ
การกระจัดเฉลี่ยเป็นวิธีการจัดกลุ่มซึ่งแต่ละวัตถุจะเคลื่อนที่ไปยังพื้นที่ที่หนาแน่นที่สุดในละแวกนั้นตามการประมาณการของเคอร์เนลทั้งหมด ในท้ายที่สุด วัตถุมาบรรจบกันกับระดับสูงสุดที่ทะลุทะลวงไม่ได้ คล้ายกับการจัดกลุ่ม k-mean "ตัวดึงดูดความหนาแน่น" เหล่านี้สามารถทำหน้าที่เป็นตัวแทนสำหรับชุดข้อมูล แต่การเปลี่ยนค่าเฉลี่ยสามารถตรวจจับคลัสเตอร์ที่มีรูปร่างตามอำเภอใจได้คล้ายกับ DBSCAN เนื่องจากกระบวนการวนซ้ำและการประมาณความหนาแน่นที่มีราคาแพง การกระจัดโดยเฉลี่ยมักจะช้ากว่า DBSCAN หรือ k-Means นอกจากนี้ การบังคับใช้อัลกอริธึม shift ทั่วไปกับข้อมูลมิติสูงนั้นทำได้ยาก เนื่องจากพฤติกรรมที่ไม่สม่ำเสมอของการประมาณความหนาแน่นของเคอร์เนล ซึ่งนำไปสู่การกระจายตัวของคลัสเตอร์ tails ที่มากเกินไป
เรตติ้ง
การตรวจสอบผลลัพธ์การจัดกลุ่มนั้นยากพอๆ กับการทำคลัสเตอร์เอง แนวทางที่ได้รับความนิยม ได้แก่ การให้คะแนน "ภายใน" (โดยที่ระบบถูกลดเหลือเพียงการวัดคุณภาพเดียว) และแน่นอน การให้คะแนน "ภายนอก" (โดยที่การจัดกลุ่มเปรียบเทียบกับการจัดประเภท "ความจริงพื้นฐาน" ที่มีอยู่) และคะแนนจากผู้เชี่ยวชาญที่เป็นมนุษย์และคะแนนทางอ้อมนั้นพบได้ด้วยการพิจารณาประโยชน์ของการจัดกลุ่มในแอปพลิเคชันที่ต้องการ
ค่าสถานะภายในประสบปัญหาที่แสดงถึงคุณลักษณะที่สามารถพิจารณาว่าเป็นเป้าหมายของคลัสเตอร์ ตัวอย่างเช่น เป็นไปได้ที่จะจัดกลุ่มข้อมูลที่กำหนดโดยสัมประสิทธิ์ Silhouette ยกเว้นว่าไม่มีอัลกอริธึมที่มีประสิทธิภาพสำหรับการทำเช่นนี้ การใช้มาตรการภายในดังกล่าวสำหรับการประเมิน จะดีกว่าถ้าเปรียบเทียบความคล้ายคลึงของปัญหาการปรับให้เหมาะสม
เครื่องหมายภายนอกมีปัญหาคล้ายกัน หากมีป้ายกำกับว่า "ความจริงพื้นๆ" ก็ไม่จำเป็นต้องจัดกลุ่ม และในทางปฏิบัติมักไม่มีแนวคิดดังกล่าว ในทางกลับกัน เลเบลสะท้อนถึงพาร์ติชั่นเดียวที่เป็นไปได้ของชุดข้อมูล ซึ่งไม่ได้หมายความว่าว่าไม่มีการจัดกลุ่มอื่น (อาจจะดีกว่า)
ดังนั้นวิธีการเหล่านี้จึงไม่สามารถตัดสินคุณภาพที่แท้จริงได้ในท้ายที่สุด แต่สิ่งนี้ต้องการการประเมินโดยมนุษย์ ซึ่งเป็นเรื่องส่วนตัวอย่างมาก อย่างไรก็ตาม สถิติดังกล่าวสามารถให้ข้อมูลในการระบุกลุ่มที่ไม่ดี แต่ไม่ควรลดการประเมินอัตนัยของบุคคล
เครื่องหมายด้านใน
เมื่อผลลัพธ์ของการจัดกลุ่มได้รับการประเมินโดยยึดตามข้อมูลที่จัดกลุ่มเองแล้ว จะเรียกว่าคำนี้ โดยทั่วไปวิธีการเหล่านี้จะกำหนดผลลัพธ์ที่ดีที่สุดให้กับอัลกอริทึมที่สร้างกลุ่มที่มีความคล้ายคลึงกันสูงและต่ำระหว่างกลุ่ม ข้อเสียอย่างหนึ่งของการใช้เกณฑ์ภายในในการประเมินคลัสเตอร์คือ คะแนนที่สูงไม่จำเป็นต้องนำไปสู่แอปพลิเคชันการดึงข้อมูลที่มีประสิทธิภาพเสมอไป นอกจากนี้ คะแนนนี้มีอคติต่ออัลกอริธึมที่ใช้โมเดลเดียวกัน ตัวอย่างเช่น การจัดกลุ่ม k-mean จะปรับระยะของฟีเจอร์ให้เหมาะสมตามธรรมชาติ และเกณฑ์ภายในที่อิงตามนั้นมักจะประเมินค่าสูงไปสำหรับการจัดกลุ่มที่เป็นผลลัพธ์
ดังนั้น การวัดผลเหล่านี้จึงเหมาะสมที่สุดในการทำความเข้าใจสถานการณ์ที่อัลกอริทึมหนึ่งทำงานได้ดีกว่าอีกวิธีหนึ่ง แต่นี่ไม่ได้หมายความว่าแต่ละข้อมูลจะให้ผลลัพธ์ที่น่าเชื่อถือมากกว่าข้อมูลอื่นๆ ระยะเวลาที่ใช้ได้ซึ่งวัดโดยดัชนีดังกล่าวขึ้นอยู่กับการยืนยันว่ามีโครงสร้างอยู่ในชุดข้อมูล อัลกอริธึมที่พัฒนาขึ้นสำหรับบางประเภทจะไม่มีโอกาสเกิดขึ้นหากชุดนั้นมีความรุนแรงองค์ประกอบที่แตกต่างกันหรือถ้าการประเมินวัดเกณฑ์ที่แตกต่างกัน ตัวอย่างเช่น การจัดกลุ่ม k-mean สามารถค้นหาคลัสเตอร์นูนเท่านั้น และดัชนีคะแนนจำนวนมากใช้รูปแบบเดียวกัน ในชุดข้อมูลที่มีโมเดลไม่นูน ไม่เหมาะสมที่จะใช้ค่าเฉลี่ย k และเกณฑ์การประเมินทั่วไป
การประเมินภายนอก
ด้วยลูกบอลประเภทนี้ ผลลัพธ์การจัดกลุ่มจะได้รับการประเมินตามข้อมูลที่ไม่ได้ใช้สำหรับการจัดกลุ่ม นั่นคือเช่นป้ายกำกับคลาสที่รู้จักและการทดสอบภายนอก คำถามดังกล่าวประกอบด้วยชุดของรายการที่จัดประเภทไว้ล่วงหน้าและมักถูกสร้างโดยผู้เชี่ยวชาญ (มนุษย์) ดังนั้นชุดอ้างอิงจึงถือเป็นมาตรฐานทองคำสำหรับการประเมิน วิธีการให้คะแนนประเภทนี้จะวัดว่าการจัดกลุ่มใกล้เคียงกับคลาสอ้างอิงที่กำหนดเพียงใด อย่างไรก็ตาม ได้มีการพูดคุยกันเมื่อเร็วๆ นี้ว่าสิ่งนี้เพียงพอสำหรับข้อมูลจริงหรือสำหรับชุดสังเคราะห์ที่มีความจริงพื้นจริงเท่านั้น เนื่องจากคลาสอาจมีโครงสร้างภายใน และแอตทริบิวต์ที่มีอยู่อาจไม่อนุญาตให้แยกคลัสเตอร์ นอกจากนี้ จากมุมมองของการค้นพบความรู้ การทำซ้ำข้อเท็จจริงที่ทราบอาจไม่จำเป็นต้องให้ผลลัพธ์ที่คาดหวังเสมอไป ในสถานการณ์สมมติการจัดกลุ่มที่มีข้อจำกัดพิเศษซึ่งมีการใช้ข้อมูลเมตา (เช่น ป้ายชื่อคลาส) อยู่แล้วในกระบวนการจัดกลุ่ม การรักษาข้อมูลทั้งหมดไว้เพื่อวัตถุประสงค์ในการประเมินนั้นไม่ใช่เรื่องง่าย
ตอนนี้ก็ชัดเจนว่าอะไรใช้ไม่ได้กับวิธีการจัดกลุ่ม และรุ่นใดที่ใช้สำหรับวัตถุประสงค์เหล่านี้