ข้อมูลสถิติ: การรวบรวม การประมวลผล การวิเคราะห์

สารบัญ:

ข้อมูลสถิติ: การรวบรวม การประมวลผล การวิเคราะห์
ข้อมูลสถิติ: การรวบรวม การประมวลผล การวิเคราะห์
Anonim

ตลอดประวัติศาสตร์ของสถิติ มีความพยายามหลายครั้งในการสร้างอนุกรมวิธานของระดับการวัด นักจิตวิทยา สแตนลีย์ สมิธ สตีเวนส์ กำหนดมาตราส่วนเล็กน้อย ลำดับ ช่วงเวลา และสัดส่วน

การวัดปกติไม่มีลำดับที่มีนัยสำคัญระหว่างค่าต่างๆ และอนุญาตให้มีการแปลงแบบหนึ่งต่อหนึ่ง

ขนาดปกติมีความแตกต่างที่ไม่แน่นอนระหว่างค่าที่ต่อเนื่องกัน แต่มีลำดับเฉพาะของค่าเหล่านั้นและอนุญาตให้มีการแปลงคำสั่งรักษาคำสั่งใดๆ

การวัดตามช่วงเวลามีระยะห่างระหว่างจุดต่างๆ ที่มีความหมาย แต่ค่าศูนย์นั้นเป็นค่าที่ไม่ตั้งใจ (เช่นในกรณีของการวัดลองจิจูดและอุณหภูมิในหน่วยเซลเซียสหรือฟาเรนไฮต์) และอนุญาตให้ทำการแปลงเชิงเส้นใดๆ

ขนาดอัตราส่วนมีทั้งค่าศูนย์ที่มีความหมายและระยะห่างระหว่างมิติที่ต่างกัน และอนุญาตให้มีการแปลงมาตราส่วนใดๆ

Image
Image

ตัวแปรและการจัดประเภทของข้อมูล

เพราะตัวแปรที่สัมพันธ์กับการวัดค่าเล็กน้อยหรือค่าลำดับเท่านั้นไม่สามารถวัดเป็นตัวเลขได้อย่างสมเหตุสมผล และบางครั้งก็จัดกลุ่มเป็นตัวแปรตามหมวดหมู่ การวัดอัตราส่วนและช่วงเวลาถูกจัดกลุ่มเป็นตัวแปรเชิงปริมาณ ซึ่งสามารถเป็นแบบไม่ต่อเนื่องหรือต่อเนื่องก็ได้เนื่องจากลักษณะเชิงตัวเลข ความแตกต่างดังกล่าวมักเกี่ยวข้องอย่างหลวมๆ กับประเภทข้อมูลในวิทยาการคอมพิวเตอร์ เนื่องจากตัวแปรหมวดหมู่แบบ dichotomous สามารถแทนด้วยค่าบูลีน ตัวแปรหมวดหมู่พหุโตมัสที่มีจำนวนเต็มตามอำเภอใจในประเภทข้อมูลอินทิกรัล และตัวแปรต่อเนื่องที่มีองค์ประกอบจริงที่เกี่ยวข้องกับการคำนวณจุดลอยตัว แต่การแสดงประเภทข้อมูลสถิติขึ้นอยู่กับการจัดประเภทที่ใช้

ข้อมูลสถิติเกี่ยวกับคนงาน
ข้อมูลสถิติเกี่ยวกับคนงาน

การจำแนกประเภทอื่นๆ

การจัดหมวดหมู่ข้อมูลสถิติอื่นๆ (ข้อมูล) ได้ถูกสร้างขึ้นเช่นกัน ตัวอย่างเช่น Mosteller และ Tukey แยกความแตกต่างระหว่างเกรด อันดับ จำนวนหุ้นที่นับ จำนวน จำนวน และยอดคงเหลือ Nelder ในครั้งเดียวอธิบายการนับอย่างต่อเนื่อง อัตราส่วนต่อเนื่อง ความสัมพันธ์ของการนับ และวิธีการจัดหมวดหมู่ในการสื่อสารข้อมูล วิธีการจัดหมวดหมู่ทั้งหมดนี้ใช้ในการรวบรวมข้อมูลทางสถิติ

ปัญหา

คำถามว่าควรใช้วิธีการทางสถิติประเภทต่างๆ กับข้อมูลที่ได้จากขั้นตอนการวัด (การรวบรวม) ที่แตกต่างกันหรือไม่นั้นซับซ้อนโดยประเด็นที่เกี่ยวข้องกับการแปลงตัวแปรและการตีความคำถามที่แม่นยำการวิจัย. “ความสัมพันธ์ระหว่างข้อมูลกับสิ่งที่อธิบายนั้นสะท้อนให้เห็นถึงความจริงที่ว่าข้อความทางสถิติบางประเภทสามารถมีค่าความจริงที่ไม่คงที่ภายใต้การแปลงบางอย่าง การเปลี่ยนแปลงนั้นคุ้มค่าหรือไม่นั้นขึ้นอยู่กับคำถามที่คุณกำลังพยายามตอบ

ตัวอย่างข้อมูลสถิติ
ตัวอย่างข้อมูลสถิติ

ประเภทข้อมูลคืออะไร

ประเภทข้อมูลเป็นองค์ประกอบพื้นฐานของเนื้อหาเชิงความหมายของตัวแปรและควบคุมว่าการแจกแจงความน่าจะเป็นประเภทใดที่สามารถใช้ตรรกะในการอธิบายตัวแปร การดำเนินการที่อนุญาต ประเภทของการวิเคราะห์การถดถอยที่ใช้ทำนาย ฯลฯ แนวคิดของประเภทข้อมูลมีความคล้ายคลึงกันในแนวคิดของระดับการวัด แต่มีความเฉพาะเจาะจงมากกว่า เช่น การนับข้อมูลต้องการการกระจายที่ต่างกัน (ปัวซองหรือทวินาม) มากกว่าค่าจริงที่ไม่เป็นลบ แต่ทั้งคู่อยู่ภายใต้การเดียวกัน ระดับการวัด (สเกลสัมประสิทธิ์).

ข้อมูลสถิติเกี่ยวกับผู้พิพากษา
ข้อมูลสถิติเกี่ยวกับผู้พิพากษา

ตาชั่ง

มีความพยายามหลายอย่างในการสร้างอนุกรมวิธานของระดับการวัดสำหรับการประมวลผลข้อมูลทางสถิติ นักจิตวิทยา สแตนลีย์ สมิธ สตีเวนส์ กำหนดมาตราส่วนเล็กน้อย ลำดับ ช่วงเวลา และสัดส่วน การวัดค่าที่กำหนดไม่มีลำดับที่สำคัญระหว่างค่าต่างๆ และอนุญาตให้มีการแปลงแบบหนึ่งต่อหนึ่ง การวัดแบบธรรมดามีความแตกต่างที่ไม่ชัดเจนระหว่างค่าที่ต่อเนื่องกัน แต่ต่างกันในลำดับที่สำคัญของค่าเหล่านั้น และค่าที่อนุญาตการเปลี่ยนแปลงการรักษาคำสั่งใดๆ การวัดตามช่วงเวลามีระยะทางที่มีความหมายระหว่างการวัด แต่ค่าศูนย์นั้นเป็นไปตามอำเภอใจ (เช่นในกรณีของการวัดลองจิจูดและอุณหภูมิในหน่วยเซลเซียสหรือฟาเรนไฮต์) และอนุญาตให้มีการแปลงเชิงเส้นใดๆ มิติข้อมูลอัตราส่วนมีทั้งค่าศูนย์และระยะทางที่มีความหมายระหว่างมิติที่กำหนดต่างกัน และอนุญาตให้มีการแปลงมาตราส่วนใดๆ

โมเดลไดอะแกรม
โมเดลไดอะแกรม

ข้อมูลที่ไม่สามารถอธิบายโดยใช้ตัวเลขเดียวมักจะรวมอยู่ในเวกเตอร์สุ่มของตัวแปรสุ่มจริง แม้ว่าจะมีแนวโน้มเพิ่มขึ้นในการประมวลผลด้วยตัวเองก็ตาม ตัวอย่างดังกล่าวจะกล่าวถึงด้านล่าง

เวกเตอร์สุ่ม

องค์ประกอบส่วนบุคคลอาจมีหรือไม่มีความสัมพันธ์กัน ตัวอย่างของการแจกแจงที่ใช้อธิบายเวกเตอร์สุ่มที่มีความสัมพันธ์คือการแจกแจงแบบปกติหลายตัวแปรและการแจกแจงแบบหลายตัวแปร t โดยทั่วไป อาจมีความสัมพันธ์ตามอำเภอใจระหว่างองค์ประกอบใดๆ อย่างไรก็ตาม สิ่งนี้มักจะไม่สามารถจัดการได้เมื่ออยู่เหนือขนาดที่กำหนด ทำให้ต้องมีข้อจำกัดเพิ่มเติมเกี่ยวกับส่วนประกอบที่สัมพันธ์กัน

คุณลักษณะทางสถิติ
คุณลักษณะทางสถิติ

เมทริกซ์สุ่ม

เมทริกซ์สุ่มสามารถจัดเรียงเป็นเส้นตรงและถือเป็นเวกเตอร์สุ่ม อย่างไรก็ตาม นี่อาจไม่ใช่วิธีที่มีประสิทธิภาพในการแสดงความสัมพันธ์ระหว่างองค์ประกอบต่างๆ การแจกแจงความน่าจะเป็นบางอย่างได้รับการออกแบบมาโดยเฉพาะสำหรับเมทริกซ์สุ่ม เช่น เมทริกซ์ปกติจำหน่ายและจำหน่าย Wishart

สุ่มลำดับ

บางครั้งถือว่าเหมือนกับเวกเตอร์สุ่ม แต่ในกรณีอื่นๆ คำนี้ใช้เฉพาะกับกรณีที่ตัวแปรสุ่มแต่ละตัวสัมพันธ์กับตัวแปรใกล้เคียงเท่านั้น (เช่นในแบบจำลอง Markov) นี่เป็นกรณีพิเศษของเครือข่าย Bayesian และใช้สำหรับลำดับที่ยาวมาก เช่น สายโซ่ของยีนหรือเอกสารข้อความแบบยาว หลายรุ่นได้รับการออกแบบมาเป็นพิเศษสำหรับลำดับดังกล่าว เช่น ลำดับ Markov ที่ซ่อนอยู่

แผนภูมิทั่วไป
แผนภูมิทั่วไป

กระบวนการสุ่ม

พวกมันคล้ายกับลำดับสุ่ม แต่เมื่อความยาวของลำดับนั้นไม่แน่นอนหรือไม่สิ้นสุด และองค์ประกอบในลำดับนั้นจะถูกประมวลผลทีละรายการ มักใช้สำหรับข้อมูลที่สามารถอธิบายเป็นอนุกรมเวลาได้ สิ่งนี้เป็นจริง ตัวอย่างเช่น ราคาหุ้นในวันถัดไป

สรุป

การวิเคราะห์ข้อมูลทางสถิติทั้งหมดขึ้นอยู่กับคุณภาพของการรวบรวม ในทางกลับกันมีความเกี่ยวข้องอย่างยิ่งกับความเป็นไปได้ของการจำแนกประเภท แน่นอนว่าข้อมูลทางสถิติมีหลายประเภท ซึ่งผู้อ่านสามารถเห็นได้เองเมื่ออ่านบทความนี้ อย่างไรก็ตาม การมีเครื่องมือที่มีประสิทธิภาพและความรู้ทางคณิตศาสตร์ที่ดี ตลอดจนความรู้ในด้านสังคมวิทยาจะทำหน้าที่ของมัน ช่วยให้คุณทำการสำรวจหรือศึกษาใดๆ ได้โดยไม่ต้องแก้ไขข้อผิดพลาดที่สำคัญ ที่มาของข้อมูลสถิติในรูปแบบผู้คน องค์กร และวิชาอื่น ๆ ของสังคมวิทยา โชคดีที่มีตัวแทนอยู่มากมาย และไม่มีอุปสรรคขวางทางนักสำรวจตัวจริง

แนะนำ: