เอนโทรปีข้อมูล: นิยามของแนวคิด คุณสมบัติ ระบบ

สารบัญ:

เอนโทรปีข้อมูล: นิยามของแนวคิด คุณสมบัติ ระบบ
เอนโทรปีข้อมูล: นิยามของแนวคิด คุณสมบัติ ระบบ
Anonim

แนวคิดของเอนโทรปีข้อมูลบอกเป็นนัยถึงลอการิทึมลบของฟังก์ชันมวลความน่าจะเป็นสำหรับค่าหนึ่งๆ ดังนั้น เมื่อแหล่งข้อมูลมีค่าที่มีความน่าจะเป็นต่ำกว่า (เช่น เมื่อเหตุการณ์ที่มีความน่าจะเป็นต่ำเกิดขึ้น) เหตุการณ์จะมี "ข้อมูล" ("เซอร์ไพรส์") มากกว่าเมื่อแหล่งข้อมูลมีค่าที่มีความน่าจะเป็นสูงกว่า.

จำนวนข้อมูลที่ถ่ายทอดโดยแต่ละเหตุการณ์ที่กำหนดไว้ในลักษณะนี้จะกลายเป็นตัวแปรสุ่มซึ่งค่าที่คาดหวังคือเอนโทรปีข้อมูล โดยทั่วไป เอนโทรปีหมายถึงความผิดปกติหรือความไม่แน่นอน และคำจำกัดความที่ใช้ในทฤษฎีข้อมูลมีความคล้ายคลึงโดยตรงกับที่ใช้ในอุณหพลศาสตร์ทางสถิติ แนวคิดของ IE ได้รับการแนะนำโดย Claude Shannon ในบทความเรื่อง "A Mathematical Theory of Communication" ในปี 1948 ของเขา นี่คือที่มาของคำว่า "เอนโทรปีข้อมูลของแชนนอน"

กราฟเอนโทรปีข้อมูล
กราฟเอนโทรปีข้อมูล

คำจำกัดความและระบบ

รูปแบบพื้นฐานของระบบการรับส่งข้อมูลประกอบด้วยสามองค์ประกอบ: แหล่งข้อมูล ช่องทางการสื่อสาร และเครื่องรับและดังที่แชนนอนกล่าวไว้ "ปัญหาการสื่อสารขั้นพื้นฐาน" มีไว้สำหรับผู้รับเพื่อให้สามารถระบุได้ว่าข้อมูลใดที่ต้นทางสร้างขึ้นโดยอิงจากสัญญาณที่ได้รับผ่านช่องสัญญาณ เอนโทรปีให้ข้อจำกัดที่แน่นอนเกี่ยวกับความยาวการเข้ารหัสแบบไม่สูญเสียข้อมูลโดยเฉลี่ยที่สั้นที่สุดที่เป็นไปได้ของข้อมูลต้นทางที่ถูกบีบอัด หากเอนโทรปีของแหล่งที่มาน้อยกว่าแบนด์วิดท์ของช่องทางการสื่อสาร ข้อมูลที่สร้างขึ้นสามารถส่งไปยังผู้รับได้อย่างน่าเชื่อถือ (อย่างน้อยก็ในทางทฤษฎี บางทีอาจละเลยข้อพิจารณาในทางปฏิบัติบางประการ เช่น ความซับซ้อนของระบบที่จำเป็นในการส่งข้อมูล และระยะเวลาที่ใช้ในการส่งข้อมูล)

เอนโทรปีข้อมูลมักจะวัดเป็นบิต (หรือเรียกอีกอย่างว่า "แชนนอน") หรือบางครั้งใน "หน่วยธรรมชาติ" (แนท) หรือตำแหน่งทศนิยม (เรียกว่า "dits", "bans" หรือ "hartleys") หน่วยวัดขึ้นอยู่กับฐานของลอการิทึม ซึ่งใช้ในการหาเอนโทรปี

คุณภาพของข้อมูล
คุณภาพของข้อมูล

คุณสมบัติและลอการิทึม

การแจกแจงความน่าจะเป็นของบันทึกมีประโยชน์ในการวัดเอนโทรปีเพราะเป็นส่วนเสริมสำหรับแหล่งข้อมูลอิสระ ตัวอย่างเช่น เอนโทรปีของการเดิมพันที่ยุติธรรมของเหรียญคือ 1 บิต ในขณะที่เอนโทรปีของ m-volume คือ m บิต ในการแทนแบบง่ายๆ จำเป็นต้องใช้ log2(n) บิตเพื่อเป็นตัวแทนของตัวแปรที่สามารถรับค่าใดค่าหนึ่งจาก n ค่า ถ้า n เป็นกำลัง 2 หากค่าเหล่านี้มีแนวโน้มเท่ากัน เอนโทรปี (เป็นบิต) จะเป็น เท่ากับจำนวนนั้น หากค่าใดค่าหนึ่งมีแนวโน้มมากกว่าค่าอื่น ให้สังเกตว่าความหมายเกิดขึ้น มีข้อมูลน้อยกว่าถ้าผลลัพธ์ทั่วไปน้อยกว่าจะเกิดขึ้น ในทางกลับกัน กิจกรรมที่หายากกว่าจะให้ข้อมูลการติดตามเพิ่มเติม

เนื่องจากการสังเกตเหตุการณ์ที่น่าจะน้อยกว่านั้นมีความถี่น้อยกว่า ไม่มีอะไรที่เหมือนกันที่เอนโทรปี (ซึ่งถือเป็นข้อมูลเฉลี่ย) ที่ได้รับจากข้อมูลที่กระจายอย่างไม่เท่ากันจะน้อยกว่าหรือเท่ากับ log2(n) เสมอ เอนโทรปีเป็นศูนย์เมื่อมีการกำหนดผลลัพธ์เดียว

เอนโทรปีข้อมูลของแชนนอนหาปริมาณการพิจารณาเหล่านี้เมื่อทราบการกระจายความน่าจะเป็นของข้อมูลพื้นฐาน ความหมายของเหตุการณ์ที่สังเกตได้ (ความหมายของข้อความ) ไม่เกี่ยวข้องกับคำจำกัดความของเอนโทรปี อย่างหลังคำนึงถึงความน่าจะเป็นที่จะเห็นเหตุการณ์ใดเหตุการณ์หนึ่งเท่านั้น ดังนั้นข้อมูลที่ห่อหุ้มจึงเป็นข้อมูลเกี่ยวกับการกระจายตัวของความเป็นไปได้ที่อยู่เบื้องล่าง ไม่ได้เกี่ยวกับความหมายของเหตุการณ์ด้วยตัวมันเอง คุณสมบัติของเอนโทรปีข้อมูลยังคงเหมือนเดิมตามที่อธิบายไว้ข้างต้น

สูตรของแชนนอน
สูตรของแชนนอน

ทฤษฎีสารสนเทศ

แนวคิดพื้นฐานของทฤษฎีสารสนเทศคือ ยิ่งรู้หัวข้อมากเท่าไหร่ ก็ยิ่งได้รับข้อมูลน้อยลงเท่านั้น หากเหตุการณ์มีโอกาสเกิดขึ้นได้มาก ก็ไม่น่าแปลกใจที่เหตุการณ์นั้นจะเกิดขึ้น ดังนั้นจึงให้ข้อมูลใหม่เพียงเล็กน้อย ในทางกลับกัน หากเหตุการณ์ไม่น่าจะเป็นไปได้ เหตุการณ์นั้นก็จะให้ข้อมูลมากขึ้น ดังนั้น payload จึงเป็นฟังก์ชันที่เพิ่มขึ้นของความน่าจะเป็นแบบผกผันของเหตุการณ์ (1 / p)

ตอนนี้หากมีเหตุการณ์เกิดขึ้นอีก เอนโทรปีวัดเนื้อหาข้อมูลโดยเฉลี่ยที่คุณสามารถคาดหวังได้หากมีเหตุการณ์ใดเหตุการณ์หนึ่งเกิดขึ้น ซึ่งหมายความว่าการหล่อแม่พิมพ์มีเอนโทรปีมากกว่าการโยนเหรียญเพราะผลลัพธ์ของคริสตัลแต่ละชิ้นมีความน่าจะเป็นที่ต่ำกว่าผลลัพธ์แต่ละเหรียญ

เอนโทรปีในรูป
เอนโทรปีในรูป

คุณสมบัติ

ดังนั้น เอนโทรปีจึงเป็นตัววัดความคาดเดาไม่ได้ของรัฐ หรือเนื้อหาข้อมูลโดยเฉลี่ยก็เช่นเดียวกัน เพื่อให้เข้าใจคำศัพท์เหล่านี้โดยสัญชาตญาณ ให้พิจารณาตัวอย่างการสำรวจความคิดเห็นทางการเมือง โดยปกติแล้ว โพลดังกล่าวจะเกิดขึ้นเพราะยังไม่ทราบผลการเลือกตั้ง เช่น การเลือกตั้ง

กล่าวอีกนัยหนึ่ง ผลลัพธ์ของการสำรวจค่อนข้างคาดเดาไม่ได้ และในความเป็นจริง การดำเนินการและตรวจสอบข้อมูลให้ข้อมูลใหม่บางอย่าง พวกเขาเป็นเพียงวิธีที่แตกต่างกันในการบอกว่าเอนโทรปีก่อนหน้าของผลการสำรวจความคิดเห็นมีขนาดใหญ่

ลองพิจารณากรณีที่โพลแบบเดียวกันทำครั้งที่สองหลังจากครั้งแรกไม่นาน เนื่องจากทราบผลการสำรวจครั้งแรกแล้ว ผลการสำรวจครั้งที่สองสามารถคาดการณ์ได้ดีและผลลัพธ์ไม่ควรมีข้อมูลใหม่มากนัก ในกรณีนี้ เอนโทรปีก่อนหน้าของผลโพลที่สองนั้นเล็กเมื่อเทียบกับอันแรก

ระดับเอนโทรปี
ระดับเอนโทรปี

โยนเหรียญ

ลองพิจารณาตัวอย่างการพลิกเหรียญดูสิ สมมติว่าความน่าจะเป็นของก้อยเท่ากับความน่าจะเป็นของการออกหัว เอนโทรปีของการโยนเหรียญนั้นสูงมาก เนื่องจากเป็นตัวอย่างที่แปลกประหลาดของเอนโทรปีข้อมูลของระบบ

นี่เพราะที่เป็นไปไม่ได้ที่จะทำนายผลของเหรียญจะถูกโยนก่อนเวลา ถ้าเราต้องเลือก สิ่งที่ดีที่สุดที่เราทำได้คือทำนายว่าเหรียญจะตกที่หาง และการทำนายนี้จะถูกต้องด้วยความน่าจะเป็นของ 1 / 2. การโยนเหรียญดังกล่าวมีเอนโทรปี 1 บิต เนื่องจากมีผลลัพธ์ที่เป็นไปได้สองอย่างที่เกิดขึ้นด้วยความน่าจะเป็นเท่ากัน และการศึกษาผลลัพธ์จริงมีข้อมูลเพียงบิตเดียว

ในทางกลับกัน การพลิกเหรียญโดยใช้หางทั้งสองข้างและไม่มีหัวใดไม่มีเอนโทรปีเป็นศูนย์ เนื่องจากเหรียญจะตกลงบนเครื่องหมายนี้เสมอและสามารถทำนายผลได้อย่างสมบูรณ์

ข้อมูลเอนโทรปี
ข้อมูลเอนโทรปี

สรุป

หากรูปแบบการบีบอัดไม่มีการสูญเสีย หมายความว่าคุณสามารถกู้คืนข้อความต้นฉบับทั้งหมดได้โดยคลายการบีบอัด ข้อความที่บีบอัดจะมีจำนวนข้อมูลเท่ากันกับต้นฉบับ แต่จะถูกส่งด้วยอักขระน้อยกว่า นั่นคือมีข้อมูลมากขึ้นหรือเอนโทรปีที่สูงขึ้นต่ออักขระ ซึ่งหมายความว่าข้อความที่บีบอัดมีความซ้ำซ้อนน้อยลง

โดยพื้นฐานแล้ว ทฤษฎีการเข้ารหัสซอร์สโค้ดของแชนนอนระบุว่ารูปแบบการบีบอัดแบบไม่สูญเสียข้อมูลไม่สามารถลดข้อความโดยเฉลี่ยให้มีข้อมูลมากกว่าหนึ่งบิตต่อบิตของข้อความ แต่สามารถบรรลุค่าใดๆ ที่น้อยกว่าหนึ่งบิตของข้อมูลต่อบิต. ข้อความโดยใช้รูปแบบการเข้ารหัสที่เหมาะสม เอนโทรปีของข้อความหน่วยเป็นบิตคูณความยาวของข้อความคือการวัดว่าข้อความนั้นมีข้อมูลทั่วไปมากเพียงใด

แนะนำ: