การขุดข้อมูลคือ แนวคิด การวิเคราะห์อัลกอริธึม วัตถุประสงค์ และการใช้งาน

2026 ผู้เขียน: Angel Austin | austin@vogueindustry.com. แก้ไขล่าสุด: 2025-01-23 12:35:49

การพัฒนาเทคโนโลยีสารสนเทศนำมาซึ่งผลลัพธ์ในทางปฏิบัติ แต่งานเช่นการค้นหาวิเคราะห์และการใช้ข้อมูลยังไม่ได้รับเครื่องมือคุณภาพสูงที่มีประสิทธิภาพ มีเครื่องมือวิเคราะห์และเชิงปริมาณที่ใช้งานได้จริง แต่การปฏิวัติเชิงคุณภาพในการใช้ข้อมูลยังไม่เกิดขึ้น

ก่อนการมาถึงของเทคโนโลยีคอมพิวเตอร์ บุคคลจำเป็นต้องประมวลผลข้อมูลจำนวนมากและจัดการกับสิ่งนี้ด้วยประสบการณ์ที่ดีที่สุดและความสามารถทางเทคนิคที่มี

การพัฒนาความรู้และทักษะตอบสนองความต้องการที่แท้จริงและสอดคล้องกับงานปัจจุบันอยู่เสมอ การทำเหมืองข้อมูลเป็นชื่อเรียกรวมที่ใช้เพื่ออ้างถึงชุดของวิธีการในการค้นหาความรู้ที่ไม่เคยรู้มาก่อน ไม่สำคัญ มีประโยชน์ในทางปฏิบัติ และเข้าถึงได้ในข้อมูล ซึ่งจำเป็นสำหรับการตัดสินใจในด้านต่างๆ ของกิจกรรมของมนุษย์

มนุษย์ สติปัญญา การเขียนโปรแกรม

คนๆ นั้นรู้วิธีปฏิบัติตนในทุกสถานการณ์เสมอความไม่รู้หรือสถานการณ์ที่ไม่คุ้นเคยไม่ได้ทำให้เขาไม่สามารถตัดสินใจได้ ความเป็นกลางและความสมเหตุสมผลของการตัดสินใจของมนุษย์ใด ๆ สามารถตั้งคำถามได้ แต่จะได้รับการยอมรับ

ความฉลาดขึ้นอยู่กับ: "กลไก" ที่สืบทอดมา, ความรู้ที่ได้มา, ความรู้เชิงรุก ความรู้ถูกนำไปใช้แก้ปัญหาที่เกิดขึ้นต่อหน้าคน

ความฉลาดคือชุดความรู้และทักษะที่ไม่เหมือนใคร: โอกาสและรากฐานสำหรับชีวิตและการทำงานของมนุษย์
ความฉลาดมีการพัฒนาอย่างต่อเนื่อง และการกระทำของมนุษย์ก็มีผลกระทบต่อผู้อื่น

การเขียนโปรแกรมเป็นความพยายามครั้งแรกในการนำเสนอข้อมูลอย่างเป็นทางการและขั้นตอนการสร้างอัลกอริทึม

ปัญญาประดิษฐ์ (AI) เป็นการเสียเวลาและทรัพยากร แต่ผลลัพธ์ของความพยายามที่ไม่ประสบความสำเร็จของศตวรรษที่ผ่านมาในด้าน AI ยังคงอยู่ในความทรงจำ ถูกใช้ในระบบผู้เชี่ยวชาญ (อัจฉริยะ) ต่างๆ และถูกเปลี่ยนแปลง โดยเฉพาะในอัลกอริทึม (กฎ) และการวิเคราะห์ข้อมูลทางคณิตศาสตร์ (ตรรกะ) และ Data Mining

ข้อมูลและการค้นหาวิธีแก้ปัญหาตามปกติ

ห้องสมุดธรรมดาคือคลังความรู้ และคำที่พิมพ์และกราฟิกยังไม่เอื้ออำนวยต่อเทคโนโลยีคอมพิวเตอร์ หนังสือเกี่ยวกับฟิสิกส์ เคมี กลศาสตร์เชิงทฤษฎี การออกแบบ ประวัติศาสตร์ธรรมชาติ ปรัชญา วิทยาศาสตร์ธรรมชาติ พฤกษศาสตร์ ตำรา เอกสาร ผลงานของนักวิทยาศาสตร์ เอกสารการประชุม รายงานงานพัฒนา ฯลฯ ล้วนมีความเกี่ยวข้องและเชื่อถือได้เสมอ

ห้องสมุดเป็นแหล่งต่างๆ ที่แตกต่างกันมากมายรูปแบบการนำเสนอ ที่มา โครงสร้าง เนื้อหา รูปแบบการนำเสนอ เป็นต้น

ห้องสมุด: หนังสือ นิตยสาร และสิ่งพิมพ์อื่นๆ

ภายนอกทุกอย่างมองเห็นได้ (อ่านได้ เข้าถึงได้) เพื่อความเข้าใจและใช้งาน คุณสามารถแก้ปัญหาใดๆ ก็ตาม ตั้งค่างานอย่างถูกต้อง ให้เหตุผลในการแก้ปัญหา เขียนบทความหรือบทความภาคการศึกษา เลือกเนื้อหาสำหรับประกาศนียบัตร วิเคราะห์แหล่งที่มาในหัวข้อวิทยานิพนธ์หรือรายงานทางวิทยาศาสตร์และการวิเคราะห์

ปัญหาข้อมูลไหนก็แก้ได้ ด้วยความอุตสาหะและทักษะที่เหมาะสม จะได้ผลลัพธ์ที่แม่นยำและเชื่อถือได้ ในบริบทนี้ การทำเหมืองข้อมูลเป็นแนวทางที่แตกต่างอย่างสิ้นเชิง

นอกจากผลลัพธ์แล้ว บุคคลจะได้รับ "ลิงก์ที่ทำงานอยู่" ไปยังทุกสิ่งที่ดูในกระบวนการบรรลุเป้าหมาย แหล่งที่มาที่เขาใช้ในการแก้ปัญหาสามารถอ้างถึงได้และไม่มีใครโต้แย้งข้อเท็จจริงของการมีอยู่ของแหล่งที่มา นี่ไม่ใช่การรับประกันความถูกต้อง แต่เป็นคำให้การที่ชัดเจนว่าใครเป็นผู้ "ยกเลิกการสมัครรับข้อมูล" จากมุมมองนี้ การทำเหมืองข้อมูลทำให้เกิดความสงสัยอย่างมากเกี่ยวกับความน่าเชื่อถือและไม่มีลิงก์ "ใช้งานอยู่"

ด้วยการแก้ปัญหาหลายอย่าง คนๆ หนึ่งจะได้ผลลัพธ์และขยายศักยภาพทางปัญญาของเขาไปยัง "ลิงก์ที่ใช้งานอยู่" จำนวนมาก หากงานใหม่ “เปิดใช้งาน” ลิงก์ที่มีอยู่แล้ว บุคคลนั้นจะทราบวิธีแก้ปัญหา: ไม่จำเป็นต้องค้นหาอะไรอีก

"ลิงก์ที่ใช้งานอยู่" เป็นการเชื่อมโยงแบบตายตัว: จะทำอย่างไรและต้องทำอย่างไรในบางกรณี สมองของมนุษย์จะจดจำทุกสิ่งที่ดูเหมือนว่าน่าสนใจและมีประโยชน์โดยอัตโนมัติหรือมีแนวโน้มว่าจะมีความจำเป็นในอนาคต สิ่งนี้เกิดขึ้นในระดับจิตใต้สำนึกในหลาย ๆ ด้าน แต่ทันทีที่มีงานที่สามารถเชื่อมโยงกับ "ลิงก์ที่ใช้งานอยู่" งานนั้นจะปรากฏขึ้นในใจทันทีและจะได้รับวิธีแก้ปัญหาโดยไม่ต้องค้นหาข้อมูลเพิ่มเติม การทำเหมืองข้อมูลเป็นขั้นตอนการค้นหาซ้ำๆ เสมอ และอัลกอริทึมนี้จะไม่เปลี่ยนแปลง

การค้นหาปกติ: ปัญหา "ศิลปะ"

ห้องสมุดคณิตศาสตร์และการค้นหาข้อมูลในนั้นถือเป็นงานที่ค่อนข้างอ่อนแอ การหาวิธีแก้อินทิกรัล สร้างเมทริกซ์ หรือดำเนินการบวกจำนวนจินตภาพสองจำนวนไม่ทางใดก็ทางหนึ่งนั้นยาก แต่ง่าย คุณต้องจัดเรียงหนังสือหลายๆ เล่ม ซึ่งหลายๆ เล่มเขียนในภาษาใดภาษาหนึ่ง ค้นหาข้อความที่ถูกต้อง ศึกษาและหาวิธีแก้ปัญหาที่จำเป็น

เมื่อเวลาผ่านไป การแจงนับจะกลายเป็นความคุ้นเคย และประสบการณ์ที่สั่งสมมานี้จะทำให้คุณสำรวจข้อมูลห้องสมุดและปัญหาทางคณิตศาสตร์อื่นๆ ได้ นี่เป็นพื้นที่ข้อมูลที่จำกัดสำหรับคำถามและคำตอบ คุณลักษณะเฉพาะ: การค้นหาข้อมูลดังกล่าวรวบรวมความรู้เพื่อแก้ปัญหาที่คล้ายคลึงกัน การค้นหาข้อมูลของบุคคลทิ้งร่องรอย ("ลิงก์ที่ใช้งานอยู่") ในความทรงจำของเขาเกี่ยวกับวิธีแก้ไขปัญหาอื่นๆ

ในนิยาย ค้นหาคำตอบของคำถาม: "ผู้คนอาศัยอยู่อย่างไรในเดือนมกราคม 1248" ยากมาก. เป็นการยากที่จะตอบคำถามว่ามีอะไรอยู่บนชั้นวางสินค้าและจัดการค้าอาหารอย่างไร แม้ว่านักเขียนบางคนจะเขียนเกี่ยวกับเรื่องนี้อย่างชัดเจนและตรงไปตรงมาในนวนิยายของเขาหากพบชื่อนักเขียนคนนี้ก็สงสัยความน่าเชื่อถือของข้อมูลที่ได้รับจะยังคงอยู่ ความน่าเชื่อถือเป็นคุณลักษณะที่สำคัญของข้อมูลจำนวนเท่าใดก็ได้ แหล่งที่มาผู้เขียนและหลักฐานที่ไม่รวมความเท็จของผลลัพธ์เป็นสิ่งสำคัญ

สถานการณ์วัตถุประสงค์ของสถานการณ์เฉพาะ

มนุษย์เห็น ได้ยิน รู้สึก ผู้เชี่ยวชาญบางคนคล่องแคล่วในความรู้สึกที่ไม่เหมือนใคร - สัญชาตญาณ การชี้แจงปัญหาจำเป็นต้องมีข้อมูล กระบวนการในการแก้ปัญหามักมาพร้อมกับการปรับแต่งคำชี้แจงปัญหา นี่เป็นปัญหาน้อยกว่าที่มาพร้อมกับการย้ายข้อมูลไปยังลำไส้ของระบบคอมพิวเตอร์

ห้องสมุดและเพื่อนร่วมงานที่ทำงานเป็นผู้เข้าร่วมทางอ้อมในกระบวนการตัดสินใจ การออกแบบหนังสือ (ที่มา), กราฟิกในข้อความ, คุณสมบัติของการแบ่งข้อมูลเป็นหัวเรื่อง, เชิงอรรถโดยวลี, ดัชนีหัวเรื่อง, รายการแหล่งที่มาหลัก - ทุกอย่างทำให้เกิดการเชื่อมโยงในบุคคลที่ส่งผลกระทบทางอ้อมต่อกระบวนการแก้ไข ปัญหา

เวลาและสถานที่ในการแก้ปัญหาเป็นสิ่งสำคัญ บุคคลถูกจัดวางจนเขาสนใจทุกสิ่งที่อยู่รอบตัวเขาโดยไม่ได้ตั้งใจในกระบวนการแก้ปัญหา มันอาจทำให้เสียสมาธิหรือสามารถกระตุ้นได้ การขุดข้อมูลจะไม่มีวัน "เข้าใจ"

ข้อมูลในพื้นที่เสมือน

คนๆ หนึ่งมักจะสนใจแต่ข้อมูลที่เชื่อถือได้เกี่ยวกับเหตุการณ์ ปรากฏการณ์ วัตถุ อัลกอริธึมในการแก้ปัญหาเท่านั้น ผู้ชายมักจินตนาการเสมอว่าเขาสามารถบรรลุเป้าหมายที่ต้องการได้อย่างไร

รูปลักษณ์ของคอมพิวเตอร์และระบบสารสนเทศน่าจะทำให้ชีวิตง่ายขึ้นสำหรับบุคคล แต่ทุกอย่างกลับกลายเป็นเรื่องที่ซับซ้อนมากขึ้นเท่านั้นข้อมูลถูกย้ายไปยังลำไส้ของระบบคอมพิวเตอร์และหายไปจากสายตา ในการเลือกข้อมูลที่จำเป็น คุณต้องสร้างอัลกอริทึมที่ถูกต้องหรือกำหนดคิวรีไปยังฐานข้อมูล

คำถามต้องถูกต้อง เพียงเท่านี้คุณก็จะได้คำตอบ แต่ข้อสงสัยเกี่ยวกับความถูกต้องยังคงอยู่ ในแง่นี้ Data Mining คือ "การขุดค้น" จริงๆ มันคือ "การดึงข้อมูล" นี่คือวิธีการที่ทันสมัยในการแปลวลีนี้ เวอร์ชันรัสเซียคือเทคโนโลยีการขุดข้อมูลหรือการขุดข้อมูล

ในผลงานของผู้เชี่ยวชาญที่เชื่อถือได้ งานของ Data Mining มีดังต่อไปนี้:

การจำแนกประเภท;
จัดกลุ่ม;
สมาคม
ลำดับ;
พยากรณ์

จากมุมมองของการปฏิบัติที่แนะนำบุคคลในการประมวลผลข้อมูลด้วยตนเอง ตำแหน่งเหล่านี้ทั้งหมดเป็นที่ถกเถียงกัน ไม่ว่าในกรณีใด บุคคลจะประมวลผลข้อมูลโดยอัตโนมัติและไม่ได้คิดเกี่ยวกับการจัดประเภทข้อมูล การรวบรวมกลุ่มวัตถุตามหัวข้อ (การจัดกลุ่ม) การค้นหารูปแบบชั่วคราว (ลำดับ) หรือการคาดการณ์ผลลัพธ์

ตำแหน่งทั้งหมดเหล่านี้ในจิตใจของมนุษย์นั้นแสดงด้วยความรู้เชิงรุก ซึ่งครอบคลุมตำแหน่งต่างๆ มากขึ้น และใช้ตรรกะในการประมวลผลข้อมูลเบื้องต้นแบบไดนามิก จิตใต้สำนึกของบุคคลมีบทบาทสำคัญ โดยเฉพาะอย่างยิ่งเมื่อเขาเป็นผู้เชี่ยวชาญในสาขาความรู้เฉพาะ

ตัวอย่าง: การขายส่งอุปกรณ์คอมพิวเตอร์

งานง่ายนิดเดียว มีหลายอย่างซัพพลายเออร์อุปกรณ์คอมพิวเตอร์และอุปกรณ์ต่อพ่วงหลายสิบราย แต่ละรายการมีรายการราคาในรูปแบบ xls (ไฟล์ Excel) ซึ่งสามารถดาวน์โหลดได้จากเว็บไซต์อย่างเป็นทางการของซัพพลายเออร์ จำเป็นต้องสร้างทรัพยากรบนเว็บที่อ่านไฟล์ Excel แปลงเป็นตารางฐานข้อมูล และอนุญาตให้ลูกค้าเลือกผลิตภัณฑ์ที่ต้องการในราคาต่ำสุด

ปัญหาเกิดขึ้นทันที ซัพพลายเออร์แต่ละรายเสนอโครงสร้างและเนื้อหาของไฟล์ xls เวอร์ชันของตนเอง คุณสามารถรับไฟล์ได้โดยการดาวน์โหลดจากเว็บไซต์ของซัพพลายเออร์ สั่งซื้อทางอีเมล หรือรับลิงก์ดาวน์โหลดผ่านบัญชีส่วนตัวของคุณ ซึ่งก็คือการลงทะเบียนอย่างเป็นทางการกับซัพพลายเออร์

การแก้ปัญหา (ในตอนเริ่มต้น) นั้นเรียบง่ายทางเทคโนโลยี กำลังโหลดไฟล์ (ข้อมูลเริ่มต้น) อัลกอริธึมการรู้จำไฟล์ถูกเขียนขึ้นสำหรับผู้จัดหาแต่ละราย และข้อมูลจะอยู่ในตารางข้อมูลเริ่มต้นขนาดใหญ่ตารางเดียว หลังจากได้รับข้อมูลทั้งหมดแล้ว หลังจากสร้างกลไกการแลกเปลี่ยนข้อมูลใหม่อย่างต่อเนื่อง (รายวัน รายสัปดาห์ หรือตามการเปลี่ยนแปลง) แล้ว:

เปลี่ยนชุด;
การเปลี่ยนแปลงราคา;
ชี้แจงปริมาณในสต็อก;
การปรับเงื่อนไขการรับประกัน ข้อมูลจำเพาะ ฯลฯ

นี่คือจุดเริ่มต้นของปัญหาที่แท้จริง ประเด็นคือซัพพลายเออร์สามารถเขียนว่า:

โน๊ตบุ๊ค Acer;
โน๊ตบุ๊ค Asus;
แล็ปท็อป Dell

เรากำลังพูดถึงสินค้าตัวเดียวกัน แต่มาจากผู้ผลิตต่างกัน วิธีจับคู่โน้ตบุ๊ก=แล็ปท็อปหรือวิธีลบ Acer, Asus และ Dell ออกจากสายผลิตภัณฑ์

สำหรับมนุษย์ไม่ใช่ปัญหา แต่อัลกอริธึมจะ "เข้าใจ" ได้อย่างไรว่า Acer, Asus, Dell, Samsung, LG, HP, Sony เป็นเครื่องหมายการค้าหรือซัพพลายเออร์? วิธีจับคู่ "เครื่องพิมพ์" กับเครื่องพิมพ์ "สแกนเนอร์" และ "MFP" "เครื่องถ่ายเอกสาร" และ "MFP" "หูฟัง" กับ "หูฟัง" "อุปกรณ์เสริม" กับ "อุปกรณ์เสริม"

การสร้างแผนผังหมวดหมู่ตามแหล่งข้อมูล (ไฟล์ต้นฉบับ) เป็นปัญหาอยู่แล้วเมื่อคุณต้องตั้งค่าทุกอย่างเป็นอัตโนมัติ

การสุ่มตัวอย่างข้อมูล: การขุดค้นของ "เทสด"

งานสร้างฐานข้อมูลซัพพลายเออร์อุปกรณ์คอมพิวเตอร์ได้รับการแก้ไขแล้ว มีการสร้างต้นไม้ของหมวดหมู่ ตารางทั่วไปพร้อมข้อเสนอจากซัพพลายเออร์ทั้งหมดกำลังทำงาน

งานเหมืองข้อมูลทั่วไปในบริบทของตัวอย่างนี้:

ค้นหาสินค้าในราคาต่ำสุด;
เลือกรายการที่มีราคาและค่าขนส่งต่ำที่สุด;
การวิเคราะห์ผลิตภัณฑ์: ลักษณะและราคาตามเกณฑ์

ในการทำงานจริงของผู้จัดการโดยใช้ข้อมูลจากซัพพลายเออร์หลายสิบราย งานเหล่านี้จะมีความหลากหลายและสถานการณ์จริงมากยิ่งขึ้น

ตัวอย่างเช่น มีซัพพลายเออร์ "A" ที่ขาย ASUS VivoBook S15: ชำระเงินล่วงหน้า จัดส่ง 5 วันหลังจากรับเงินจริง มีซัพพลายเออร์ "B" ของผลิตภัณฑ์รุ่นเดียวกัน: ชำระเงินเมื่อได้รับ จัดส่งหลังจากทำสัญญาภายในหนึ่งวัน ราคาจะสูงกว่าหนึ่งเท่าครึ่ง

การขุดข้อมูลเริ่มต้น - "การขุดค้น" นิพจน์ที่เป็นรูปเป็นร่าง: "การขุดค้น" หรือ "การทำเหมืองข้อมูล" เป็นคำพ้องความหมาย อยู่ที่การหาเหตุผลในการตัดสินใจ

ซัพพลายเออร์ "A" และ "B" มีประวัติการส่งมอบ ระดับการชำระเงินล่วงหน้าในกรณีแรกเทียบกับการชำระเงินเมื่อได้รับในกรณีที่สองโดยคำนึงถึงความล้มเหลวในการจัดส่งในกรณีที่สองสูงกว่า 65% ความเสี่ยงของบทลงโทษจากลูกค้ามีสูง/ต่ำ จะตัดสินใจอย่างไรและอย่างไร และตัดสินใจอย่างไร

ในทางกลับกัน: ฐานข้อมูลถูกสร้างขึ้นโดยโปรแกรมเมอร์และผู้จัดการ หากโปรแกรมเมอร์และผู้จัดการมีการเปลี่ยนแปลง จะตรวจสอบสถานะปัจจุบันของฐานข้อมูลและเรียนรู้วิธีใช้งานอย่างถูกต้องได้อย่างไร คุณจะต้องทำเหมืองข้อมูลด้วย การทำเหมืองข้อมูลนำเสนอวิธีการทางคณิตศาสตร์และตรรกะที่หลากหลาย โดยไม่สนใจว่าข้อมูลประเภทใดที่กำลังวิจัยอยู่ วิธีนี้จะให้วิธีแก้ปัญหาที่ถูกต้องในบางกรณี แต่ไม่ใช่ทั้งหมด

ก้าวเข้าสู่โลกเสมือนจริงและค้นหาความหมาย

วิธีการขุดข้อมูลจะมีความหมายทันทีที่ข้อมูลถูกเขียนลงในฐานข้อมูลและหายไปจาก “ขอบเขตการมองเห็น” การซื้อขายอุปกรณ์คอมพิวเตอร์เป็นงานที่น่าสนใจ แต่ก็เป็นเพียงธุรกิจ การจัดระเบียบเขาในบริษัทได้ดีเพียงใดขึ้นอยู่กับความสำเร็จ

การเปลี่ยนแปลงของสภาพอากาศบนโลกใบนี้และสภาพอากาศในเมืองใดเมืองหนึ่งเป็นที่สนใจของทุกคน ไม่ใช่แค่ผู้เชี่ยวชาญด้านสภาพอากาศมืออาชีพเท่านั้น เซ็นเซอร์หลายพันตัวจะอ่านค่าลม ความชื้น ความดัน ข้อมูลจากดาวเทียม Earth เทียม และมีประวัติข้อมูลมานานหลายปี

สภาพอากาศไม่ได้เป็นเพียงการตัดสินใจว่าจะพกร่มไปทำงานหรือไม่ เทคโนโลยีการทำเหมืองข้อมูลเป็นเที่ยวบินที่ปลอดภัยของสายการบิน การทำงานที่เสถียรของทางหลวง และการจัดหาผลิตภัณฑ์ปิโตรเลียมทางทะเลที่เชื่อถือได้

ข้อมูล "ดิบ" ถูกส่งไปยังข้อมูลระบบ. งานของ Data Mining คือการเปลี่ยนตารางให้เป็นระบบตาราง สร้างลิงก์ เน้นกลุ่มของข้อมูลที่เป็นเนื้อเดียวกัน และตรวจจับรูปแบบ

วิธีการทางคณิตศาสตร์และตรรกะนับตั้งแต่ยุคของการวิเคราะห์เชิงปริมาณ OLAP (การประมวลผลเชิงวิเคราะห์ออนไลน์) ได้แสดงให้เห็นถึงการปฏิบัติจริง ที่นี่เทคโนโลยีช่วยให้คุณค้นหาความหมายและไม่สูญเสียเช่นในตัวอย่างการขายอุปกรณ์คอมพิวเตอร์

ยิ่งไปกว่านั้น ในงานระดับโลก:

ธุรกิจข้ามชาติ
การจัดการการขนส่งทางอากาศ
ศึกษาลำไส้ของดินหรือปัญหาสังคม (ในระดับรัฐ);
การศึกษาผลกระทบของยาต่อสิ่งมีชีวิต
ทำนายผลการก่อสร้างวิสาหกิจอุตสาหกรรม ฯลฯ

เทคโนโลยีเหมืองข้อมูลและการเปลี่ยนข้อมูลที่ "ไร้ความหมาย" ให้เป็นข้อมูลจริงที่ให้คุณตัดสินใจอย่างเป็นกลางได้เป็นทางเลือกเดียว

ความเป็นไปได้ของมนุษย์สิ้นสุดลงเมื่อมีข้อมูลดิบจำนวนมาก ระบบการขุดข้อมูลสูญเสียประโยชน์ที่จำเป็นในการดู ทำความเข้าใจ และสัมผัสข้อมูล

การกระจายฟังก์ชันและความเที่ยงธรรมอย่างสมเหตุสมผล

มนุษย์กับคอมพิวเตอร์ควรส่งเสริมซึ่งกันและกัน - นี่คือสัจพจน์ การเขียนวิทยานิพนธ์เป็นสิ่งสำคัญสำหรับบุคคล และระบบข้อมูลสามารถช่วยได้ ที่นี่ ข้อมูลที่เทคโนโลยี Data Mining มีคือฮิวริสติก กฎ อัลกอริธึม

การจัดเตรียมพยากรณ์อากาศประจำสัปดาห์เป็นสิ่งสำคัญอันดับแรกของระบบข้อมูลมนุษย์จัดการข้อมูล แต่การตัดสินใจของเขาขึ้นอยู่กับผลการคำนวณของระบบ มันรวมวิธีการขุดข้อมูล การจัดประเภทข้อมูลผู้เชี่ยวชาญ การควบคุมการใช้อัลกอริทึมด้วยตนเอง การเปรียบเทียบข้อมูลในอดีตโดยอัตโนมัติ การพยากรณ์ทางคณิตศาสตร์ และความรู้และทักษะมากมายของคนจริงที่เกี่ยวข้องกับการใช้ระบบข้อมูล

ทฤษฎีความน่าจะเป็นและสถิติทางคณิตศาสตร์ไม่ใช่ความรู้ที่ "ชอบ" และเข้าใจได้มากที่สุด ผู้เชี่ยวชาญหลายคนอยู่ห่างไกลจากพวกเขามาก แต่วิธีการที่พัฒนาขึ้นในพื้นที่เหล่านี้ให้ผลลัพธ์ที่ถูกต้องเกือบ 100% การนำระบบที่อิงตามแนวคิด วิธีการ และอัลกอริธึมของ Data Mining ไปใช้ ช่วยให้ได้รับโซลูชันอย่างเป็นกลางและเชื่อถือได้ มิฉะนั้น มันเป็นไปไม่ได้เลยที่จะหาทางแก้ไข

ฟาโรห์และความลึกลับของศตวรรษที่ผ่านมา

ประวัติศาสตร์ถูกเขียนใหม่เป็นระยะ:

states - เพื่อประโยชน์เชิงกลยุทธ์ของพวกเขา
นักวิทยาศาสตร์ผู้มีอำนาจ - เพื่อความเชื่อส่วนตัวของพวกเขา

มันยากที่จะบอกว่าอะไรจริงอะไรเท็จ การใช้ Data Mining ทำให้เราสามารถแก้ปัญหานี้ได้ ตัวอย่างเช่น เทคโนโลยีการสร้างปิรามิดถูกอธิบายโดยนักประวัติศาสตร์และศึกษาโดยนักวิทยาศาสตร์ในศตวรรษต่างๆ ไม่ใช่สื่อทั้งหมดที่จะได้รับบนอินเทอร์เน็ต ไม่ใช่ทุกสิ่งที่ไม่ซ้ำกันที่นี่ และข้อมูลจำนวนมากอาจไม่มี:

อธิบายในช่วงเวลา;
เวลาที่เขียนคำอธิบาย
วันที่ตามคำอธิบาย
ผู้เขียน ความคิดเห็น (ลิงก์) ถูกนำมาพิจารณา
ยืนยันความเที่ยงธรรม

Bห้องสมุด วัดวาอาราม และ "สถานที่ที่ไม่คาดคิด" คุณสามารถหาต้นฉบับจากศตวรรษต่างๆ และหลักฐานที่เป็นวัตถุของอดีต

เป้าหมายที่น่าสนใจ: รวบรวมทุกอย่างและค้นพบ "ความจริง" ลักษณะของปัญหา: สามารถรับข้อมูลจากคำอธิบายแรกโดยนักประวัติศาสตร์ในช่วงชีวิตของฟาโรห์จนถึงศตวรรษปัจจุบันซึ่งนักวิทยาศาสตร์หลายคนแก้ไขปัญหานี้ด้วยวิธีการที่ทันสมัย

เหตุผลในการใช้ Data Mining: ไม่สามารถใช้แรงงานคนได้ ปริมาณมากเกินไป:

แหล่งข้อมูล;
ภาษาตัวแทน;
นักวิจัยอธิบายสิ่งเดียวกันในรูปแบบต่างๆ
วันที่ เหตุการณ์ และเงื่อนไข;
ปัญหาความสัมพันธ์ระยะ;
การวิเคราะห์สถิติตามกลุ่มข้อมูลในช่วงเวลาอาจแตกต่างกันไป เป็นต้น

ในช่วงปลายศตวรรษที่ผ่านมา เมื่อความล้มเหลวของความคิดเรื่องปัญญาประดิษฐ์เกิดขึ้นได้ชัดเจน ไม่เพียงแต่กับคนธรรมดาเท่านั้น แต่ยังรวมถึงผู้เชี่ยวชาญที่มีความซับซ้อนด้วย แนวคิดดังกล่าวก็ปรากฏขึ้น: "เพื่อสร้างบุคลิกภาพขึ้นมาใหม่"

ตัวอย่างเช่น ตามผลงานของพุชกิน โกกอล เชคอฟ ระบบกฎบางอย่าง ตรรกะของพฤติกรรมถูกสร้างขึ้น และระบบข้อมูลถูกสร้างขึ้นที่สามารถตอบคำถามบางอย่างได้เหมือนกับที่บุคคลต้องการ: พุชกิน โกกอล หรือ เชคอฟ ในทางทฤษฎี งานดังกล่าวน่าสนใจ แต่ในทางปฏิบัติ มันยากมากที่จะนำไปใช้

อย่างไรก็ตาม แนวคิดของงานดังกล่าวเสนอแนวคิดที่เป็นประโยชน์อย่างยิ่ง: "วิธีสร้างการค้นหาข้อมูลอัจฉริยะ" อินเทอร์เน็ตเป็นทรัพยากรที่กำลังพัฒนามากมาย เป็นฐานข้อมูลขนาดใหญ่ และนี่เป็นโอกาสที่ดีที่จะนำ Data Mining ไปใช้กับมนุษย์ตรรกะในรูปแบบการพัฒนาร่วมกัน

เครื่องจักรและผู้ชายที่จับคู่กันเป็นงานที่ยอดเยี่ยมและประสบความสำเร็จอย่างไม่มีข้อกังขาในด้าน "โบราณคดีสารสนเทศ" การขุดค้นข้อมูลคุณภาพสูงและผลลัพธ์ที่จะทำให้เกิดข้อสงสัย แต่ไม่ต้องสงสัยจะช่วยให้คุณ เพื่อให้ได้ความรู้ใหม่ๆและเป็นที่ต้องการของสังคม