เมื่อหลายสิบปีก่อน นักวิทยาศาสตร์ได้แต่ฝันว่าจะทำให้การวิจัยทางภาษาศาสตร์เป็นแบบอัตโนมัติ งานทำด้วยมือ มีนักเรียนจำนวนมากที่เกี่ยวข้อง มีความเป็นไปได้สูงที่จะเกิดข้อผิดพลาด "ไม่ตั้งใจ" และที่สำคัญที่สุดคือใช้เวลานานมาก
ด้วยการพัฒนาเทคโนโลยีคอมพิวเตอร์ ทำให้การวิจัยเป็นไปได้เร็วขึ้นมาก และวันนี้หนึ่งในประเด็นที่น่าสนใจในการศึกษาภาษาก็คือ ภาษาศาสตร์คลังข้อมูล ฟีเจอร์หลักคือการใช้ข้อมูลที่เป็นข้อความจำนวนมาก รวมเป็นฐานข้อมูลเดียว ทำเครื่องหมายด้วยวิธีพิเศษและเรียกว่าคลังข้อมูล
วันนี้ มี corpora มากมายที่สร้างขึ้นเพื่อวัตถุประสงค์ที่แตกต่างกัน โดยอิงจากเนื้อหาภาษาที่แตกต่างกัน ครอบคลุมตั้งแต่หน่วยคำศัพท์หลายล้านถึงหมื่นล้าน ทิศทางนี้เป็นที่ยอมรับและแสดงให้เห็นถึงความก้าวหน้าที่สำคัญในการบรรลุเป้าหมายประยุกต์และการวิจัย ผู้เชี่ยวชาญไม่ทางใดก็ทางหนึ่งที่เกี่ยวข้องกับภาษาธรรมชาติ ขอแนะนำให้ทำความคุ้นเคยกับ text corpora อย่างน้อยในระดับพื้นฐาน
ประวัติภาษาศาสตร์คลังข้อมูล
การก่อตัวของทิศทางนี้เกี่ยวข้องกับการสร้าง Brown Corps ในสหรัฐอเมริกาในช่วงต้นทศวรรษ 60 ของศตวรรษที่ผ่านมา คอลเลกชันของข้อความประกอบด้วยรูปแบบคำเพียง 1 ล้านรูปแบบ และวันนี้คลังข้อมูลของปริมาณดังกล่าวจะไม่สามารถแข่งขันได้อย่างสมบูรณ์ สาเหตุหลักมาจากการพัฒนาเทคโนโลยีคอมพิวเตอร์ เช่นเดียวกับความต้องการทรัพยากรการวิจัยใหม่ที่เพิ่มขึ้น
ในยุค 90 ภาษาศาสตร์ของคอร์ปัสถูกจัดตั้งขึ้นเป็นระเบียบวินัยที่ครบถ้วนสมบูรณ์และเป็นอิสระ มีการรวบรวมชุดข้อความและทำเครื่องหมายไว้สำหรับภาษาต่างๆ หลายสิบภาษา ในช่วงเวลานี้ ตัวอย่างเช่น British National Corpus ถูกสร้างขึ้นสำหรับการใช้งาน 100 ล้านคำ
ในขณะที่ทิศทางของภาษาศาสตร์พัฒนาขึ้น ปริมาณของข้อความจะใหญ่ขึ้น (และเข้าถึงหน่วยคำศัพท์หลายพันล้านหน่วย) และมาร์กอัปจะมีความหลากหลายมากขึ้นเรื่อยๆ วันนี้ ในพื้นที่อินเทอร์เน็ต คุณสามารถหาเนื้อหาเกี่ยวกับคำพูดที่เป็นลายลักษณ์อักษรและด้วยวาจา หลายภาษาและเพื่อการศึกษา โดยเน้นที่วรรณกรรมหรือวรรณกรรมเชิงวิชาการ ตลอดจนความหลากหลายอื่นๆ อีกมากมาย
มีคดีอะไรบ้าง
ประเภท Corpus ในภาษาศาสตร์ของคลังข้อมูลแสดงได้หลายวิธี เป็นที่ชัดเจนว่าพื้นฐานสำหรับการจัดหมวดหมู่สามารถเป็นภาษาของข้อความ (รัสเซีย, เยอรมัน), โหมดการเข้าถึง (โอเพ่นซอร์ส, โอเพ่นซอร์ส, เชิงพาณิชย์), ประเภทของเนื้อหาต้นฉบับ (นิยายวรรณกรรม สารคดี วิชาการ วารสารศาสตร์)
ในวิธีที่น่าสนใจคือการสร้างสื่อที่แสดงถึงคำพูดด้วยวาจา เนื่องจากการบันทึกคำพูดดังกล่าวโดยเจตนาจะสร้างเงื่อนไขเทียมสำหรับผู้ตอบแบบสอบถาม และเนื้อหาที่ได้จึงเรียกว่า "เกิดขึ้นเอง" ไม่ได้ ภาษาศาสตร์ของคลังข้อมูลสมัยใหม่จึงเปลี่ยนไปในทางอื่น อาสาสมัครมีไมโครโฟนและบันทึกการสนทนาทั้งหมดที่เขาเข้าร่วมในระหว่างวัน แน่นอนว่าคนรอบข้างไม่รู้ว่าในระหว่างการสนทนาทุกวัน พวกเขากำลังมีส่วนช่วยในการพัฒนาวิทยาศาสตร์
ต่อมา การบันทึกเสียงที่ได้รับจะถูกจัดเก็บไว้ในคลังข้อมูลและมาพร้อมกับข้อความที่พิมพ์ออกมา เช่น การถอดเสียง ด้วยวิธีนี้ มาร์กอัปที่จำเป็นในการสร้างคลังคำพูดในชีวิตประจำวันจึงเป็นไปได้
แอปพลิเคชัน
ในกรณีที่สามารถใช้ภาษาได้ ก็สามารถใช้ text corpora ได้เช่นกัน จุดประสงค์ของการใช้วิธีคลังข้อมูลในภาษาศาสตร์คือ
- การสร้างโปรแกรมความรู้สึกที่ใช้กันอย่างแพร่หลายในด้านการเมืองและธุรกิจเพื่อติดตามผลตอบรับเชิงบวกและเชิงลบจากผู้มีสิทธิเลือกตั้งและลูกค้าตามลำดับ
- เชื่อมต่อระบบข้อมูลกับพจนานุกรมและนักแปลเพื่อปรับปรุงประสิทธิภาพ
- งานวิจัยต่างๆ ที่มีส่วนช่วยในการทำความเข้าใจโครงสร้างของภาษา ประวัติการพัฒนา และการคาดการณ์การเปลี่ยนแปลงในอนาคตอันใกล้
- การพัฒนาระบบสกัดข้อมูลตามสัณฐานวิทยาวากยสัมพันธ์ ความหมาย และคุณสมบัติอื่นๆ
- เพิ่มประสิทธิภาพการทำงานของระบบภาษาต่างๆ เป็นต้น
ใช้เปลือกหอย
อินเทอร์เฟซทรัพยากรคล้ายกับเครื่องมือค้นหาทั่วไปและแจ้งให้ผู้ใช้ป้อนคำหรือชุดคำเพื่อค้นหาฐานข้อมูล นอกจากแบบฟอร์มคำขอที่แน่นอนแล้ว คุณสามารถใช้เวอร์ชันเพิ่มเติมได้ ซึ่งช่วยให้คุณค้นหาข้อมูลที่เป็นข้อความได้เกือบทุกเกณฑ์ทางภาษา
พื้นฐานสำหรับการค้นหาคือ:
- เป็นส่วนหนึ่งของคำพูดบางกลุ่ม;
- คุณสมบัติทางไวยากรณ์
- ความหมาย;
- สีสันและอารมณ์
นอกจากนี้ คุณยังสามารถรวมเกณฑ์การค้นหาสำหรับลำดับของคำได้ เช่น ค้นหาการเกิดขึ้นทั้งหมดของกริยาในกาลปัจจุบัน คนแรก เอกพจน์ ตามด้วยคำบุพบท "ใน" และคำนามในกรณีกล่าวหา. การแก้ปัญหาง่ายๆ เช่นนี้ทำให้ผู้ใช้ใช้เวลาไม่กี่วินาที และต้องคลิกเมาส์ไม่กี่ครั้งในฟิลด์ที่กำหนด
ขั้นตอนการสร้าง
การค้นหาตัวเองสามารถทำได้ทั้งในองค์กรย่อยทั้งหมด และในหนึ่งเดียว เลือกโดยเฉพาะ ขึ้นอยู่กับความต้องการเมื่อบรรลุเป้าหมายเฉพาะ:
- อันดับแรก กำหนดว่าข้อความใดจะเป็นพื้นฐานของคลังข้อมูล เพื่อวัตถุประสงค์ในทางปฏิบัติ มักใช้สื่อสิ่งพิมพ์ หนังสือพิมพ์ ความคิดเห็นทางอินเทอร์เน็ต ในโครงการวิจัยมากที่สุดร่างกายประเภทต่างๆ แต่ต้องเลือกข้อความบนพื้นฐานทั่วไปบ้าง
- ชุดข้อความที่เป็นผลลัพธ์จะถูกประมวลผลล่วงหน้า ข้อผิดพลาดจะได้รับการแก้ไข หากมี จะมีการจัดเตรียมคำอธิบายบรรณานุกรมและนอกภาษาของข้อความ
- ข้อมูลที่ไม่ใช่ข้อความทั้งหมดถูกกรองออก: กราฟิก รูปภาพ ตารางจะถูกลบ
- โทเค็น โดยปกติแล้วจะเป็นคำ จะถูกจัดสรรเพื่อการประมวลผลต่อไป
- สุดท้าย สัณฐานวิทยา วากยสัมพันธ์ และมาร์กอัปอื่นๆ ของชุดองค์ประกอบที่เป็นผลลัพธ์ก็ถูกดำเนินการ
ผลลัพธ์ของการดำเนินการทั้งหมดเป็นโครงสร้างวากยสัมพันธ์ที่มีชุดขององค์ประกอบกระจายอยู่เหนือมัน ซึ่งแต่ละส่วนของคำพูด ไวยากรณ์ และในบางกรณี คุณสมบัติทางความหมายจะถูกกำหนด
ความยากลำบากในการสร้างเคส
ต้องเข้าใจว่าการได้คลังข้อมูลไม่เพียงพอจะรวบรวมคำหรือประโยคจำนวนมาก ในอีกด้านหนึ่ง คอลเลกชันของข้อความจะต้องมีความสมดุล กล่าวคือ นำเสนอข้อความประเภทต่างๆ ในสัดส่วนที่แน่นอน ในทางกลับกัน เนื้อหาของคดีจะต้องทำเครื่องหมายด้วยวิธีพิเศษ
ปัญหาแรกได้รับการแก้ไขโดยข้อตกลง: ตัวอย่างเช่น คอลเลกชันประกอบด้วยข้อความในนิยาย 60%, สารคดี 20%, สัดส่วนที่กำหนดสำหรับการนำเสนอด้วยวาจา, นิติบัญญัติ, เอกสารทางวิทยาศาสตร์ ฯลฯ ไม่มีสูตรในอุดมคติสำหรับคลังข้อมูลที่สมดุลในวันนี้
คำถามที่สองเกี่ยวกับมาร์กอัปเนื้อหานั้นแก้ไขได้ยากกว่า มีโปรแกรมและอัลกอริธึมพิเศษที่ใช้สำหรับมาร์กอัปข้อความอัตโนมัติ แต่ไม่ได้ให้ผลลัพธ์ 100% อาจทำให้เกิดความล้มเหลวและต้องมีการปรับแต่งด้วยตนเอง โอกาสและปัญหาในการแก้ปัญหานี้มีรายละเอียดอยู่ในงานของ V. P. Zakharov เกี่ยวกับ corpus linguistics
มาร์กอัปข้อความดำเนินการในหลายระดับ ซึ่งเราจะแสดงรายการด้านล่าง
มาร์กอัปทางสัณฐานวิทยา
จากม้านั่งของโรงเรียน เราจำได้ว่าในภาษารัสเซียมีส่วนต่างๆ ของคำพูด และแต่ละส่วนก็มีลักษณะเฉพาะของตัวเอง ตัวอย่างเช่น กริยามีหมวดหมู่ของอารมณ์และความตึงเครียดที่คำนามไม่มี เจ้าของภาษาปฏิเสธคำนามและผันคำกริยาโดยไม่ลังเล แต่การใช้แรงงานคนไม่เหมาะสำหรับการทำเครื่องหมายคลังคำที่มีการใช้คำ 100 ล้านคำ คอมพิวเตอร์สามารถดำเนินการที่จำเป็นทั้งหมดได้ แต่ต้องได้รับการสอน
มาร์กอัปทางสัณฐานวิทยาจำเป็นสำหรับคอมพิวเตอร์ที่จะ "เข้าใจ" แต่ละคำในฐานะส่วนหนึ่งของคำพูดที่มีคุณสมบัติทางไวยากรณ์บางอย่าง เนื่องจากกฎปกติจำนวนหนึ่งทำงานในภาษารัสเซีย (เช่นเดียวกับในภาษาอื่น ๆ) จึงเป็นไปได้ที่จะสร้างขั้นตอนอัตโนมัติสำหรับการวิเคราะห์ทางสัณฐานวิทยาโดยใส่อัลกอริธึมจำนวนหนึ่งลงในเครื่อง อย่างไรก็ตาม มีข้อยกเว้นสำหรับกฎ เช่นเดียวกับปัจจัยที่ซับซ้อนต่างๆ ด้วยเหตุนี้ การวิเคราะห์ด้วยคอมพิวเตอร์ในปัจจุบันจึงห่างไกลจากอุดมคติ และข้อผิดพลาด 4% ก็ยังให้ค่า 4 ล้านคำในคลังข้อมูล 100 ล้านหน่วย ซึ่งต้องมีการปรับแต่งด้วยตนเอง
ปัญหานี้อธิบายโดยละเอียดโดยหนังสือ "Corpus Linguistics" ของ V. P. Zakharov
มาร์กอัปวากยสัมพันธ์
การวิเคราะห์หรือแยกวิเคราะห์วากยสัมพันธ์เป็นขั้นตอนที่กำหนดความสัมพันธ์ของคำในประโยค ด้วยความช่วยเหลือของชุดของอัลกอริธึม มันเป็นไปได้ที่จะกำหนดหัวเรื่อง เพรดิเคต การเพิ่ม และการเปลี่ยนคำพูดต่างๆ ในข้อความ โดยการค้นหาว่าคำใดในลำดับเป็นคำหลักและคำใดขึ้นอยู่กับ เราจึงสามารถดึงข้อมูลจากข้อความได้อย่างมีประสิทธิภาพและฝึกเครื่องให้ส่งคืนเฉพาะข้อมูลที่เราสนใจในการตอบสนองต่อคำขอค้นหา
อย่างไรก็ตาม เสิร์ชเอ็นจิ้นสมัยใหม่ใช้ข้อมูลนี้เพื่อให้ตัวเลขเฉพาะแทนที่จะใช้ข้อความยาวเพื่อตอบคำถามที่เกี่ยวข้อง เช่น "ผลแอปเปิลมีกี่แคลอรี" หรือ "ระยะทางจากมอสโกไปเซนต์ปีเตอร์สเบิร์ก" อย่างไรก็ตาม เพื่อให้เข้าใจถึงขั้นตอนพื้นฐานอย่างแท้จริง คุณจะต้องทำความคุ้นเคยกับ "Introduction to Corpus Linguistics" หรือหนังสือเรียนพื้นฐานอื่นๆ
มาร์กอัปความหมาย
ความหมายของคำคือ ความหมายง่ายๆ แนวทางที่ใช้กันอย่างแพร่หลายในการวิเคราะห์เชิงความหมายคือการระบุแหล่งที่มาของแท็กของคำ ซึ่งสะท้อนว่าอยู่ในชุดหมวดหมู่และหมวดหมู่ย่อยของความหมาย ข้อมูลดังกล่าวมีประโยชน์สำหรับการเพิ่มประสิทธิภาพอัลกอริธึมการวิเคราะห์ความคิดเห็นของข้อความ การอ้างอิงอัตโนมัติ และการทำงานอื่นๆ โดยใช้วิธีการทางภาษาศาสตร์ของคลังข้อมูล
มี "ราก" ของต้นไม้จำนวนหนึ่ง ซึ่งเป็นคำนามธรรมที่มีความหมายกว้างมาก เนื่องจากกิ่งก้านของต้นไม้นี้ โหนดจะก่อตัวขึ้นซึ่งมีองค์ประกอบศัพท์เฉพาะมากขึ้นเรื่อยๆ ตัวอย่างเช่น คำว่า "สิ่งมีชีวิต" สามารถเชื่อมโยงกับแนวคิดเช่น "มนุษย์" และ "สัตว์" คำแรกจะแยกย่อยออกเป็นอาชีพต่าง ๆ เงื่อนไขเครือญาติ สัญชาติ และคำที่สอง - ในชั้นเรียนและประเภทของสัตว์
การใช้ระบบดึงข้อมูล
ขอบเขตของการใช้ภาษาศาสตร์ของคลังข้อมูลครอบคลุมกิจกรรมที่หลากหลาย Corpora ใช้สำหรับรวบรวมและแก้ไขพจนานุกรม, สร้างระบบการแปลอัตโนมัติ, สรุป, แยกข้อเท็จจริง, กำหนดความรู้สึกและการประมวลผลข้อความอื่น ๆ
นอกจากนี้แหล่งข้อมูลดังกล่าวยังใช้อย่างแข็งขันในการศึกษาภาษาของโลกและกลไกการทำงานของภาษาโดยรวม การเข้าถึงข้อมูลที่เตรียมไว้ล่วงหน้าปริมาณมากมีส่วนช่วยในการศึกษาแนวโน้มการพัฒนาภาษาอย่างรวดเร็วและครอบคลุม การก่อตัวของ neologisms และการเปลี่ยนคำพูดที่มั่นคง การเปลี่ยนแปลงในความหมายของหน่วยคำศัพท์ ฯลฯ
เนื่องจากการทำงานกับข้อมูลปริมาณมากเช่นนี้ต้องใช้ระบบอัตโนมัติ วันนี้จึงมีการโต้ตอบกันอย่างใกล้ชิดระหว่างคอมพิวเตอร์และภาษาศาสตร์ของคลังข้อมูล
คลังภาษารัสเซียแห่งชาติ
คลังข้อมูลนี้ (ย่อมาจาก NKRC) มีคลังข้อมูลย่อยจำนวนหนึ่งที่อนุญาตให้ใช้ทรัพยากรเพื่อแก้ไขงานที่หลากหลาย
วัสดุในฐานข้อมูล NCRA แบ่งออกเป็น:
- ในสื่อสิ่งพิมพ์ในยุค 90 และ 2000ปีทั้งในและต่างประเทศ
- บันทึกคำพูด;
- ข้อความที่มีเครื่องหมายเน้นเสียง (เช่น มีเครื่องหมายเน้นเสียง);
- ภาษาถิ่น;
- งานกวี;
- วัสดุที่มีมาร์กอัปวากยสัมพันธ์ ฯลฯ
ระบบข้อมูลยังรวมถึงคลังย่อยที่มีการแปลงานคู่ขนานจากรัสเซียเป็นอังกฤษ เยอรมัน ฝรั่งเศส และภาษาอื่นๆ อีกมากมาย (และในทางกลับกัน)
นอกจากนี้ ฐานข้อมูลยังมีส่วนของข้อความทางประวัติศาสตร์ที่แสดงคำพูดเป็นภาษารัสเซียในช่วงต่างๆ ของการพัฒนา นอกจากนี้ยังมีคลังข้อมูลการฝึกอบรมที่เป็นประโยชน์สำหรับชาวต่างชาติในการเรียนรู้ภาษารัสเซีย
คลังศัพท์ประจำชาติของภาษารัสเซียประกอบด้วยหน่วยคำศัพท์ 400 ล้านหน่วยและนำหน้าส่วนสำคัญของภาษายุโรปในหลายๆ ด้าน
อนาคต
ความจริงที่เห็นด้วยว่าพื้นที่นี้มีแนวโน้มดีคือการมีอยู่ของห้องปฏิบัติการภาษาศาสตร์คลังข้อมูลในมหาวิทยาลัยของรัสเซีย เช่นเดียวกับในห้องปฏิบัติการในต่างประเทศ ด้วยการใช้และการวิจัยภายในกรอบของทรัพยากรการดึงข้อมูลที่พิจารณาแล้ว การพัฒนาบางพื้นที่ในด้านเทคโนโลยีชั้นสูง ระบบตอบคำถามมีความเกี่ยวข้องกัน แต่สิ่งนี้ถูกกล่าวถึงข้างต้น
คาดการณ์การพัฒนาเพิ่มเติมของภาษาศาสตร์คลังข้อมูลในทุกระดับ ตั้งแต่ด้านเทคนิค ในแง่ของการแนะนำอัลกอริธึมใหม่ที่ปรับกระบวนการค้นหาและประมวลผลข้อมูลให้เหมาะสม ขยายขีดความสามารถของคอมพิวเตอร์ เพิ่มการปฏิบัติงานความทรงจำและจบลงด้วยคนในบ้าน เมื่อผู้ใช้ค้นหาวิธีการใช้ทรัพยากรประเภทนี้ในชีวิตประจำวันและที่ทำงานมากขึ้นเรื่อยๆ
สรุป
ในช่วงกลางศตวรรษที่ผ่านมา ปี 2017 ดูเหมือนอนาคตอันไกลโพ้น ที่ยานอวกาศท่องไปในจักรวาลอันกว้างใหญ่และหุ่นยนต์ทำงานทั้งหมดเพื่อผู้คน อย่างไรก็ตาม ในความเป็นจริง วิทยาศาสตร์เต็มไปด้วย "จุดว่าง" และกำลังพยายามอย่างยิ่งที่จะตอบคำถามที่สร้างปัญหาให้กับมนุษยชาติมานานหลายศตวรรษ คำถามเกี่ยวกับการทำงานของภาษาเกิดขึ้นที่นี่ และคลังข้อมูลและภาษาศาสตร์เชิงคำนวณสามารถช่วยเราตอบได้
การประมวลผลข้อมูลจำนวนมากช่วยให้คุณตรวจจับรูปแบบที่ไม่สามารถเข้าถึงได้ก่อนหน้านี้ คาดการณ์การพัฒนาคุณสมบัติภาษาบางอย่าง ติดตามการก่อตัวของคำแบบเรียลไทม์
ในระดับสากลที่ใช้งานได้จริง corpora ถือได้ว่าเป็นเครื่องมือที่มีศักยภาพในการประเมินความเชื่อมั่นของสาธารณชน - อินเทอร์เน็ตเป็นฐานข้อมูลที่มีการปรับปรุงอย่างต่อเนื่องของข้อความต่าง ๆ ที่สร้างขึ้นโดยผู้ใช้จริง: ความคิดเห็นบทวิจารณ์บทความ และรูปแบบการพูดอื่นๆ มากมาย
นอกจากนี้ การทำงานกับ corpora มีส่วนช่วยในการพัฒนาวิธีการทางเทคนิคแบบเดียวกับที่เกี่ยวข้องกับการดึงข้อมูล ซึ่งเราคุ้นเคยจากบริการของ Google หรือ Yandex การแปลด้วยคอมพิวเตอร์ พจนานุกรมอิเล็กทรอนิกส์
พูดได้อย่างปลอดภัยว่าภาษาศาสตร์คลังข้อมูลเป็นเพียงก้าวแรกและจะพัฒนาอย่างรวดเร็วในอนาคตอันใกล้