
ქართული ენის მორფოსინტაქსური კომპიუტერული ანალიზი და უნივერსალურ სინტაქსურ დამოკიდებულებათა ანოტირების ხელსაწყოები
სინტაქსური სტრუქტურის წარმოდგენა დამოკიდებულებათა სქემების სახით წარმოადგენს სინტაქსური პარსინგის საფუძველს და, ქმნის სინტაქსური კომპიუტერული კვლევების განხორციელების წინაპირობას მულტილინგვური თვალსაზრისით. სინტაქსურ დამოკიდებულებათა სქემების შერჩევა ქართული ენის შემთხვევაში დამოკიდებულია, ერთი მხრივ, ქართული სინტაქსის თეორიულ საკითხებზე, ხოლო, მეორე მხრივ, ბუნებრივი ენის დამუშავების არსებულ რესურსებზე (როგორიცაა ენის კორპუსები, მორფოსინტაქსური ანალიზატორი და სხვ.), კროს-ლინგვისტურ ჭრილში კი დამოკიდებულია ანოტირების არსებული სქემების ტიპოლოგიურ სხვაობაზე ქართულ ენასთან მიმართებით. აღნიშნული ამოცანების გადაწყვეტის თეორიულ საფუძველს შემზღუდველების გრამატიკა (Constraint Grammar, CG) წარმოადგენს, რომელიც განეკუთვნება ბუნებრივი ენის დამუშავების ცენტრალურ მეთოდოლოგიურ პარადიგმას და განაპირობებს კონტექსტზე-ორიენტირებულ წესებზე დაყრდნობით კონკრეტული ენის შესაბამისი კომპიუტერული გრამატიკის შექმნას, ხოლო პრაქტიკულ რეალიზებას ორი კომპიუტერული რესურსი სჭირდება:
● ინტერაქტიული სინტაქსის ვიზუალური დასწავლის მოდელი (Visual Interactive Syntax Learning, VISL) და,
● უნივერსალურ დამოკიდებულებათა რესურსები (Universal Dependencies (UD) tools) .
ინტერაქტიული სინტაქსის ვიზუალური დასწავლა ემსახურება ორი ტიპის ხეთა ბანკების შექმნას: ა) წინასწარ შერჩეული მცირე რაოდენობის წინადადებებისგან შემდგარ ხეთა პატარა ბანკებს, რომლებიც გამოიყენება პედაგოგიური მიზნებისათვის და, ბ) კორპუსიდან ან ნებისმიერი ტექსტიდან ამოღებული წინადადებების ხეთა დიდ ბანკებს. ამ მხრივ, გასათვალისწინებელია, რომ მიუხედავად ონლაინ სივრცეში არსებული რესურსებისა (ქართული ენის ეროვნული კორპუსი (ქეგლ), ქართული ენის კორპუსი (ქეკ) და სხვ.), ქართული ენის ხეთა ბანკი დღემდე არ არსებობს - ამ მხრივ გამონაკლისს პარალელურ ხეთა ბანკის შექმნის მცდელობა წარმოადგენს ქართული-რუსული-უკრაინული და გერმანული ენებისათვის, რომლის საფუძველს ხელით ანოტირება წარმოადგენდა, თუმცა ქართულენოვანი მასალის რაოდენობა არ ქმნის წინაპირობას აღნიშნული რესურსის სამანქანო დასწავლის დროს გამოყენებისათვის.
უნივერსალურ დამოკიდებულებათა რესურსები კი ემსახურება ხეთა ბანკების კროს-ლინგვისტური ანოტირების უზრუნველყოფას მულტილინგვური პარსერის შემუშავებასა და კროს-ლინგვისტურ დასწავლას ლინგვისტური ტიპოლოგიის პერსპექტივიდან გამომდინარე და, რადგანაც ქართული ენის ხეთა ბანკი არ არსებობს, არც უნივერსალურ დამოკიდებულებათა სინტაქსური მოდელის კვლევა განხორციელებულა ქართული ენის პერსპექტივიდან გამომდინარე.
შესაბამისად, პროექტის მთავარ ამოცანებს წარმოადგენს:
1. გრამატიკული ომონიმიის მოხსნა და ქართული ენისთვის შემზღუდველების გრამატიკული ჩარჩოს შემუშავება, რომელიც ემსახურება: ა) ტექსტის თითოეული ტოკენისთვის შესაბამისი მორფოსინტაქსური ინფორმაციის მიწერას; ბ) შემავალი სტრიქონის ანალიზის განხორციელებას იმის გათვალისწინებით, რომ ტექსტში შეიძლება იყოს ორთოგრაფიული შეცდომები, დიალექტური ფორმები და ფრაზეოლოგიზმები; გ) ალტერნატიული გარჩევის შენარჩუნებას, თუ გრამატიკული ომონიმიის მოხსნა რთულდება;
2. ქართული ენის სინტაქსურ დამოკიდებულებათა ანოტირების სქემის განსაზღვრა, რომელიც ემსახურება: ა) ქართული ენის სინტაქსური ფუნქციებისა და დამოკიდებულებათა კავშირების დადგენას; ბ) დამოკიდებულებათა ანოტირების სქემების შემუშავებას; გ) დამოკიდებულებათა ავტომატური ანალიზის განხორციელებას, და, დ) ქართული სატესტო ხეთა ბანკის შექმნას;
3. ქართული ენის უნივერსალურ დამოკიდებულებათა ანოტირების სქემის შემუშავება, რომელიც უზრუნველყოფს შემუშავებული ანოტირების სქემების თავსებადობას კროს-ლინგვისტურ ჭრილში და განაპირობებს უნივერსალურ დამოკიდებულებათა გავრცობას ქართული ენის მასალით.
პროექტები » ყველას ნახვა