Item Infomation
Title: | Thu thập tự động các dị thể chữ Hán - Nôm để cải thiện chất lượng chuyển tự tự động từ chữ Nôm sang chữ Quốc ngữ |
Authors: | Võ Ngọc Tín Thái Hoàng Lâm Trương Nhật Ánh Đinh Điền |
Issue Date: | 11-2023 |
Publisher: | Viện Ngôn ngữ học. Viện Hàn lâm Khoa học Xã hội Việt Nam |
Citation: | Tạp chí Ngôn ngữ. – 2023. – Số 11 (397). – Tr. 4 - 9 |
Abstract: | Trong suốt thiên niên kỷ hình thành và phát triển, chữ Hán-Nôm bao gồm vô số biến thể cho cùng một nhân vật. Hiện tượng này đã đặt ra nhiều thách thức cho hệ thống phiên âm tự động từ chữ Hán Nôm sang chữ Quốc ngữ Việt Nam do kho đào tạo thiếu sự bao quát toàn diện về các ký tự biến thể này. Để giải quyết vấn đề này, nghiên cứu của chúng tôi đề xuất sử dụng phần mềm máy tính để tự động thu thập các biến thể Hán-Nôm từ các trang web có uy tín. Phương pháp thực hiện bao gồm các bước sau: thu thập tự động các biến thể Hán-Nôm từ Internet, xây dựng công cụ phân khúc dữ liệu tự động và áp dụng các phương pháp thống kê để xác minh chất lượng của kho dữ liệu được thu thập. Kết quả của phương pháp đề xuất của chúng tôi chứng minh sự mở rộng đáng kể của từ điển Hán-Nôm với vô số biến thể mới, do đó nâng cao độ chính xác của việc chuyển tự động từ chữ Hán-Nôm sang chữ quốc gia. : Throughout the millennium of formation and development, the Sino-Nom scripts encompass a multitude of variants for the same character. This phenomenon has posed many challenges for automatic transliteration systems from Sino-Nom scripts to Vietnamese National scripts as the training corpus lacks comprehensive coverage of these variant characters. To resolve this issue, our research proposes the use of computer software to automatically collect Sino-Nom variants from reputable websites. The implementation method involves the following steps: collecting automatically Sino-Nom variants from the Internet, building a tool for automated data exfraction and applying statistical methods to verify the quality of the collected data repository. The results of our proposed method demonstrate a substantial expansion of the Sino-Nom dictionary with a multitude of new variants, thereby enhancing the accuracy of automatic transliteration from Sino-Nom scripts to national scripts. |
URI: | http://elib.hcmussh.edu.vn/handle/HCMUSSH/140097 |
ISSN: | 0866-7519 |
Appears in Collections | Bài trích |
ABSTRACTS VIEWS
55
VIEWS & DOWNLOAD
0
Files in This Item: