Xây dựng kho ngữ liệu du lịch song ngữ Việt–Anh gióng hàng mức câu cho dịch máy
Kho ngữ liệu song ngữ được gióng hàng mức câu là một dạng tài nguyên ngôn ngữ quan trọng được sử dụng trong nhiều ứng dụng của xử lý ngôn ngữ tự nhiên, như: nghiên cứu ngôn ngữ học so sánh, tìm kiếm thông tin xuyên ngữ, xây dựng từ điển song ngữ. Đặc biệt trong lĩnh vực dịch máy, chất lượng và độ lớn của kho ngữ liệu song ngữ có vai trò quyết định đến chất lượng dịch. Các hệ thống dịch máy hiện nay vẫn cần được cải tiến để xử lý nhiều hiện tượng ngôn ngữ. Các hệ thống dịch máy huấn luyện trên miền tổng quát thường có chất lượng kém khi ứng dụng vào văn bản trên miền hạn chế. Một giải pháp cho vấn đề này là kết hợp mô hình dịch trên miền tổng quát và miền hạn chế. Để làm được điều đó, việc xây dựng được kho ngữ liệu trên miền hạn chế là rất cần thiết. Bài báo này trình bày việc xây dựng một kho ngữ liệu song ngữ Việt–Anh trong lĩnh vực du lịch và cải thiện một công cụ gióng hàng ở mức câu đã có cho văn bản song ngữ Việt–Anh, đạt được độ chính xác trên 90% cho các tập dữ liệu của chúng tôi. Với sự trợ giúp của công cụ này, chúng tôi đã xây dựng được kho ngữ liệu song ngữ Việt–Anh miền du lịch có gióng hàng mức câu, cho phép huấn luyện mô hình dịch máy Việt–Anh tăng được khoảng 8; 79 điểm BLEU so với các mô hình được huấn luyện trên miền tổng quát.References
Philipp Koehn, MOSES Statistical Machine Translation System User Manual and Code Guide, September 19, 2016.
Quoc-Hung Ngo, Werner Winiwarter, Building an English-Vietnamese Bilingual Corpus for Machine Translation, International Conference on Asian Language Processing 2012, pp. 157-160. IEEE Computer Society, 2012.
Đinh Điền, Lý Ngọc Minh, “Ứng dụng Ngữ liệu Song ngữ Anh-Việt trong Giảng dạy Ngôn ngữ”, hội thảo Liên ngành NNH Ứng dụng & Giảng dạy Ngôn ngữ, 11/2015, Huế, tr.559-567.
Mohammed M. Sakre, Mohammed M. Kouta, Ali M. N. Allam, automated construction of Arabic-English parallel corpus, Arab World English Journal (AWEJ) Special Issue on Translation No.5 May, 2016.
Peter F. Brown and Jennifer C. Lai and Robert L. Mercer, Aligning sentences in parallel corpora, Proceedings of the 29th Annual Meeting of the Association of Computational Linguistics (ACL), 1991.
William A. Gale and Kenneth Ward Church, A program for Aligning sentences in bilingual corpora, Proceedings of the 29th Annual Meeting of the Association of Computational Linguistics (ACL), 1991.
Martin Kay and Martin Röscheisen, Text-Translation Alignment, Computational Linguistics, 1993.
Stanley F. Chen, Aligning sentences in bilingual corpora using lexical information, Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics (ACL), 1993.
Michel Simard and Pierre Plamondon, Bilingual sentence alignment: Balancing Robustness and accuracy, Proceedings of the Conference of the Association for Machine Translation in the Americas, 1998.
Laurent Romary, Patrice Bonhomme. Parallel alignment of structured documents. Jean Véronis. Parallel Text Processing, Kluwer Academic Publisher, pp.233-253, 2000.
Nguyễn Thị Minh Huyền and Mathias Rossignol, A language-independent method for the alignement of parallel corpora, Proceedings of 20th Pacific Asia Conference on Language, Information and Computation (PACLIC), 2006.
Hai-Long Trieu, Phuong-Thai Nguyen, Le-Minh Nguyen, A New Feature to Improve Moore’s Sentence Alignment Method, VNU Journal of Science: Comp. Science & Com. Eng. Vol. 31. No. 1 (2015) 32–44.
Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu, BLEU: a Method for Automatic Evaluation of Machine Translation, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, pp. 311-318, July 2002.