Ứng dụng các kỹ thuật tìm kiếm thông tin cho hệ thống chia sẻ tài nguyên học tập
Abstract
The demand for sharing and accessing learning resources is increasing in modern education, especially in the context of online learning and self-study. This necessitates an effective system for managing quality content and meeting users’ complex search needs. This research develops a learning resource sharing system based on a Client-Server model, addressing two main issues: (1) content management with a duplication checking feature and (2) supporting resource search and discussion topics. A strict role-based access control system is designed to enable administrators and users to perform different tasks according to their roles. To ensure content quality, the study utilizes an improved Jaccard similarity measure, which helps detect document duplicates with high accuracy, especially in cases with heterogeneous keywords. Regarding search functionality, the system integrates query expansion with PhoBERT to automatically add related keywords, significantly expanding the search scope and providing users with more options. Testing results show that the system performs highly effectively in content management, with the improved Jaccard measure outperforming the conventional Jaccard in complex scenarios. The search functionality, tested with 50 sample queries, demonstrates the system's ability to return relevant results that meet user needs. However, the query expansion feature still has some limitations in the accuracy of suggested keywords. This study not only improves information retrieval efficiency but also aids learners in accessing and utilizing learning resources more effectively.
Tóm tắt
Nhu cầu chia sẻ và truy cập tài nguyên học tập ngày càng tăng trong giáo dục hiện đại, đặc biệt là trong bối cảnh học trực tuyến và tự học, đòi hỏi một hệ thống hiệu quả để quản lý nội dung chất lượng và đáp ứng các nhu cầu tìm kiếm phức tạp từ người dùng. Nghiên cứu này phát triển một hệ thống chia sẻ tài nguyên học tập trên mô hình Client-Server, giải quyết hai vấn đề chính: (1) quản lý nội dung với tính năng kiểm tra trùng lặp và (2) hỗ trợ tìm kiếm tài nguyên và các chủ đề thảo luận. Phân quyền chặt chẽ được thiết kế để quản trị viên và người dùng có thể thực hiện các tác vụ khác nhau, phù hợp với vai trò của họ. Để đảm bảo chất lượng nội dung, nghiên cứu sử dụng độ đo tương đồng Jaccard cải tiến, giúp phát hiện trùng lặp tài liệu với độ chính xác cao, đặc biệt trong các trường hợp có từ khóa không đồng nhất. Về tính năng tìm kiếm, hệ thống tích hợp mở rộng truy vấn với PhoBERT để tự động bổ sung các từ khóa liên quan, mở rộng đáng kể phạm vi tìm kiếm và mang lại nhiều lựa chọn hơn cho người dùng. Kết quả kiểm thử cho thấy hệ thống đạt hiệu quả cao trong quản lý nội dung, với độ chính xác vượt trội của Jaccard cải tiến so với Jaccard thông thường trong các kịch bản phức tạp. Tính năng tìm kiếm, qua 50 mẫu thử, thể hiện khả năng trả về kết quả phù hợp, đáp ứng tốt nhu cầu người dùng. Tuy nhiên, mở rộng truy vấn vẫn còn một số hạn chế về độ chính xác của từ khóa gợi ý. Nghiên cứu này không chỉ góp phần nâng cao hiệu quả truy xuất thông tin mà còn hỗ trợ người học trong việc tiếp cận và khai thác tài nguyên học tập một cách hiệu quả nhất.
Tài liệu tham khảo
[1] Q. D. Truong, T. Dkaki, J. Mothe, and P.-J. Charrel, “GVC: a graph-based Information Retrieval Mode.,” in CORIA, 2008, pp. 337–351. Accessed: Nov. 21, 2023. [Online]. Available: https://asso-aria.org/coria/2008/337.pdf
[2] D. Gunawan, C. A. Sembiring, and M. A. Budiman, “The implementation of cosine similarity to calculate text relevance between two documents,” in Journal of physics: conference series, IOP Publishing, 2018, p. 012120. Accessed: Nov. 21, 2023. [Online]. Available: https://iopscience.iop.org/article/10.1088/1742-6596/978/1/012120/meta
[3] T. H. Y. Trần, “Ứng dụng các kỹ thuật tìm kiếm thông tin vào hệ thống tìm kiếm ảnh dựa trên nội dung,” PhD Thesis, Trường Đại học Bách khoa Hà Nội, 2013. Accessed: Nov. 21, 2023. [Online]. Available: https://dlib.hust.edu.vn/handle/HUST/17102
[4] Trần T. T., Trần T. N. T., and Trương Q. Đ., “Ứng dụng các kỹ thuật tìm kiếm thông tin cho bài toán kiểm tra sao chép luận văn,” in Hội thảo toàn quốc về công nghệ thông tin 2017, Cần Thơ, Viêt Nam, 2017.
[5] T. L. Vũ, T. H. Nguyễn, and T. T. H. Trần, “Xây dựng ứng dụng web để chia sẻ tài liệu học tập cho sinh viên ngành Công nghệ thông tin - Học viện nông nghiệp Việt Nam,” Tạp Chí Khoa Học Nông Nghiệp Việt Nam, vol. 19, no. 4, pp. 507–519, 2020.
[6] S. Niwattanakul, J. Singthongchai, E. Naenudorn, and S. Wanapu, “Using of Jaccard coefficient for keywords similarity,” in Proceedings of the international multiconference of engineers and computer scientists, 2013, pp. 380–384. Accessed: Dec. 12, 2024. [Online]. Available: https://www.iaeng.org/publication/IMECS2013/IMECS2013_pp380-384.pdf
[7] M.-C. Kim and K.-S. Choi, “A comparison of collocation-based similarity measures in query expansion,” Inf. Process. Manag., vol. 35, no. 1, pp. 19–30, 1999.
[8] S. Bag, S. K. Kumar, and M. K. Tiwari, “An efficient recommendation generation using relevant Jaccard similarity,” Inf. Sci., vol. 483, pp. 53–64, 2019.
[9] A. A. Amer and L. Nguyen, “Combinations of Jaccard with Numerical Measures for Collaborative Filtering Enhancement: Current Work and Future Proposal,” Nov. 24, 2021, arXiv: arXiv:2111.12202. doi: 10.48550/arXiv.2111.12202.
[10] T. Vu, D. Q. Nguyen, D. Q. Nguyen, M. Dras, and M. Johnson, “VnCoreNLP: A Vietnamese Natural Language Processing Toolkit,” in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, 2018, pp. 56–60. doi: 10.18653/v1/N18-5012.
[11] D. Q. Nguyen and A. T. Nguyen, “PhoBERT: Pre-trained language models for Vietnamese,” Oct. 05, 2020, arXiv: arXiv:2003.00744. Accessed: Aug. 30, 2024. [Online]. Available: http://arxiv.org/abs/2003.00744
[12] K. Quoc Tran, A. Trong Nguyen, P. G. Hoang, C. D. Luu, T.-H. Do, and K. Van Nguyen, “Vietnamese hate and offensive detection using PhoBERT-CNN and social media streaming data,” Neural Comput. Appl., vol. 35, no. 1, pp. 573–594, Jan. 2023, doi: 10.1007/s00521-022-07745-w.