Truy xuất hình ảnh sử dụng phương pháp Kết hợp xếp hạng và vision transformer
Abstract
Image retrieval is an important task in computer vision that involves retrieving relevant images from image databases based on their visual content. Traditional methods may not capture the semantic meaning of images effectively, leading to suboptimal retrieval results. In this paper, we propose a Content-Based Images Retrieval (CBIR) method based on Vision Transformer network architecture combined with the VisualRank method to rank images based on their similarity of images with query images. Through the training results, the proposed model has an accuracy of up to 97%.
Tóm tắt
Truy xuất hình ảnh là một nhiệm vụ quan trọng trong thị giác máy tính liên quan đến việc truy xuất các hình ảnh có liên quan từ cơ sở dữ liệu hình ảnh dựa trên nội dung trực quan của chúng. Phương pháp truyền thống có thể không nắm bắt được ý nghĩa ngữ nghĩa của hình ảnh một cách hiệu quả, dẫn đến kết quả truy xuất dưới mức tối ưu. Trong bài báo này, chúng tôi đề xuất phương pháp truy xuất hình ảnh theo nội dung (Content Based Images Retrieval - CBIR) dựa trên kiến trúc mạng Vision Transformer kết hợp phương pháp VisualRank để xếp hạng các hình ảnh dựa trên sự tương đồng của chúng với hình ảnh truy vấn. Qua kết quả đào tạo cho thấy mô hình đề xuất đạt độ chính xác lên đến 97%.
Tài liệu tham khảo
[1] Abbas A. H., Mirza N. M., Qassir S. A., & Abbas L. H. - Maize leaf images segmentation using color threshold and K-means clustering methods to identify the percentage of the affected areas, In IOP Conference Series: Materials Science and Engineering 745 (1) (2020, February), 012048, IOP Publishing.
[2] ACI. http://www.aci.aero/ (2015)
[3] C. Chute - Worldwide Digital Image 2015–2019 Forecast: The Image Capture and Share Bible, International Data Corporation. (2015) p.13.
[4] Cyril Goutte, Eric Gaussier, “A Probabilistic Interpretation of Precision, Recall and F-Score, with Implication for Evaluation”, In: European Conference on Information Retrieval (ECIR), 2005
[5] Dosovitskiy, A.; Beyer, L.; Kolesnikov, A.; Weissenborn, D.; Zhai, X.; Unterthiner, T.; Dehghani, M.; Minderer, M.; Heigold, G.; Gelly, S.; et al. An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale. arXiv 2020, arXiv:2010.11929.
[6] Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger, “Densely Connected Convolutional Networks,” arXiv:1608.06993, 2016.
[7] Han L., Tian Y., Qi Q. - Research on edge detection algorithm based on improved sobel operator, In MATEC Web of Conferences: EDP Sciences (309) (2020) 03031.
[8] Hochreiter, S. and Schmidhuber, J., 1997. Long short-term memory. Neural computation, 9(8), pp.1735-1780
[9] Hong Hui Tan, King Hann Lim, “Vanishing Gradient Mitigation with Deep Learning Neural Network Optimization,” In: 2019 7th International Conference on Smart Computing & Communications (ICSCC), 2019.
[10] https://arxiv.org/pdf/2010.11929.pdf
[12] https://www.pluralsight.com/guides/introduction-to-lstm-units-in-rnn
[13] https://paperswithcode.com/datasets
[14] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, “Deep Residual Learning for Image Recognition,” arXiv:1512.03385, 2015.