دانشکده فناوری اطلاعات و مهندسی کامپیوتر، دانشگاه شهید مدنی آذربایجان، تبریز
چکیده
اندازهگیری شباهت متن یکی از اصلیترین عملیات در کاربردهای مرتبط با متن نظیر بازیابی اطلاعات، خوشهبندی متن، سیستمهای پرسش و پاسخ است. هدف این مطالعه ارائه رویکردی برای بهبود دقت مدلهای یادگیری عمیق در اندازهگیری تشابه متون است. بدین منظور یک رویکرد ترکیبی مبتنی بر شبکه عصبی سیامی و ویژگیهای شباهت لغوی ارائه میشود. شبکه سیامی پیشنهادی شامل دو زیر شبکه یکسان است که اجزای اصلی هر کدام از آنها به صورت کلی شامل یک لایه تعبیه کلمات و شبکه عصبی عمیق است. با در نظر گرفتن سه نوع شبکه عصبی عمیق شامل شبکه عصبی پیچشی، شبکه حافظه کوتاهمدت طولانی و شبکه حافظه کوتاهمدت طولانی دوطرفه و همچنین دو نوع مدل تعبیه کلمات به همراه ویژگیهای شباهت لغوی، گونههای مختلفی از مدلها پیادهسازی میشود. نتایج آزمایشها روی سه مجموعه داده مورد استفاده نشان میدهد مدل شبکه عصبی سیامی ترکیبی مبتنی بر شبکه پیچشی و ویژگیهای لغوی بالاترین مقدار همبستگی پیرسون و کمترین مقدار میانگین مربع خطاها (MSE) را در بین مدلها به دست میآورد. همچنین نتایج بدست آمده حاکی از عملکرد موفق مدل پیشنهادی نسبت به مدلهای تحقیقات قبلی در معیارهای ضریب همبستگی و MSE است.
[1] S. Abujar, M. Hasan, and S. A. Hossain, "Sentence similarity estimation for text summarization using deep learning," Proc. The 2nd International Conference on Data Engineering and Communication Technology, 2019.
[2] M. Farouk, "Measuring text similarity based on structure and word embedding," Cognit Syst Res, vol. 63, pp. 1-10, 2020.
[3] Z. Li, H. Chen, and H. Chen, "Biomedical Text Similarity Evaluation Using Attention Mechanism and Siamese Neural Network," IEEE Access, vol. 9, pp. 105002-105011, 2021.
[4] J. Yang, Y. Li, C. Gao, and Y. Zhang, "Measuring the short text similarity based on semantic and syntactic information," Future Generation Computer Systems, vol. 114, pp. 169-180, 2021.
[5] A. Pawar and V. Mago, "Calculating the similarity between words and sentences using a lexical database and corpus statistics," arXiv preprint arXiv:1802.05667, 2018.
[6] W. H. Gomaa and A. A. Fahmy, "A survey of text similarity approaches," International Journal of Computer Applications, vol. 68, no. 13, pp. 13-18, 2013.
[7] M. Han, X. Zhang, X. Yuan, J. Jiang, W. Yun, and C. Gao, "A survey on the techniques, applications, and performance of short text semantic similarity," Concurrency and Computation: Practice and Experience, vol. 33, no. 5, p. e5971, 2021.
[8] D. W. Prakoso, A. Abdi, and C. Amrit, "Short text similarity measurement methods: a review," Soft Computing, pp. 1-25, 2021.
[9] T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient estimation of word representations in vector space," arXiv preprint arXiv:1301.3781, 2013.
[10] T. Kenter and M. De Rijke, "Short text similarity with word embeddings," Proc. 24th ACM international on conference on information and knowledge management, 2015.
[11] T. Ranasinghe, C. Orǎsan, and R. Mitkov, "Semantic textual similarity with siamese neural networks," Proc. International Conference on Recent Advances in Natural Language Processing (RANLP 2019), 2019.
[12] J. Mueller and A. Thyagarajan, "Siamese recurrent architectures for learning sentence similarity," Proc. AAAI Conference on Artificial Intelligence, 2016.
[13] P. Neculoiu, M. Versteegh, and M. Rotaru, "Learning text similarity with siamese recurrent networks," Proc. 1st Workshop on Representation Learning for NLP, 2016.
[14] J. V. A. de Souza, L. E. S. E. Oliveira, Y. B. Gumiel, D. R. Carvalho, and C. M. C. Moro, "Exploiting Siamese Neural Networks on Short Text Similarity Tasks for Multiple Domains and Languages," Proc. Computational Processing of the Portuguese Language, Cham, 2020.
[15] Z. Li, H. Lin, W. Zheng, M. M. Tadesse, Z. Yang, and J. Wang, "Interactive self-attentive siamese network for biomedical sentence similarity," IEEE Access, vol. 8, pp. 84093-84104, 2020.
[16] M. Farouk, "Sentence Semantic Similarity based on Word Embedding and WordNet," Proc. 13th International Conference on Computer Engineering and Systems (ICCES), 2018.
[17] R. Qu, Y. Fang, W. Bai, and Y. Jiang, "Computing semantic similarity based on novel models of semantic representation using Wikipedia," Information Processing & Management, vol. 54, no. 6, pp. 1002-1021, 2018.
[18] Y. M’rabet, H. Kilicoglu, and D. Demner-Fushman, "TextFlow: A text similarity measure based on continuous sequences," Proc. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2017.
[19] Y. Liu, C.-J. Sun, L. Lin, X. Wang, and Y. Zhao, "Computing semantic text similarity using rich features," Proc. Proceedings of the 29th Pacific Asia Conference on Language, Information and Computation, 2015.
[20] S. Hochreiter and J. Schmidhuber, "Long short-term memory," Neural Comput, vol. 9, no. 8, pp. 1735-1780, 1997.
[21] S. Cornegruta, R. Bakewell, S. Withey, and G. Montana, "Modelling radiological language with bidirectional long short-term memory networks," arXiv preprint arXiv:1609.08409, 2016.
[22] R. Islamaj, W. J. Wilbur, N. Xie, N. R. Gonzales, N. Thanki, R. Yamashita, et al., "PubMed Text Similarity Model and its application to curation efforts in the Conserved Domain Database," Database, vol. 2019, 2019.
خلج,فریبا و عباسیمهر,حسین . (1401). پیشبینی شباهت متن با استفاده از یک شبکه عصبی سیامی مبتنی بر شبکه عمیق و ویژگیهای شباهت لغوی. (e161885). علوم رایانش و فناوری اطلاعات, (), e161885
MLA
خلج,فریبا , و عباسیمهر,حسین . "پیشبینی شباهت متن با استفاده از یک شبکه عصبی سیامی مبتنی بر شبکه عمیق و ویژگیهای شباهت لغوی" .e161885 , علوم رایانش و فناوری اطلاعات, , , 1401, e161885.
HARVARD
خلج فریبا, عباسیمهر حسین. (1401). 'پیشبینی شباهت متن با استفاده از یک شبکه عصبی سیامی مبتنی بر شبکه عمیق و ویژگیهای شباهت لغوی', علوم رایانش و فناوری اطلاعات, (), e161885.
CHICAGO
فریبا خلج و حسین عباسیمهر, "پیشبینی شباهت متن با استفاده از یک شبکه عصبی سیامی مبتنی بر شبکه عمیق و ویژگیهای شباهت لغوی," علوم رایانش و فناوری اطلاعات, (1401): e161885,
VANCOUVER
خلج فریبا, عباسیمهر حسین. پیشبینی شباهت متن با استفاده از یک شبکه عصبی سیامی مبتنی بر شبکه عمیق و ویژگیهای شباهت لغوی. علوم رایانش و فناوری اطلاعات, 1401; (): e161885.