‫ توصیف تصویر دیجیتال به زبان فارسی بر پایه یادگیری عمیق و جستجوی پرتو

توصیف تصویر دیجیتال به زبان فارسی بر پایه یادگیری عمیق و جستجوی پرتو

علی معرفی, همایون مهدوی نسب

چکیده

توصیف زبانی خودکار محتوای تصویر مسئله‌ای اساسی در زمینه هوش مصنوعی است که کاربردهای بسیاری در جستجو، بازیابی و دسته‌بندی تصاویر دارد. بیشتر تحقیقات موجود در این زمینه جهت زبان انگلیسی ارائه شده‌اند و مدل‌های اندکی برای زبان‌های دیگر وجود دارد. در این مقاله، یک معماری رمزگذار- رمزگشا مبتنی بر یادگیری عمیق جهت توصیف تصویر به زبان فارسی طراحی و مورد بررسی قرار گرفته که در آن یک شبکه کانولوشنی ویژگی‌های تصویر را استخراج و یک شبکه عصبی بازگشتی، با رمزگشایی لازم، عبارات فارسی متناسب را تولید می‌کند. با توجه به نقش تعیین‌کننده پایگاه داده در یادگیری عمیق و در دسترس نبودن پایگاه داده‌ی فارسی برای این کاربرد، با ترجمه و ویرایش توصیف‌های انگلیسی حدود 6000 تصویر از مجموعه استاندارد MSCOCO  یک پایگاه داده مناسب جهت آموزش یکپارچه سیستم ایجاد کردیم. جهت تعیین ساختار پیشنهادی، حالت‌های مختلف معماری مذکور با بکارگیری انواع شبکه‌های کانولوشنی، روشهای ممکن اتصال شبکه‌ها و اِعمال داده‌های آموزشی مورد بررسی قرار گرفته‌اند. ارزیابی‌های انجام شده دقت مطلوب ساختار پیشنهادی را به لحاظ معنایی و نیز دستور زبان نشان می‌دهند. از‌جمله امتیازهای 63/18% و 24/71% برای معیارهای BLEU1 و BLEU4  به‌دست آمده‌اند که با توجه به اندازه مجموعه‌ی آموزشی در مقایسه با پایگاه‌های داده انگلیسی قابل‌توجه به‌شمار می‌آید.

کلمات کلیدی

توصیف خودکار تصویر, یادگیری عمیق, پایگاه داده فارسی, شبکه عصبی بازگشتی, شبکه عصبی کانولوشنی, بردار ویژگی تصویر

مراجع

  • [1] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M.Bernstein, A. C. Berg, and L. Fei-Fei, “ImageNet Large Scale Visual Recognition Challenge,” Int. Journal of Computer Vision, vol. 115, pp. 211-252, 2015.
  • [2] M. Soh, “Learning CNN-LSTM Architectures for Image Caption Generation,” http://cs224d.stanford.edu/reports/msoh.pdf, Stanford University, USA, 2016.
  • [3] ن. محمدی نسب آباد، یک مدل مبتنی بر یادگیری عمیق به منظور عنوان¬بندی تصویر برای زبان فارسی، پایان¬نامه کارشناسی ارشد، دانشگاه تبریز، 1396.
  • [4] ن. حازم الرکابی، ن. صوفی، ه. صدوقی یزدی، ا. طاهری¬نیا، "شرح¬نگاری خودکار تصویر با روش چرخش بلاک اصلی"، نشریه مهندسی برق و مهندسی کامپیوتر ایران، سال 17، شماره 1. صفحه 36-25، 1398.
  • [5] ف. یغمایی، و. میهمی، ع. نوحی، "حاشیه¬نویسی خودکار تصاویر با استفاده از واژه-های بصری"، مجله پردازش سیگنال پیشرفته، جلد2، شماره 1، 1396.
  • [6] O. Vinyals, A. Toshev, S. Bengio, and D. Erhan, “Show and tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 4, pp. 652-663, 2017.
  • [7] T. Lin, "Microsoft coco: Common objects in context," Proc. Euro. Conf. Computer Vision (ECCV), pp. 740-755, 2014.
  • [8] A. Farhadi, M. Hejrati, M. A. Sadeghi, P. Young, C. Rashtchian, J. Hockenmaier, and D. Forsyth, “Every picture tells a story: Generating sentences from images,” Proc. Euro. Conf. Computer Vision (ECCV), pp. 15-29, 2010.
  • [9] A. Karpathy, and F.F. Li, “Deep visual-semantic alignments for generating image descriptions,” Proc. IEEE Conf. Computer Vision and Pattern Recognition (CVPR), pp. 3128-3137, 2015.
  • [10] H. Fang, S. Gupta, F. Iandola, R. Srivastava, L. Deng, P. Dollar, J. Gao, X. He, M. Mitchell, J. Platt, C. L. Zitnick, and G. Zweig, “From captions to visual concepts and back,” Proc. IEEE Conf. Computer Vision and Pattern Recognition (CVPR), pp. 1473-1482, 2015.
  • [11] P. H. Seo, P. Sharma, T. Levinboim, B. Han, and R. Soricut, “Reinforcing an Image Caption Generator Using Off-Line Human Feedback, ˮ arXiv: 1911.09753, 2019.
  • [12] N. Sharif, L. White, M Bennamoun, and S. A. A. Shah, “NNEval: Neural Network based Evaluation Metric for Image Captioning,ˮ Proc. Euro. Conf. Computer Vision (ECCV), pp. 37-53, 2018.
  • [13] S. Liu, L. Bai, Y. Ho, and H. Wang, “Image Captioning Based on Deep Neural Networks,” 2nd EITCE Int. Conf., 2018.
  • [14] R. Kiros, R. Salakhutdinov, and R. S. Zemel, “Unifying visual-semantic embeddings with multimodal neural language models,ˮ arXiv:1411.2539, 2014.
  • [15] J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell, “Long-term recurrent convolutional networks for visual recognition and description,ˮ Proc. IEEE Conf. Computer Vision and Pattern Recognition (CVPR), pp. 2625-2634, 2015.
  • [16] S. Hochreiter, and J. Schmidhuber, “Long short-term memory,ˮ Neural Computation, vol. 9, no. 8, pp. 1735–1780, Nov. 1997.
  • [17] J. Gu, K. Cho, and V. O. Li, “Empirical Analysis of Beam Search Performance Degradation in Neural Sequence Models,ˮ Proc. 36th Int. Conf. on Machine Learning (PMLR97), pp. 1290-1299, 2019.
  • [18] J. Gu, K. Cho, and V. O. Li, “Trainable greedy decoding for neural machine translation,ˮ Proc. Conf. Empirical Methods in Natural Language Processing (EMNLP), pp. 1968–1978, September, 2017.
  • [19] A. K. Vijayakumar, M. Cogswell, R. R. Selvaraju, Q. Sun,S. Lee, D. J. Crandall, and D. Batra, “Diverse beam search: Decoding diverse solutions from neural sequence models,” arXiv, 1610.02424, 2016.
  • [20] M. Hodosh, P. Young, and J. Hockenmaier, “Framing Image Description as a Ranking Task: Data, Models and Evaluation Metrics,ˮ Journal of Artificial Intelligence Research, vol. 47, pp. 853-899, 2013.
  • [21] B. A. Plummer, L. Wang, C. M. Cervantes, J. C. Caicedo, J. Hockenmaier, and S. Lazebnik, “Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models,ˮ arXiv: 1505.04870, 2016.
  • [22] Y. Bengio, R. Ducharme, P. Vincent, and C. Jauvin, “A neural probabilistic language model,” Journal of Machine Learning Research, vol. 3, pp. 1137–1155, Feb. 2003.
  • [23] T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, “Distributed Representations of Words and Phrases and their Compositionality,” Proc. Conf. Neural Information Processing Systems (NIPS), 2013.
  • [24] T. Mikolov, W.T. Yih, and G. Zweig, “Linguistic regularities in continuous space word representations,” Proc. NAACL-HLT Conf., pp. 746–751, June 2013.
  • [25] T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Efficient estimation of word representations in vector space,” arXiv: 1301.3781, 2013.
  • [26] J. Pennington, R. Socher, and C. Manning, “Glove: Global vectors for word representation,” Proc. Conf. Empirical Methods in Natural Language Processing (EMNLP), pp. 1532–1543, 2014.
  • [27] P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov, “Enriching Word Vectors with Subword Information,ˮ arXiv:1607.04606v2, 2017.
  • [28] A. Joulin, P. Bojanowski, T. Mikolov, H. Jegou, and E. Grave, “Loss in Translation:Learning Bilingual Word Mapping with a Retrieval Criterion,ˮ Proc. Conf. Empirical Methods in Natural Language Processing (EMNLP), Belgium, pp. 2979–2984, 2018.
  • [29] D. E. Rumelhart, G. E. Hinton, and R. J. Williams, “Learning representations by back-propagating errors,” Nature, vol. 323, pp. 533-536, 1986.
  • [30] K. He, X. Zhang, S. Ren, J. Sun, “Deep Residual Learning for Image Recognition,ˮ Proc. IEEE Conf. Computer Vision and Pattern Recognition (CVPR), pp. 770-778, 2016.
  • [31] S. J. Rennie, E. Marcheret, Y. M. Roueh, J. Ross, and V. Goel, “Self-critical Sequence Training for Image Captioning,” Proc. IEEE Conf. Computer Vision and Pattern Recognition (CVPR), pp. 7008-7024, 2017.
  • [32] J. Lu, C. Xiong, D. Parikh, and R. socher, “Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning,” Proc. IEEE Conf. Computer Vision and Pattern Recognition (CVPR), pp. 375-383, 2017.
  • [33] K. Xu, J. L-Ba, R. Kiros, K. Cho, A.courville, R. Salakhutdinov, R. S.Zemel, and Y. Bengio, “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention,ˮ Proc. 32nd Int. Conf. Machine Learning (PMLR37), Lille, France, pp. 2048-2057, 2015.
  • [34] J. L. Elman, Finding Structure in Time, Cognitive Science, Wiley Online Library, 1990.
  • [35] S. Hochreiter, “The Vanishing Gradient Problem During Learning Recurrent Neural Nets and Problem Solutions,” International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, vol. 6, no. 2, pp. 107-116, 1998.
  • [36] K. Cho, B. van Merrienboer, C. Gulcehre, F. Bougares, H. Schwenk, and Y. Bengio, “Learning phrase representations using RNN encoder-decoder for statistical machine translation,” Proc. Conf. Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar, pp. 1724–1734, Oct. 2014.
  • [37] P. Goyal, S. Pandey, and K. Jain, Deep Learning for Natural Language Processing, Apress: Berkeley, CA, 2018.
  • [38] R. Jozefowicz, W. Zaremba, and I. Sutskever, “An Empirical Exploration of Recurrent Network Architectures,ˮ Proc. 32nd International Conf. Machine Learning, pp. 2342-2350, 2015.
  • [39] A. Graves, “Generating Sequences with Recurrent Neural Networks,” arXiv:1308.0850v5, 2014.
  • [40] H. Inan, K. Khosravi, and R. Socher, “Tying Word Vectors and word Classifiers: a Loss Framework for Language Modeling,ˮ arXiv:1611.01462v3, 2017.
  • [41] H. Aldabbas, M. Asad, M. H. Ryalat, K. R. Malik, and M. Z. A. Qureshi, “Data Augmentation to Stabilize Image Caption Generation Models in Deep Learning,ˮ Int. Journal of Advanced Computer Science and Applications, vol. 10, no. 10, pp. 571-579, 2019.
  • [42] A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan, T. Killeen, Z. Lin, and N. Gimelshein, “PyTorch: An Imperative Style, High-Performance Deep Learning Library,ˮ Proc. 33ed Conf. Neural Information Processing Systems (NIPS), Vancouver, Canada, 2019.
  • [43] K. Tran, X. He, L. Zhang, and J. Sun, “Rich Image Captioning in the Wild,ˮ arXiv:1603.09016v2, 2016.
  • [44] K. Papineni, S. Roukos, T. Ward and W. Zhu, “BLEU: a Method for Automatic Evaluation of Machine Translation,ˮ Proc. 40th ACL Conf., pp. 311-318, Philadelphia, USA, July 2002.
  • [45] R. Vedantam, C. L. Zitnick, and D. Parikh, “CIDEr: Consensus-based Image Description Evaluation,ˮ Proc. EEE Conf. Computer Vision and Pattern Recognition (CVPR), pp. 4566-4575, 2015.
  • [46] S. Banerjee, and A. Lavie, “Meteor: An automatic metric for mtevaluation with improved correlation with human judgments,” Proc. ACL workshop, vol. 29, pp. 65–72, Ann Arbor, USA, June 2005.
  • [47] V. Jindal, “A Deep Learning Approach for Arabic Caption Generation Using Roots-Words,” Proc. 31th AAAI Conf. Artificial Intelligence, pp. 4941-4942, 2017.
  • [48] L. Gao, X. Li, J. Song, and H.T. Shen, “Hierarchical LSTMs with adaptive attention for visual captioning,” IEEE Trans. Patt. Anal. and Mach. Intell., vol. 42, no. 5, pp. 1112-1131, 2020.
  • [49] Z. J. Zha, D. Liu, H. Zhang, Y. Zhang, and F. Wu, “Context-aware visual policy network for fine-grained image captioning,” IEEE Trans. Patt. Anal. and Mach. Intell., Online: April 2019.