دسته‌بندی و حاشیه‌نویسی همزمان تصویر با استفاده از مدل‌های احتمالاتی موضوع و کدگذاری LLC کلمات بصری

نویسندگان

دانشکده مهندسی ﻛﺎﻣﭙﻴﻮﺗﺮ و ﻓﻨﺎوری اﻃﻼﻋﺎت، دانشگاه ﺻﻨﻌﺘی اﻣﻴﺮﻛﺒﻴﺮ، ﺗﻬﺮان، ایران

چکیده

تا‌کنون تلاش‌های زیادی به منظور استفاده از مدل‌های موضوعی نظیر مدل احتمالاتی LDA جهت دسته‌بندی و حاشیه‌نویسی همزمان تصاویر صورت گرفته ‌است. اخیراً مدل‌های موضوع دیگری بر مبنای شبکه‌های عصبی احتمالاتی نظیر SupDocNADE معرفی شده‌اند که نتایج خوبی در مدل‌کردن داده‌های چند‌مقداری ارائه ‌داده‌اند. در این مدل‌ها کلمات حاشیه‌نویسی نیز در کنار کلمات بصری تعبیه شده‌ و به عنوان بردار ویژگی برای شبکه در‌ نظر گرفته می‌شود. عدم‌تعادل در تعداد کلمات بصری و حاشیه‌نویسی سبب می‌شود تا سهم کلمات حاشیه‌نویسی برای بازنمایی در لایه پنهان شبکه‌عصبی مورد استفاده در این مدل، بسیار کمتر از کلمات بصری باشد. برای حل این مشکل در این مقاله، کلمات حاشیه‌نویسی در هیستوگرام بردار ویژگی وزن‌دهی می‌شوند. با افزودن قابلیت وزن‌دهی ورودی‌ها می‌توان از کدگذار LLC که چندین کلمه مشابه در فرهنگ لغت را بصورت وزن‌دار در ساخت بردار ویژگی دخیل می‌کند، برای تولید کلمات بصری استفاده نمود. با آزمایش مدل پیشنهادی بر روی پایگاه داده‌های UIUC_Sports و LabelMe، بهبود 5 درصدی در معیار F در کلمات حاشیه‌نویسی و بهبود 1 درصدی در دقت دسته‌بندی نسبت به مدل‌های موجود مشاهده می‌شود.

کلیدواژه‌ها

  • [1] L.-J. Li, and L. Fei-Fei, "What, where and who?classifying events by scene and object recognition," in Computer Vision IEEE 11th International Conference on, pp.1–8, 2007.
  • [2] D. M. Blei, and M. I. Jordan, "Modeling annotated data,"inProceedings of the 26th annual international ACM SIGIRconference on Research and development in informaionretrieval, pp. 127–134, 2003.
  • [3] D. M. Blei, A. Y. Ng, and M. I. Jordan, "Latent dirichletallocation," inJournal of machine Learning research, vol. 3,no. Jan, pp. 993–1022, 2003.
  • [4] D. M. Blei, "Probabilistic topic models," in Communications of the ACM, vol. 55, no. 4, pp. 77–84,2012.
  • [5] L. Fei-Fei, and P. Perona, "A bayesian hierarchical modelfor learning natural scene categories," inComputer Visionand Pattern Recognition IEEEComputer Society Conferenceon, vol. 2, pp. 524–531, 2005.
  • [6] J. D. Mcauliffe, and D.M. Blei, "Supervised topicmodels," inAdvances in neural information processingsystems, pp. 121–128, 2008.
  • [7] W. Chong, D. Blei, and F.-F. Li, "Simultaneous imageclassification and annotation," inComputer Vision andPattern Recognition IEEE Conference on, pp. 1903–1910,2009.
  • [8] L.-J. Li, R. Socher, and L.Fei-Fei, "Towards total sceneunderstanding: Classification, annotation and segmentationin an automatic framework," inComputer Vision and PatternRecognition IEEE Conference on, pp. 2036–2043, 2009.
  • [9] X. LI, C. SUN, L. U. Peng, X. WANG, and Y. ZHONG, "Simultaneous image classification and annotation based onprobabilistic model," inJournal of China Universities ofPosts and Telecommunications,vol. 19, no. 2, pp. 107–115,2012.
  • [10] Y. Wang, and G. Mori, "Max-margin Latent DirichletAllocation for Image Classification and Annotation," in BMVC, vol. 2, no. 6, pp. 7, 2011.
  • [11] G. E. Hinton, and R. R. Salakhutdinov, "Replicatedsoftmax: an undirected topic model," inAdvances in neuralinformation processing systems, pp. 1607–1614, 2009.
  • [12] R. Salakhutdinov, and I. Murray, "On the quantitativeanalysis of deep belief networks," inProceedings of the 25thinternational conference on Machine learning, pp. 872–879,2008.
  • [13] R. M. Neal, "Annealed importance sampling,"Statisticsand computing, vol. 11, no. 2, pp. 125–139, 2001.
  • [14] H. Larochelle, and I. Murray, "The neuralautoregressive distribution estimator," inProceedings of theFourteenth International Conference on ArtificialIntelligence and Statistics, pp. 29–37, 2011.
  • [15] H. Larochelle, and S. Lauly, "A neural autoregressivetopic model," inAdvances in Neural Information ProcessingSystems, pp. 2708–2716, 2012.
  • [16] Y. Zheng, Y.-J. Zhang, and H. Larochelle, "Topicmodeling of multimodal data: an autoregressive approach,"inProceedings of the IEEE Conference on Computer Visionand Pattern Recognition, pp. 1370–1377, 2014.
  • [17] G. Csurka, C. Dance, L.Fan, J. Willamowski, and C.Bray, "Visual categorization with bags of keypoints," in Workshop on statistical learning in computer vision, ECCV,vol. 1, no. 1–22, pp. 1–2, 2004.
  • [18] J. Sivic, and A. Zisserman, "Video Google: A textretrieval approach to object matching in videos," in Computer Vision Ninth IEEE International Conference on, pp. 1470, 2003.
  • [19] K. Grauman, and T. Darrell, "The pyramid matchkernel: Discriminative classification with sets of imagefeatures," inComputer Vision Tenth IEEE InternationalConference on, vol. 2, pp. 1458–1465, 2005.
  • [20] S. Lazebnik, C. Schmid, and J. Ponce, "Beyond bags offeatures: Spatial pyramid matching for recognizing naturalscene categories," inComputer vision and patternrecognition IEEE computer society conference on, vol. 2, pp.2169–2178, 2006.
  • [21] J. Wang, J. Yang, K. Yu, F. Lv, T. Huang, and Y. Gong, "Locality-constrained linear coding for image classification,"inComputer Vision and Pattern Recognition IEEEConference on, pp. 3360–3367, 2010.
  • [22] J. Yang, K. Yu, Y. Gong, and T. Huang, "Linear spatialpyramid matching using sparse coding for imageclassification," inComputer Vision and Pattern RecognitionIEEE Conference on, pp. 1794–1801, 2009.
  • [23] B. C. Russell, A. Torralba, K. P. Murphy, and W. T.Freeman, "LabelMe: a database and web-based tool forimage annotation,"International journal of computer vision, vol. 77, no. 1, pp. 157–173, 2008.
دوره 14، شماره 2
پاییز و زمستان
آذر 1395