نویسندگان
دانشکده مهندسی برق ، دانشگاه ازاد اسلامی، واحد نجف آباد، نجف آباد، ایران
چکیده
توصیف زبانی خودکار محتوای تصویر مسئلهای اساسی در زمینه هوش مصنوعی است که کاربردهای بسیاری در جستجو، بازیابی و دستهبندی تصاویر دارد. بیشتر تحقیقات موجود در این زمینه جهت زبان انگلیسی ارائه شدهاند و مدلهای اندکی برای زبانهای دیگر وجود دارد. در این مقاله، یک معماری رمزگذار- رمزگشا مبتنی بر یادگیری عمیق جهت توصیف تصویر به زبان فارسی طراحی و مورد بررسی قرار گرفته که در آن یک شبکه کانولوشنی ویژگیهای تصویر را استخراج و یک شبکه عصبی بازگشتی، با رمزگشایی لازم، عبارات فارسی متناسب را تولید میکند. با توجه به نقش تعیینکننده پایگاه داده در یادگیری عمیق و در دسترس نبودن پایگاه دادهی فارسی برای این کاربرد، با ترجمه و ویرایش توصیفهای انگلیسی حدود 6000 تصویر از مجموعه استاندارد MSCOCO یک پایگاه داده مناسب جهت آموزش یکپارچه سیستم ایجاد کردیم. جهت تعیین ساختار پیشنهادی، حالتهای مختلف معماری مذکور با بکارگیری انواع شبکههای کانولوشنی، روشهای ممکن اتصال شبکهها و اِعمال دادههای آموزشی مورد بررسی قرار گرفتهاند. ارزیابیهای انجام شده دقت مطلوب ساختار پیشنهادی را به لحاظ معنایی و نیز دستور زبان نشان میدهند. ازجمله امتیازهای 63/18% و 24/71% برای معیارهای BLEU1 و BLEU4 بهدست آمدهاند که با توجه به اندازه مجموعهی آموزشی در مقایسه با پایگاههای داده انگلیسی قابلتوجه بهشمار میآید.
کلیدواژهها