نویسندگان
1 موسسه آموزش عالی علامه نائینی، نائین، اصفهان، ایران
2 دانشکده مهندسی برق و کامپیوتر، دانشگاه کاشان، کاشان، اصفهان، ایران
3 دانشگاه آزاد اسلامی واحد نجف آباد، نجف آباد، اصفهان، ایران
چکیده
امروزه یکی از مهمترین چالشهای سیستمهای ردیابی گزارشهای خطای کاربران، تشخیص گزارشهای خطای تکراری است. بسیاری از محققان از روشها و ابزارهای بازیابی اطلاعات برای حل این مشکل استفاده کردهاند که در این پژوهش نیز از آنها با معرفی چندین ویژگی استخراج شده جدید مبتنی بر کمینه و بیشینه و میانگین تعداد تکرار کلمات مشابه در دو گزارش بهره گرفته شده است. ابتدا با در نظر گرفتن مجموعه دادههایی از 4 مخزن بزرگ گزارش خطای Android Mozilla, OpenOffice, و Eclipse تعداد 162 ویژگی جدید با ترکیب ویژگیهای موجود در کارهای گذشته بهدست آمده است. سپس بسیاری از این ویژگیها، به دلیل اهمیت ناچیز و طولانی کردن زمان اجرای الگوریتمهای طبقهبندی، با اعمال روشهای کاهش بعد حذف شدهاند. نتایج پیادهسازی نشان میدهد که زمان اجرای الگوریتمهای طبقهبندی با ویژگیهای کاهش یافته نسبت به زمان اجرای تمام ویژگیها، از میزان چندین دقیقه به چندین ثانیه کاهش یافته است و در عین حال نیز باعث بهبود تشخیص گزارش خطای تکراری بین %1 الی %6 شده است. همچنین نتایج به دلیل وجود ویژگیهای جدید، بیانگر دقت بالای 96% و نرخ فراخوانی بالای 90/0 نسبت به دیگر تحقیقات پیشین شده است.
کلیدواژهها