‫ روشی سریعتر برای تشخیص گزارش خطای تکثیر با حفظ صحت

روشی سریعتر برای تشخیص گزارش خطای تکثیر با حفظ صحت

زهرا امین‌الرعایائی, بهزاد سلیمانی‌نیسیانی, محمدحسین ندیمی‌شهرکی

چکیده

امروزه یکی از مهم‌ترین چالش‌های سیستم‌های ردیابی گزارش‌های خطای کاربران، تشخیص گزارش‌های خطای تکراری است. بسیاری از محققان از روش‌ها و ابزارهای بازیابی اطلاعات برای حل این مشکل استفاده کرده‌اند که در این پژوهش نیز از آن‌ها با معرفی چندین ویژگی استخراج‌ شده جدید مبتنی بر کمینه و بیشینه و میانگین تعداد تکرار کلمات مشابه در دو گزارش بهره گرفته‌ شده است. ابتدا با در نظر گرفتن مجموعه داد‌ه‌هایی از 4 مخزن بزرگ گزارش خطای Android Mozilla, OpenOffice, و Eclipse تعداد 162 ویژگی‌ جدید با ترکیب ویژگی‌های موجود در کارهای گذشته به‌دست ‌آمده است. سپس بسیاری از این ویژگی‌ها، به دلیل اهمیت ناچیز و طولانی کردن زمان اجرای الگوریتم‌های طبقه‌بندی، با اعمال روش‌های کاهش بعد حذف شده‌اند. نتایج پیاده‌سازی نشان می‌دهد که زمان اجرای الگوریتم‌های طبقه‌بندی با ویژگی‌های کاهش یافته نسبت به زمان اجرای تمام ویژگی‌ها، از میزان چندین دقیقه به چندین ثانیه کاهش یافته است و در عین حال نیز باعث بهبود تشخیص گزارش خطای تکراری بین %1 الی %6 شده است. همچنین نتایج به دلیل وجود ویژگی‌های جدید، بیانگر دقت بالای 96% و نرخ فراخوانی بالای 90/0 نسبت به دیگر تحقیقات پیشین شده است.

کلمات کلیدی

استخراج ویژگی, تشخیص گزارش خطای تکثیر, الگوریتم‌های طبقه‌بندی, دقت, زمان اجرا

مراجع

  • [1] J. Sutherland, "Business objects in corporate information systems," ACM Computing Surveys (CSUR), vol. 27, pp. 274-276, 1995.
  • [2] K. Aggarwal, T. Rutgers, F. Timbers, A. Hindle, R. Greiner, and E. Stroulia, "Detecting duplicate bug reports with software engineering domain knowledge," in IEEE 22nd International Conference on Software Analysis, Evolution and Reengineering (SANER), 2015, pp. 211-220.
  • [3] N. Bettenburg, R. Premraj, T. Zimmermann, and S. Kim, "Duplicate bug reports considered harmful… really?," in IEEE International Conference on Software Maintenance (ICSM), 2008, pp. 337-345.
  • [4] J. Anvik, L. Hiew, and G. C. Murphy, "Coping with an open bug repository," in Proceedings of the OOPSLA workshop on Eclipse technology eXchange, 2005, pp. 35-39.
  • [5] A. Alipour, A. Hindle, and E. Stroulia, "A contextual approach towards more accurate duplicate bug report detection," in Proceedings of the 10th Working Conference on Mining Software Repositories, 2013, pp. 183-192.
  • [6] C. Sun, D. Lo, S.-C. Khoo, and J. Jiang, "Towards more accurate retrieval of duplicate bug reports," Proceedings of the 26th IEEE/ACM International Conference on Automated Software Engineering, 2011, pp. 253-262.
  • [7] A. Sureka, and P. Jalote, "Detecting duplicate bug report using character n-gram-based features," in 17th Asia Pacific Software Engineering Conference (APSEC), 2010, pp. 366-374.
  • [8] M. W. Berry, and M. Castellanos, "Survey of text mining," Computing Reviews, vol. 45, p. 548, 2004.
  • [9] S. Banerjee, B. Cukic, and D. Adjeroh, "Automated duplicate bug report classification using subsequence matching," in IEEE 14th International Symposium on High-Assurance Systems Engineering (HASE), 2012, pp. 74-81.
  • [10] X. Wang, L. Zhang, T. Xie, J. Anvik, and J. Sun, "An approach to detecting duplicate bug reports using natural language and execution information," in Proceedings of the 30th international conference on Software engineering, 2008, pp. 461-470.
  • [11] A. Lazar, S. Ritchey, and B. Sharif, "Improving the accuracy of duplicate bug report detection using textual similarity measures," in Proceedings of the 11th Working Conference on Mining Software Repositories, 2014, pp. 308-311.
  • [12] C. Sun, D. Lo, S.-C. Khoo, and J. Jiang, "Towards more accurate retrieval of duplicate bug reports," in Proceedings of the 26th IEEE/ACM International Conference on Automated Software Engineering (ASE), 2011, pp. 253-262.
  • [13] A. T. Nguyen, T. T. Nguyen, T. N. Nguyen, D. Lo, and C. Sun, "Duplicate bug report detection with a combination of information retrieval and topic modeling," in Proceedings of the 27th IEEE/ACM International Conference on Automated Software Engineering (ASE), 2012, pp. 70-79.
  • [14] P. Runeson, M. Alexandersson, and O. Nyholm, "Detection of duplicate defect reports using natural language processing," in 29th International Conference on Software Engineering (ICSE), 2007, pp. 499-510.
  • [15] N. Jalbert, and W. Weimer, "Automated duplicate detection for bug tracking systems," in IEEE International Conference on Dependable Systems and Networks (DSN) With FTCS and DCC, 2008, pp. 52-61.
  • [16] T. Zimmermann, R. Premraj, J. Sillito, and S. Breu, "Improving bug tracking systems," in ICSE Companion, 2009, pp. 247-250.
  • [17] F. Šarić, G. Glavaš, M. Karan, J. Šnajder, and B. D. Bašić, "Takelab: Systems for measuring semantic text similarity," in Proceedings of the First Joint Conference on Lexical and Computational Semantics-Volume 1: Proceedings of the main conference and the shared task, and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation, 2012, pp. 441-448.
  • [18] N. K. Nagwani, and P. Singh, "Weight similarity measurement model based, object oriented approach for bug databases mining to detect similar and duplicate bugs," in Proceedings of the International Conference on Advances in Computing, Communication and Control, 2009, pp. 202-207.
  • [19] K. Vijayakumar, and V. Bhuvaneswari, "How much effort needed to fix the bug? A data mining approach for effort estimation and analysing of bug report attributes in Firefox," International Conference on Intelligent Computing Applications (ICICA), 2014, pp. 335-339