%0 Journal Article %T انتخاب هوشمندانه مراکز اولیه در الگوریتم خوشه بندی K-means به‌منظور بهبود تشخیص موضوع %J علوم رایانش و فناوری اطلاعات %I انجمن کامپیوتر ایران %Z 2676-5438 %A آروین, سپهر %A ورداسبی, علی %A فیلی, هشام %A شاکری, آزاده %D 2018 %\ 11/22/2018 %V 16 %N 2 %P - %! انتخاب هوشمندانه مراکز اولیه در الگوریتم خوشه بندی K-means به‌منظور بهبود تشخیص موضوع %K تشخیص موضوع، LDA (Latent Dirichlet Allocation) %K خوشه بندی %K تعیین مراکز اولیه %K k-means %K معیار فاصله %K silhouette %R %X تشخیص موضوع یکی از مسائل حوزه­ ی پردازش زبان طبیعی است که در سال­ های اخیر همواره مورد توجه بوده و از زوایای متفاوتی مورد پژوهش قرارگرفته است. هدف کلی در این مسئله خوشه­ بندی اسناد متنی در دسته ­های مختلف است به‌گونه‌ای که اسناد موجود در هر خوشه موضوع یکسانی داشته باشد. بخش قابل‌توجهی از راه‌حل‌های ارائه‌شده برای این مسئله از الگوریتم ­های خوشه ­بندی مانند K-means استفاده می‌کنند. علاوه بر روش‎های مبتنی بر خوشه‎بندی اسناد، در دسته ­ای از پژوهش ­ها برای حل مسئله تشخیص موضوع از روش ­های مدل­سازی موضوعی استفاده‌شده است. در این پژوهش ابتدا حساسیت قابل‌توجه الگوریتم K-means به انتخاب مراکز اولیه به‌صورت عملی نشان داده می‌شود و سپس روشی برای انتخاب هوشمندانه مراکز اولیه ارائه می‌شود که استفاده از آن کیفیت الگوریتم K-means را در مسئله‌ی تشخیص موضوع ارتقاء می‌دهد. روش پیشنهادشده برای تشخیص موضوع در این مقاله با بهره­ گیری از مدل­ سازی موضوعی (LDA (Latent Dirichlet Allocation، پس از انتخاب هوشمندانه مراکز اولیه، اقدام به خوشه­ بندی اسناد بر اساس موضوع آن­ها می­ کند. در روش ارائه‌شده فاصله اسناد بر اساس توزیع موضوع حاصل از LDA آن­ها محاسبه‌شده است. آزمایش ­ها نشان می­ دهند که استفاده از روش ارائه‌شده باعث بهبود چشم­گیر کیفیت تشخیص موضوع نسبت به روش LDA در دو مجموعه از سه مجموعه دادگان مورد آزمایش می­ شود. همچنین در مقایسه با روش ++K-means برای انتخاب مراکز اولیه، در روش ارائه‌شده‎ی ما انتخاب مراکز اولیه در دو مجموعه دادگان همیشه مناسب ­تر بوده و احتمال بهتر بودن مراکز انتخابی در مجموعه دادگان دیگر مورد آزمایش برابر با 70 درصد است. %U