نویسندگان
دانشکده ی مهندسی برق و کامپیوتر، پردیس دانشکده های فنی، دانشگاه تهران، تهران
چکیده
تشخیص موضوع یکی از مسائل حوزه ی پردازش زبان طبیعی است که در سال های اخیر همواره مورد توجه بوده و از زوایای متفاوتی مورد پژوهش قرارگرفته است. هدف کلی در این مسئله خوشه بندی اسناد متنی در دسته های مختلف است بهگونهای که اسناد موجود در هر خوشه موضوع یکسانی داشته باشد. بخش قابلتوجهی از راهحلهای ارائهشده برای این مسئله از الگوریتم های خوشه بندی مانند K-means استفاده میکنند. علاوه بر روشهای مبتنی بر خوشهبندی اسناد، در دسته ای از پژوهش ها برای حل مسئله تشخیص موضوع از روش های مدلسازی موضوعی استفادهشده است.
در این پژوهش ابتدا حساسیت قابلتوجه الگوریتم K-means به انتخاب مراکز اولیه بهصورت عملی نشان داده میشود و سپس روشی برای انتخاب هوشمندانه مراکز اولیه ارائه میشود که استفاده از آن کیفیت الگوریتم K-means را در مسئلهی تشخیص موضوع ارتقاء میدهد. روش پیشنهادشده برای تشخیص موضوع در این مقاله با بهره گیری از مدل سازی موضوعی (LDA (Latent Dirichlet Allocation، پس از انتخاب هوشمندانه مراکز اولیه، اقدام به خوشه بندی اسناد بر اساس موضوع آنها می کند. در روش ارائهشده فاصله اسناد بر اساس توزیع موضوع حاصل از LDA آنها محاسبهشده است. آزمایش ها نشان می دهند که استفاده از روش ارائهشده باعث بهبود چشمگیر کیفیت تشخیص موضوع نسبت به روش LDA در دو مجموعه از سه مجموعه دادگان مورد آزمایش می شود. همچنین در مقایسه با روش ++K-means برای انتخاب مراکز اولیه، در روش ارائهشدهی ما انتخاب مراکز اولیه در دو مجموعه دادگان همیشه مناسب تر بوده و احتمال بهتر بودن مراکز انتخابی در مجموعه دادگان دیگر مورد آزمایش برابر با 70 درصد است.
کلیدواژهها