نویسندگان
دانشکده فنی،دانشگاه ﮔﻴﻼن،رﺷﺖ، اﻳﺮان
چکیده
جملات و عبارات دِگَربَیان، بیانی متفاوت از مفهومی یکسان هستند. شناسایی دگربیانها یکی از وظایف مهم سامانههای پردازش زبان طبیعی است. با وجود اهمیت این موضوع، پیکره عبارات دگربیان در زبان فارسی توسعهنیافته است. هدف این مقاله ارائه روشی جهت تهیه پیکره عبارات و جملات دگربیان در زبان فارسی است. به همین منظور سامانهای خودکار و بیناظر جهت استخراج عبارات و جملات دگربیان ارائه میشود که از دادههای دریافت شده از خبرهای خبرگزاریها استفاده میکند. با استفاده از الگوریتمی مبتنی بر معیار جاکارد، نمونههای دگربیان در دو سطح عبارات و جملاتی با اندازههای متفاوت استخراج میشوند. سپس نمونههای به دست آمده به کمک تکنیکهای جمعسپاری و سامانهای که تحت پیامرسان تلگرام پیادهسازی شده، نشانهگذاری شده و در سه رده دگربیان، تقریباً دگربیان و نامرتبط ارائه میشوند و نتایج حاصلشده ارزیابی میگردند. در حال حاضر تعداد 1،523 نمونه نشانهگذاری شده در نسخه ۱٫۰ از پیکره موجود است که در دسترس عموم است.
کلیدواژهها