دگربیان: توسعه پیکره متنی فارسی جملات و عبارات معادل به کمک روش جمع‌سپاری

نویسندگان

دانشکده فنی،دانشگاه ﮔﻴﻼن،رﺷﺖ، اﻳﺮان

چکیده

جملات و عبارات دِگَربَیان، بیانی متفاوت از مفهومی یکسان هستند. شناسایی دگربیان‌ها یکی از وظایف مهم سامانه‌های پردازش زبان طبیعی است. با وجود اهمیت این موضوع، پیکره عبارات دگربیان در زبان فارسی توسعه‌نیافته است. هدف این مقاله ارائه روشی جهت تهیه پیکره عبارات و جملات دگربیان در زبان فارسی است. به همین منظور سامانه‌ای خودکار و بی‌ناظر جهت استخراج عبارات و جملات دگربیان ارائه می‌شود که از داده‌های دریافت شده از خبرهای خبرگزاری‌ها استفاده می‌کند. با استفاده از الگوریتمی مبتنی بر معیار جاکارد، نمونه‌های دگربیان در دو سطح عبارات و جملاتی با اندازه‌های متفاوت استخراج می‌شوند. سپس نمونه‌های به ‌دست‌ آمده به کمک تکنیک‌های جمع‌سپاری و سامانه‌ای که تحت پیام‌رسان تلگرام پیاده‌سازی شده،‌ نشانه‌گذاری شده و در سه رده دگربیان، تقریباً دگربیان و نامرتبط ارائه می‌شوند و نتایج حاصل‌شده ارزیابی می‌گردند. در حال حاضر تعداد 1،523 نمونه نشانه‌گذاری شده در نسخه ۱٫۰ از پیکره موجود است که در دسترس عموم است.

کلیدواژه‌ها

  • [1] Y. Ji, and J. Eisenstein, "Discriminative improvements todistributional sentence similarity," inEMNLP, pp. 891–896,2013.
  • [2] R. Bhagat, and E. Hovy, "What is a paraphrase?," Computational Linguistics, vol. 39, no. 3, pp. 463–472,2013.
  • [3] B. Dolan, C. Quirk, and C. Brockett, "Unsupervisedconstruction of large paraphrase corpora: Exploitingmassively parallel news sources," in20th internationalconference on Computational Linguistics, p. 350,Association for Computational Linguistics, 2004.
  • [4] A. Eyecioglu, and B. Keller,"Asobek: Twitter paraphraseidentification with simple overlap features and svms,"inSemEval, 2015.
  • [5] W. Xu, A. Ritter, C. Callison-Burch, W. B. Dolan, and Y.Ji, "Extracting lexically divergent paraphrases from twitter," Transactions of the Association for ComputationalLinguistics, vol. 2, pp. 435–448, 2014.
  • [6] E. Pronoza, E. Yagunova, and A. Pronoza, "Constructionof a russian paraphrase corpus: unsupervised paraphraseextraction," inInformation Retrieval, pp. 146–157, Springer,2016.
  • [7] P. M. McCarthy, and D. S. McNamara, "The user-language paraphrase corpus,"Cross-Disciplinary Advancesin AppliedNatural Language Processing: Issues andApproaches: Issues and Approaches, p. 73, 2011.
  • [8] J. Ganitkevitch, B. Van Durme, and C. Callison-Burch, "Ppdb: The paraphrase database," inHLT-NAACL, pp.758–764, 2013.
  • [9] K. Khoshnavataher, V. Zarrabi, S. Mohtaj, and H.Asghari, "Developing monolingual persian corpus for extrinsic plagiarism detection using artificial obfuscation," inCLEF (Working Notes), 2015.
  • [10] "ﻓﺎرﺳﻲﻣﻴﺰان،-ﭘﻴﻜﺮةﻣﻮازیاﻧﮕﻠﻴﺴﻲ"دﺑﻴﺮﺧﺎﻧﻪﺷﻮرایﻋﺎﻟﻲاﻃﻼعرﺳﺎﻧﻲ،.1392،http://dadegan.ir/catalog/mizan
  • [11] T. Mosavi Miangah, "Constructing a large-scaleenglishpersian parallel corpus,"Meta, vol. 54, no. 1, pp.181–188, 2009.
  • [12] C. Boonthum, "istart: Paraphrase recognition," inACL2004 workshop on Student research, p. 55, Association forComputational Linguistics, 2004.
  • [13] V. Rus, R. Banjade, and M. C. Lintean, "On paraphraseidentification corpora," inLREC, pp. 2422–2429, Citeseer,2014.
  • [14] W. Xu, A. Ritter, and R. Grishman, "Gathering andgenerating paraphrases from twitter with application tonormalization," inthe Sixth Workshop on Building and UsingComparable Corpora, pp. 121–128, Citeseer, 2013.
  • [15] S. Wubben, A. Van Den Bosch, E. Krahmer, and E.Marsi, "Clustering and matching headlines for automaticparaphrase acquisition," inthe 12th European WorkshoponNatural Language Generation, pp.122–125, Association forComputational Linguistics, 2009.
  • [16] "ﻫﻀﻢ؛ﭘﺮدازش زﺑﺎنﻓﺎرﺳﻲدرﭘﺎﻳﺘﻮن،"ﺳﺒﺤﻪ، .1396،http://www.sobhe.ir/hazm/
  • [17] وﻳﺮاﺳﺖﻳﺎر؛ﻧﺮم اﻓﺰارﺗﺨﺼﺼﻲ"دﺑﻴﺮﺧﺎﻧﻪﺷﻮرایﻋﺎﻟﻲاﻃﻼع رﺳﺎﻧﻲ، .1396،http://www.virastyar.ir"
  • [18]M. Sabou, K. Bontcheva, L. Derczynski, and A. Scharl, "Corpus annotation through crowdsourcing: Towards bestpracticeguidelines," inLREC, pp.859–866, 2014.
  • [19] M. Sabou, K. Bontcheva, and A. Scharl, "Crowdsourcing research opportunities: lessons from naturallanguage processing," inthe 12th International ConferenceonKnowledge Management and Knowledge Technologies, p.17,ACM, 2012.
  • [20] S. M. Mohammad, B. J. Dorr, G. Hirst, and P. D.Turney, "Computing lexical contrast,"ComputationalLinguistics, vol. 39, no. 3, pp.555–590, 2013.
  • [21] E. Filatova, "Irony and sarcasm: Corpus generation andanalysis using crowdsourcing," inLREC, pp. 392–398, 2012.
  • [22] Telegram, "Telegram bot api," https://core.telegram.org/bots/api, 2016.
  • [23]خبرآنلاین، "نیمی از کاربران تلگرام ایرانی شدند،" .1395 ،http://www.entekhab.ir/fa/news/263281
دوره 15، شماره 1
بهار و تابستان
اردیبهشت 1396