‫ یادگیری عمیق در خلاصه‌سازی چندسندی متون فارسی

یادگیری عمیق در خلاصه‌سازی چندسندی متون فارسی

شیما محرابی, حمیدرضا احمدی‌فر, سید ابوالقاسم میرروشندل

چکیده

با پیشرفت علوم و تکنولوژی و در نتیجه افزایش حجم اطلاعات متنی قابل دسترس از طریق اینترنت، وجود سامانه‌های خلاصه‌ساز که چکیده‌ای از اطلاعات موردنظر را در کوتاه‌ترین زمان ممکن در دسترس کاربر قرار دهند، ضروری به‌نظر می‌رسد. خلاصه‌سازی خودکار متون از دیرباز مورد توجه پژوهشگران حوزه‌ی پردازش زبان‌های طبیعی قرار گرفته است. امروزه با بهبود توان پردازشی سیستم‌های موجود و ظهور ابزارهای محاسباتی نوین، تلاش برای افزایش کارایی سیستم‌های خلاصه‌ساز ادامه دارد. در این مقاله به معرفی یک سامانه‌ی خلاصه‌ساز استخراجی چندسندی متون فارسی می‌پردازیم. این سامانه برای امتیازدهی به جملات از نظر میزان اهمیت آنها در سند، از روشی تحت عنوان یادگیری عمیق بهره می‌برد. یادگیری عمیق، روشی برای آموزش ماشین برپایه‌ی شبکه‌های عصبی مصنوعی است. پیش از این، یادگیری عمیق در زمینه‌های پردازش صوت و تصویر و همچنین پردازش زبان‌های طبیعی مورد استفاده قرار گرفته است. نتایج خوب بدست آمده از این روش در مقایسه با دیگر روش‌های مرسوم، انگیزه‌ای در بکارگیری این روش در خلاصه‌سازی خودکار چندسندی متون فارسی گشت. در خلاصه‌ساز پیشنهادی با استفاده از یک شبکه‌ی Autoencoder عمیق، عمل امتیازدهی به جملات انجام می‌گیرد و میزان دقت خلاصه‌ساز در ارزیابی جمله‌ای قابل‌قبول به‌نظر می‌رسد.

کلمات کلیدی

پردازش زبان فارسی, خلاصه سازی خودکار چند سندی, یادگیری عمیق, شبکه های عصبی مصنوعی

مراجع

  • [9] L. Arnold, S.Rebecchi, S. Chevallier, and H. Paugam-Moisy, "An Introduction to Deep Learning," Proceedings oftheEuropean Symposium on Artificial Neural Networks-Computational Intelligence and Machine Learning, pp.477-488, 2011.
  • [10] Y. Bengio, "Learning Deep Architectures for AI,"Foundations and Trends in Machine Learning, vol. 2, no. 1,pp. 1-127, 2009.
  • [11] G. Hinton, L. Deng, D. Yu, G. Dahl, and A. Mohamed, "Deep Neural Networks for Acoustic Modeling in Speech Recognition," IEEE Signal Processing Magazine, vol. 29, no.6, pp. 82-97, 2012.
  • [12] R. Collobert, and J. Weston, "A Unified Architecture forNatural Language Processing:Deep Neural Networks withMultitask Learning," Proceedings of theInternationalConference on Machine Learning, pp. 160-167, 2008.
  • [13] R. Collobert, J. Weston, L. Bottou, M. Karlen, M.Kavukcuoglu, and P. Kuksa, "Natural Language Processing (almost) from Scratch," Journal of the Machine LearningResearch, vol. 12, pp. 2493-2537, 2011.
  • [14] E. Arısoy, T. Sainath, B. Kingsbury, and B.Ramabhadran, "Deep Neural Network Language Models," Proceedings of the NAACL-HLT, pp.20-28, 2012.
  • [15] Y. Liu, S. Zhong, and W. Li, "Query-Oriented Multi- Document Summarization via Unsupervised Deep Learning," th Proceedings of the 26AAAI Conference on ArtificialIntelligence, pp. 1699-1705, 2012.
  • [16] A. Fischer, and Ch. Igel, "An Introduction to Restricted th Boltzmann Machines," Proceedings of the 17IberoamericanCongress on Pattern Recognition, pp. 14-36, 2012.
  • [17] P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio, and P.Manzagol, "Stacked DenoisingAutoencoders: LearningUseful Representations in aDeep Network with a LocalDenoising Criterion," Journal of the Machine LearningResearch, vol. 11, no.11, pp. 3371-3408, 2010.
  • [18] N. Prabhakar, and N.Chandra, "Automatic TextSummarizaion Based on Pragmatic Analysis," InternationalJournal of the Scientific andResearch Publications, vol. 2,Issue 5, pp. 1-4, 2012.
  • [19] R. Mihalcea, and P. Tarau, "TextRank: Bringing Orderinto Texts,"Proceedings of the Conference on EmpiricalMethods in Natural Language Processing, pp. 404-411, 2004.
  • [20] B. Behmadi Moghaddas, M. Kahani, S. A. Toosi, A.Pourmasoumi, and A. Estiri, "Pasokh: A standard corpus forthe evaluation of Persian textsummarizers," Proceedingsofthe Computer and Knowledge Engineering (ICCKE), pp. 471-475, 2013.
  • [21] :ﻗﺎﺋﻤﻲاﻳﺠﺎز.اﺳﺘﻴﺮي،وه.ﻃﻮﺳﻲ،اﻟﻒ.ﻛﺎﻫﺎﻧﻲ،اﻟﻒ.ﭘﻮرﻣﻌﺼﻮﻣﻲ،م.اﻟﻒ "ﻳﻚﺳﺎﻣﺎﻧﻪيﻋﻤﻠﻴﺎﺗﻲﺑﺮايﺧﻼﺻﻪﺳﺎزيﺗﻚﺳﻨﺪيﻣﺘﻮنﺧﺒﺮيﻓﺎرﺳﻲ"،.1393،4-833،ص21،ﭘﻴﺎﭘﻲ1دوﻓﺼﻠﻨﺎﻣﻪيﭘﺮدازشﻋﻼﺋﻢودادﻫﺎ،ﺷﻤﺎره
  • [22] Ch. Lin, "Rouge: A package for automatic evaluation ofsummaries," Proceedings of the ACL workshop on TextSummarization Branches Out, pp. 74-81, 2004.