افزایش کیفیت پاسخ با استفاده از گوناگونی داده در پردازش داده‌های بزرگ

نویسندگان

دانشکده مهندسی کامپیوتر، دانشگاه صنعتی شریف، تهران، ایران

چکیده

تعداد زیادی از شرکت‌ها با پردازش داده‌های بزرگ برای تحلیل داده‌های مالی، داده‌های تجاری و سایر تحلیل‌ها روبرو هستند. با توجه به زیر ساخت بزرگ و گران قیمت برای پردازش داده‌های بزرگ، ممکن است نتوان تمام داده‌ها را مورد پردازش قرار داد. این موضوع بر روی کیفیت پاسخ تأثیر گذاشته و کیفیت پاسخ را کاهش می‌دهد. راه‌حل ارائه شده در این مقاله در مواقعی که با محدودیت بودجه و زمان اتمام پردازش روبرو هستیم می‌تواند مورد استفاده قرار بگیرد. در این مقاله ما برای افزایش کیفیت پاسخ داده‌ها با تأثیر بیشتر را به منابع با توان پردازشی بیشتر اختصاص می‌دهیم. بعد از آن اگر بودجه‌ای برای استفاده در دسترس بود، سایر داده‌ها را نیز مورد پردازش قرار می‌دهیم. در این مقاله با استفاده از روش‌های آماری با سطح اطمینان قابل قبولی میزان تأثیر هر قسمت از داده را بر روی پاسخ نهایی مشخص می‌کنیم. با استفاده از این روش قادر خواهیم بود در صورت وجود محدودیت زمانی و بودجه‌ای کیفیت پاسخ را افزایش دهیم. در فاز ارزیابی داده‌هایی از حوزه‌های مختلف را مورد بررسی قرار داده‌ایم. بررسی نشان می‌دهد این روش دارای کارایی خوبی برای افزایش کیفیت پاسخ در صورت وجود محدودیت زمانی و بودجه است. در کاربردهای مورد ارزیابی در این مقاله موفق شده‌ایم تا 33 درصد بهبود در کیفیت پاسخ ایجاد کنیم.

کلیدواژه‌ها

  • [1] H. Ahmadvand, M Goudarzi, "Improving Quality of Results by Taking Advantage of Data Variety in Big Data Processing (in Persian)," The 23rd Computer Society of Iran Computer Conference (CSICC"96), Tehran, Iran, Mar. 2018.
  • [2] "Big Data Analysis of Practically All Data Types is on the Rise," 6 April 2017. [Online]. Available: https://bi-survey.com/data-types-big-data.
  • [3] J. Gantz and R. David, "The digital universe in 2020: Big data, bigger digital shadows, and biggest growth in the far east," IDC iView: IDC Analyze the future, vol. 2007, p. 1–16, 2012.
  • [4] H. Ahmadvand and M. Goudarzi, "Using Data Variety for Efficient Progressive Big Data Processing in Warehouse-Scale Computers," IEEE Computer Architecture Letters, 2016.
  • [5] I. Goiri, B. Ricardo, N. Santosh and D. N. Thu, "Approxhadoop: Bringing approximations to mapreduce frameworks," ACM SIGARCH Computer Architecture News, vol. 43, pp. 383-397, 2015.
  • [6] S. Mittal, "A survey of techniques for approximate computing," ACM Computing Surveys (CSUR), vol. 48, p. 62, 2016.
  • [7] V. Vassiliadis, R. Jan, D. Jens, P. Konstantinos, D. A. Christos, B. Nikolaos, L. Spyros and N. Uwe, "Towards automatic significance analysis for approximate computing," in In Code Generation and Optimization (CGO), 2016 IEEE/ACM International Symposium on, 2016.
  • [8] J.-D. Fekete and P. Romain, "Progressive analytics: A computation paradigm for exploratory data analysis," arXiv preprint arXiv, vol. 1607.05162, 2016.
  • [9] T. Condie, C. Neil, A. Peter, M. H. Joseph, E. Khaled and S. Russell, "MapReduce online," in Nsdi, 2010.
  • [10] "BigDataBench," [Online]. Available: http://prof.ict.ac.cn/. [Accessed 22 Dec. 2017].
  • [11] W. G. Cochran, Sampling techniques, John Wiley & Sons, 2007.
  • [12] "Amazon EC2 Dedicated Instances," [Online]. Available: https://aws.amazon.com/ec2/purchasing-options/dedicated-instances/. [Accessed 22 Dec. 2017].
  • [13] "Apache Spark - Lightning-Fast Cluster Computing," [Online]. Available: http://www.spark-project.org/. [Accessed 22 Dec. 2017].
  • [14] "UCI Machine Learning Repository," [Online]. Available: https://archive.ics.uci.edu/ml/datasets/MHEALTH%20Dataset. [Accessed 22 Dec. 2017].
  • [15] Tse.ir. (2017). بورس اوراق بهادار تهران - آرشیو. [online] Available at: http://tse.ir/archive.html [Accessed 22 Dec. 2017].
  • [16] "Sample CSV Data," [Online]. Available: https://support.spatialkey.com/spatialkey-sample-csv-data/. [Accessed 22 Dec. 2017].
دوره 16، شماره 2
پاییز و زمستان
آذر 1397