شناسائی عملی کلیک‌های هرز در وب با استفاده از الگوریتم‌های دسته‌بندی

نویسندگان

دانشکده ﺑﺮق و ﻛﺎﻣﭙﻴﻮﺗﺮ،دانشگاه ﻳﺰد،ﻳﺰد، اﻳﺮان

چکیده

امروزه اکثر سرویس‌های اینترنتی از بازخورد کاربران برای بهبود کیفیت سرویس‌دهی به آنان استفاده می‌نمایند. به عنوان مثال، موتورهای جستجو از اطلاعات کلیک کاربران به عنوان یک فاکتور مهم در فرآیند رتبه‌بندی نتایج جستجو بهره می‌برند. از همین‌رو، برخی وب‌ سایت‌ها برای کسب رتبه بالاتر در بین مجموعه نتایج جستجو به انجام کلیک بر روی نتایج خود می‌پردازند. چون این کلیک‌ها توسط کاربران واقعی انجام نگرفته، اصطلاحاً به آنها کلیک‌های هرز گفته می‌شود. برای این منظور، وب سایت‌ها معمولاً از برنامه‌های نرم‌افزاری به نام "ربات‌ها" استفاده می‌کنند تا به صورت خودکار و توزیع‌شده به انجام این کار بپردازند. در این مقاله، روش‌ جدیدی مبتنی بر دسته‌بندی نشست‌های کاربران جهت شناسائی کلیک‌های هرز به صورت سریع و کارآمد پیشنهاد می‌شود. ما در ابتدا نشست‌های کاربران را به صورت مجموعه‌ای از ویژگی‌ها مدل می‌کنیم و سپس با اعمال الگوریتم‌ دسته‌بندی پیشنهادی، اقدام به شناسائی نشست‌های غیر نرمال و در نتیجه کلیک‌های هرز می‌نماییم. روش‌ مطرح شده با لاگ واقعی یک موتور جستجوی فارسی مورد تحلیل قرار گرفته است. نتایج بررسی‌ها نشان می‌دهد که روش‌ پیشنهادی می‌تواند کلیک‌های هرز را با دقتی بیش از 96% تشخیص دهد که در مقایسه با کارهای قبلی در حدود 5 درصد بهبود از خود نشان می‌دهد.

کلیدواژه‌ها

  • [1] L. Page, S. Brin, R. Motwani, and T. Winograd,ThePageRank Citation Ranking: Bringing Order to the Web,Stanford InfoLab, 1999.
  • [2] L. Becchetti, C. Castillo, D.Donato, S. Leonardi, and R.Baeza-Yates, "Link-Based Characterization and Detection ofWeb Spam,"Proc. Intl Workshop on AdversarialInformation Retrieval on the Web, 2006.
  • [3] Y. Liu, R. Cen, M. Zhang, S. Ma, and L. Ru, "IdentifyingWeb Spam with User Behavior Analysis,"Proc. IntlWorkshop on Adversarial Information Retrieval on the Web,pp. 9–16, 2008.
  • [4] A. Karasaridis, B. Rexroad, and D. Hoeflin, "Wide-scaleBotnet Detection and Characterization,"Proc. Conf. FirstWorkshop on Hot Topics in Understanding Botnets, pp. 7,2007.
  • [5] Z. Dou, R. Song, X. Yuan, and J.-R. Wen, "Are Click-through Data Adequate for Learning Web SearchRankings?,"Proc. ACM Conf. Information and KnowledgeManagement, pp. 73–82, 2008.
  • [6] I. A. Board, "Internet Advertising Revenue Report,"https://www.iab.com, 2015.
  • [7] D. Szetela, and J. Kerschbaum,Pay-Per-Click SearchEngine Marketing: An Hour a Day, USA: SYBEX Inc.,2010.
  • [8]N. Daswani,and M. Stoppelman, "The AnatomyofClickbot.A,"Proc. Conf. FirstWorkshopon Hot TopicsinUnderstanding Botnets, pp. 11,2007.
  • [9]B. Miller, P.Pearce, C.Grier, C.Kreibich, andV.Paxson, "What’s ClickingWhat?TechniquesandInnovations ofToday’s Clickbots,"Proc. IntlConf.Detection of Intrusions andMalware, and VulnerabilityAssessment,pp. 164–183, 2011.
  • [10]S. A. Alrwais, A. Gerber,C. W. Dunn, O. Spatscheck,M.Gupta, andE. Osterweil,"DissectingGhost Clicks:AdFraud via Misdirected HumanClicks,"Proc.Conf. ComputerSecurity Applications, pp. 21–30, 2012.
  • [11]P. Pearce, andet. al., "CharacterizingLarge-Scale ClickFraud in ZeroAccess,"Proc.ACM SIGSACConf. ComputerandCommunications Security,pp. 141–152,2014.
  • [12]B. Stone-Gross, R. Stevens, A. Zarras,R. Kemmerer, C.Kruegel, and G.Vigna, "Understanding Fraudulent ActivitiesinOnline Ad Exchanges,"Proc. ACMSIGCOMMConf.Internet Measurement, pp. 279–294, 2011.
  • [13]V. Dave, S.Guha, andY. Zhang, "ViceROI: CatchingClick-spam in Search Ad Networks,"Proc. ACM SIGSACConf. ComputerandCommunications Security, pp. 765–776, 2013
  • .[14]R. Oentaryo, and et. al., "DetectingClick FraudinOnline Advertising: A DataMining Approach,"J. Mach.Learn. Res., vol.15, no. 1, pp.99–140, Jan.2014.
  • [15]B. Kitts, J.Y. Zhang, G.Wu, W. Brandi, J. Beasley, K.Morrill, J. Ettedgui, S. Siddhartha, H. Yuan, F. Gao, P.Azo,andR. Mahato,"Click FraudDetection: Adversarial PatternRecognition over5Years atMicrosoft,"Springer IntlPub.RealWorld DataMini. Apps.,vol. 17, pp. 181–201, 2015.
  • [16]H. Haddadi,"Fighting Online Click-fraud UsingBluffAds,"SIGCOMMComput. Commun. Rev.,vol. 40, no. 2,pp.21–25, Apr. 2010.
  • [17]B. Kitts, J.Y. Zhang,A. Roux, andR. Mills, "ClickFraud Detectionwith Bot Signatures,"Proc. IEEE IntlConf.Intelligence andSecurity Informatics, pp. 146–150, 2013.
  • [18]F. Yu, Y.Xie, and Q.Ke, "SBotMiner: Large ScaleSearch Bot Detection,"Proc.ACM Intl Conf. Web SearchandData Mining,pp. 421–430, 2010.
  • [19]H. Kang, K.Wang, D. Soukal, F. Behr, and Z. Zheng, "Large-scale BotDetection for Search Engines,"Proc.IntlConf.World WideWeb, pp. 501–510, 2010.
  • [20]N. Sadagopan, and J. Li, "Characterizing TypicalandAtypical User Sessions in Clickstreams,"Proc. IntlConf.World Wide Web,pp. 885–894,2008.
  • [21]X. Li, M.Zhang, Y. Liu, S. Ma, Y.Jin, and L.Ru, "Search EngineClick SpamDetection Based on BipartiteGraph Propagation,"Proc. ACM Intl Conf. Web SearchandData Mining, pp. 93–102, 2014.
  • [22] G. Buehrer, J. W. Stokes, and K. Chellapilla, "A Large-scale Study ofAutomatedWeb SearchTraffic,"Proc. IntlWorkshop on Adversarial Information Retrieval on theWeb,pp.1–8, 2008.
  • [23] R. A. Costa, R. J.G. B. de Queiroz, andE. R.Cavalcanti, "AProposal toPreventClick-FraudUsingClickable CAPTCHAs,"Proc. IEEE Intl Conf. SoftwareSecurity and Reliability Companion, pp. 62–67, 2012.
  • [24] T. Cover,and P. Hart, "NearestNeighbor PatternClassification,"IEEE Trans.Inf. Theor.,vol. 13, no.1, pp.21–27, Sep. 2006.
دوره 14، شماره 1
بهار و تابستان
اردیبهشت 1395