بهبود سامانه ‏های تصدیق هویت گوینده برای گفتارهای آلوده به نویز با استفاده از بردارهای هویت موزون

نویسندگان

پژوهشکده برق جهاد دانشگاهی، تهران، ایران

چکیده

دسترسی ایمن به سامانه‌‌های کاربردی متفاوت از فواصل دور و نزدیک، کاربرپسند بودن، پیچیدگی محاسباتی کم و هزینه پیاده‌سازی پایین از ویژ‌گی‌های برجسته روش تصدیق هویت مبتنی بر گفتار است. اما کارایی این شیوه در محیط‌های واقعی به دلیل وجود نویزهای متفاوت صوتی و عوارض کانال به‌شدت افت می‏کند. روش i-vector PLDA ازجمله شیوه‌های موفق در بهبود عملکرد سامانه‌های تصدیق هویت گوینده است. در این مقاله بهره‌مندی از ویژگی‌های آماری بردارهای ثبت‌نام گویندگان هدف برای وزن‌دهی به بردارهای مدل و تست، جهت بهبود دقت امتیازدهی و درنتیجه عملکرد سامانه‌‌ تصدیق هویت در شرایط آزمون گفتار نویزی پیشنهاد گردیده است. تأثیر استفاده از این بردارهای وزن داده شده، که آن را بردارهای موزون نامیده‏ایم، بر عملکرد سامانه در محیط‌های نویزی مورد ارزیابی قرار گرفته است. آموزش‌ها و آزمون‌ها با استفاده از دادگان گفتار TIMIT، بردارهای ویژگی MFCC و PNCC و روش امتیازدهی PLDA انجام شده است. همچنین برای بهبود عملکرد سامانه در شرایط عدم تطابق نویز، بین گفتار ثبت‏نام و آزمون، از آموزش چند-شرطی برای LDA و PLDA استفاده شده است. همچنین ترکیب امتیازات این آزمونها نیز مورد ارزیابی قرار گرفت. نتایج آزمون‌ها مبین آن است که بهره‌گیری از بردارهای موزون دقت سامانه تصدیق هویت گوینده را برای گفتار‌های نویزی نیز افزایش می‌دهد، علاوه بر آن در اکثر قریب به اتفاق موارد ترکیب امتیازات آزمونها نیز عملکرد سامانه را بهبود میبخشد.

کلیدواژه‌ها

  • [1] R. de Luis-Garcı́a, C. Alberola-López, O. Aghzout, and J. Ruiz-Alzola, "Biometric identification systems," Signal Processing, vol. 83, pp. 2539-2557, 2003
  • [2] J. H. L. Hansen and T. Hasan, "Speaker Recognition by Machines and Humans: A tutorial review," IEEE Signal Processing Magazine, vol. 32, pp. 74-99, 2015.
  • [3] D. A. Reynolds, T. F. Quatieri, and R. B. Dunn, "Speaker verification using adapted Gaussian mixture models," Digital signal processing, vol. 10, pp. 19-41, 2000.
  • [4] P. Kenny, "Bayesian speaker verification with heavy-tailed priors," in Proc. Odyssey: The Speaker and Language Recognition Workshop, pp. 1-10, Czech Republic, 2010.
  • [5] N. Dehak, P. Kenny, R. Dehak, P. Dumouchel, and P. Ouellet, "Front-End Factor Analysis for Speaker Verification," IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, pp. 788-798, 2011.
  • [6] F. Richardson, D. Reynolds, and N. Dehak, "Deep neural network approaches to speaker and language recognition," IEEE Signal Processing Letters, vol. 22, pp. 1671-1675, 2015.
  • [7] M. McLaren, Y. Lei, and L. Ferrer, "Advances in deep neural network approaches to speaker recognition," in Proc. 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4814-4818, 2015.
  • [8] D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, and S. Khudanpur, "X-vectors: Robust dnn embeddings for speaker recognition," in Proc. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5329-5333, 2018.
  • [9] M. Ravanelli and Y. Bengio, "Speaker recognition from raw waveform with sincnet," in Proc. 2018 IEEE Spoken Language Technology Workshop (SLT), pp. 1021-1028, 2018.
  • [10] E. Lleida and L. J. Rodriguez-Fuentes, "Speaker and language recognition and characterization: Introduction to the CSL special issue," ed: Elsevier, 2018.
  • [11] C. S. Greenberg, D. Bansé, G.R. Doddington, D. Garcia-Romero, J. J. Godfrey, T. Kinnunen, A.F. Martin, A. McCree, M. Przybocki, and D.A. Reynolds, "The NIST 2014 Speaker Recognition i-Vector Machine Learning Challenge," in Proceedings ofOdyssey: The Speaker and Language Recognition Workshop, Joensuu, Finland, 2014.
  • [12] P.-M. Bousquet, D. Matrouf,and J.-F. Bonastre, "Intersession Compensation and Scoring Methods in the i-vectors Space for Speaker Recognition," in Proc. Interspeech, pp. 485-488, 2011.
  • [13] D. Garcia-Romero and C. Y. Espy-Wilson, "Analysis of i-vector Length Normalization in Speaker Recognition Systems," in Proc. Interspeech, pp. 249-252, 2011.
  • [14] M. McLaren and D. Van Leeuwen, "Source-normalised-and-weighted LDA for robust speaker recognition using i-vectors," in Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2011, pp. 5456-5459, 2011.
  • [15] B. Vesnicer, J. Zganec-Gros, S. Dobrisek, and V. Struc, "Incorporating duration information into i-vector-based speaker-recognitionsystems," in Proc. Odyssey: The Speaker and Language Recognition Workshop, pp. 241-248, 2014.
  • [16] Z. Lei, Y. Wan, J. Luo, and Y. Yang, "Mahalanobis Metric Scoring Learned from Weighted Pairwise Constraints in I-Vector Speaker Recognition System," in Proc. INTERSPEECH, pp. 1815-1819, 2016.
  • [17] O. Novotný, O. Plchot, O. Glembek, and L. Burget, "Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition," Computer Speech & Language, 2019.
  • [18] W. B. Kheder, D. Matrouf, J.-F. Bonastre, M. Ajili, and P.-M. Bousquet, "Additive noise compensation in the I-vector space for speaker recognition," in Proc. 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4190-4194, 2015.
  • [19] N. Li and M. Mak, "SNR-invariant PLDA with multiple speaker subspaces," in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5565-5569, 2016.
  • [20] P. Rajan, A. Afanasyev, V. Hautamäki, and T. Kinnunen, "From single to multiple enrollment i-vectors: Practical PLDA scoring variants for speaker verification," Digital Signal Processing, vol. 31, pp. 93-101, 2014.
  • [21] A. Sholokhov, T. Kinnunen, and S. Cumani, "Discriminative multi-domain PLDA for speaker verification," in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016, pp. 5030-5034, 2016.
  • [22] T. Kinnunen and H. Li, "An overview of text-independent speaker recognition: From features to supervectors," Speech Communication, vol. 52, pp. 12-40, 2010.
  • [23] C. Kim and R. M. Stern, "Power-normalized cepstral coefficients (PNCC) for robust speech recognition," in Proc. IEEE Int. Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4101-4104, 2012.
  • [24] م. محمدی، و ح. ر. صادق ‏محمدی، "بهبود عملکرد سامانه‌های تصدیق هویت گوینده در فضای I-Vector با استفاده از بردارهای هویت موزون ،" بیست و سومین کنفرانس ملی سالانه انجمن کامپیوتر ایران، تهران، دانشگاه صنعتی شریف، 1396.
  • [25] M. Mohammadi and H. R. S. Mohammadi, "Weighted I-Vector Based Text-Independent Speaker Verification System," in Proc. 27th Iranian Conference on Electrical Engineering (ICEE), pp. 1647-1653, 2019.
  • [26] V. Zue, S. Seneff, and J. Glass, "Speech database development at MIT: TIMIT and beyond," Speech Communication, vol. 9, pp. 351-356, 1990.
  • [27] A. Varga and H. J. M. Steeneken, "Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems," Speech Communication, vol. 12, pp. 247-251, 1993.
  • [28] R. Saeidi, H. R. Sadegh Mohammadi, T. Ganchev, and R. D. Rodman, "Particle swarm optimization for sorted adapted gaussian mixture models," IEEE Transactions on Audio, Speech, and Language processing, vol. 17, pp. 344-353, 2009.
  • [29] "The NIST Year 2008 Speaker Recognition Evaluation Plan," Available: https://www.nist.gov/itl/iad/mig/speaker-recognition, 2008.
  • [30] M. Brookes, "Voicebox: Speech processing toolbox for matlab," Software, available [Mar. 2011] from http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html, vol. 47, 1997.
  • [31] S. O. Sadjadi, M. Slaney, and L. Heck, "MSR Identity Toolbox v1. 0: A MATLAB Toolbox for Speaker Recognition Research," Speech and Language Processing Technical Committee Newsletter, 2013.
  • [32] F. Răstoceanu and M. Lazăr, "Score fusion methods for text-independent speaker verification applications," in Proc. 2011 6th Conference on Speech Technology and Human-Computer Dialogue (SpeD), pp. 1-6, 2011.
  • [33] S. Garcia-Salicetti, M. A. Mellakh, L. Allano, and B. Dorizzi, "Multimodal biometric score fusion: The Mean Rule vs. support vector classifiers," in Proc. 2005 13th European Signal Processing Conference, pp. 1-4, 2005.
  • [34] م. محمدی، و ح. ر. صادق‏ محمدی، "بهبود عملکرد سامانه مستقل از متن تصدیق هویت گوینده برای گفتار آلوده به نویز با ترکیب دو روش GMM-UBM و I-Vector PLDA،" چهارمین کنفرانس پردازش سیگنال و سامانه‌های هوشمند، تهران، دانشگاه صنعتی امیرکبیر، 1397.
دوره 17، شماره 2
پاییز و زمستان
آذر 1398