حذف اعوجاج ناشی از عملکرد غیرخطی میکروفن با بررسی طیف فرکانسی و شبکه عصبی RBF

پذیرفته شده برای ارائه شفاهی ، صفحه 1-10 (10)
کد مقاله : 1017-ISAV2022 (R2)
نویسندگان
گروه مهندسی برق و کامپیوتر، دانشکده فنی و مهندسی، دانشگاه خوارزمی، تهران، ایران
چکیده
یکی از موضوعات مهم در پردازش سیگنال‌های صوتی، حذف یا کاهش نویز ناخواسته از سیگنال اصلی و بهبود آن است. ساختار فیزیکی میکروفن، می‌تواند باعث ایجاد اعوجاج‌های غیرخطی در سیگنال ضبط شده و در‌نتیجه اضافه شدن نویز بر روی سیگنال اصلی شود. یکی از پارامترهای مهم در تعیین کیفیت میکروفن، نویز خودساخته بوده که به معنی سیگنالی است که میکروفن در زمان سکوت از خود تولید می‌کند. در این مقاله با استفاده از بررسی طیف فرکانسی یک سیگنال ضبط شده، سعی در شناسایی الگوی اعوجاج به ازای دامنه و فرکانس سیگنال و جبران سازی آن با استفاده از فیلتر فرکانسی و شبکه‌ عصبی مصنوعی می‌گردد. برتری روش پیشنهادی نسبت به روش‌های پیشین این است که در آموزش شبکه عصبی نیازی به سیگنال تمیز نبوده و با شناسایی بخش سکوت سیگنال و نویز موجود در آن، شبکه عصبی آموزش دیده و از آن استفاده می‌شود. به‌منظور ارزیابی روش پیشنهادی، به ازای اعمال مقادیر مشخصی از نویز به سیگنال ورودی، نسبت سیگنال به نویز در خروجی اندازه‌گیری شده است که در مقایسه با روش‌های پیشین از کیفیت بسیار خوبی برخوردار است.
کلیدواژه ها
 
Title
Elimination of distortion caused by microphone nonlinear performance using the frequency spectrum and RBF neural network
Authors
Roya Amjadifard, Behzad Zouyousefain
Abstract
One of the important issues in audio signal processing is to reduce and/or eliminate unwanted noises from the original signal and improve it. The physical structure of a microphone can cause non-linear distortions in the recording signal, resulting in addition of noise on the original signal. One of the most important parameters in determining the quality of a microphone is the self-noise, which means the signal produced by the micro-phone itself. In this paper, by examining the frequency spectrum of a recorded signal, an attempt is made to identify the pattern of distortions on the amplitude and frequency of signals and to compensate the distortion using a frequency filter and an artificial neural network. The advantage of the proposed method over the previous works is that there is no need for a clean signal in the neural network training. In the proposed method, through identifying the silent part of the signal and identifying the noise in it, the neural network is trained. In order to evaluate the proposed method, the signal-to-noise ratio at the output is calculated. The results show the good quality of the proposed method com-pared to the previous works.
Keywords
Microphone distortion elimination, Microphone self-noise, RBF neural network
مراجع
<p>1. B. Nasersharif, A. Akbari, M.M. Homayounpour, "Mel sub-band filtering and compression for robust speech recognition", Proceeding of Eurospeech, 1102-1105 (2007).</p> <p>2. W. Cheng, Y. Chu, X. Chen, G. Zhou, D. Blamaud, J. Lu, &ldquo;Operational transfer path analysis with crosstalk cancellation using independent component analysis&rdquo;, Elsevier Journal of Sound and Vibration 473, (2020).</p> <p>3. J. Song, B. Li, &ldquo;Nonlinear and additive principal component analysis for functional data&rdquo;, Elsevier Journal of Multivariate Analysis 181, (2020).</p> <p>4. A. Lima, H. Zen, Y. Nankaku, C. Miyajima, K. Tokuda, T.Kitamura, &ldquo;On the use of kernel PCA for feature extraction in speech recognition&rdquo;, Proceeding of Eurospeech, Geneva, Switzerland, 2625&ndash;2628 (2013).</p> <p>5. T. Zhang, Y. Shao, Y. Wu, Y. Geng, L. Fan , &ldquo;An overview of speech endpoint detection algorithms&rdquo; , Elsevier journal of Applied Acoustics 160, (2020).</p> <p>6. B. F. Wu, K. C. Wang, &ldquo;Voice activity detection based on auto correlation function using wavelet transform and Teager energy operator&rdquo;, Computational Linguistics and Chinese Language Processing, (2019).</p> <p>7. F. Guojiang, &ldquo;A novel isolated speech recognition method based on neural network&rdquo;, International Conference on Networking and Information Technology IPCSIT 17, Singapore, (2011).</p> <p>8. O. Johannes R&auml;s&auml;nen, U. Kalervo Laine, T. Altosaar, &ldquo;Self-learning vector quantization for pattern discovery from speech&rdquo;, 10th Annual Conference of the International Speech Communication Association, Brighton, UK, (2009).</p> <p>9. J. Martinez, H. Perez, E. Escamilla, M. M. Suzuki, &ldquo;Speaker recognition using Mel frequency Cepstral coefficients(MFCC) and vector quantization (VQ) techniques&rdquo;, Electrical Communications and Computers (CONIELECOMP), (2012).</p> <p>10. M. Adnan Al-Alaoui, L. Al-Kanj, J. Azar, E. Yaacoub, &ldquo;Speech recognition using artificial neural networks and hiddenMarkov models&rdquo;, IEEE (2018).</p> <p>11. O. Abdel-Hamid, H. Jiang, L. Deng, G. Penn, D. Yu, &ldquo;Convolutional neural networks for speech recognition&rdquo;, IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP) 22, October (2014).</p> <p>12. M. Fachrie, A. Harjoko, &ldquo;Robust indonesian digit speech recognition using Elman recurrent neural network&rdquo;, Konferensi Nasional Informatika (KNIF), (2015).</p> <p>13. Y. Zhang, &ldquo;Speech recognition using deep learning algorithms&rdquo;, Technical Report, Stanford University, (2015).</p> <p>14. A. Halageri, A. Bidappa, C. Arjun, M. M. Sarathy, S. Sultana, &ldquo;Speech recognition using deep learning&rdquo;, International Journal of Computer Science and Information Technologies (IJCSIT) 6, (2015).</p> <p>15. https://www.ee.columbia.edu/~dpwe/sounds/digits/</p> <p>16. H. Madinei, G. Rezazadeh, N. Sharafkhani, &ldquo;Study of structural noise owing to nonlinear behaviour of capacitive microphones&rdquo;, 44, 1193-1200 (2013).</p> <p>17. https://www.nti-audio.com/en/support/know-how/fast-fourier-transform-fft.</p> <p>18. S. R. Nakamura, &ldquo;Maximum likelihood sub-band adaptation for robust speech recognition", Speech Communication 47, 243-264 (2015).</p> <p>19. D. Palaz, M. Magimai-Doss, R. Collobert, &ldquo;End-to-end acoustic modelling using convolutional neural networks for HMM-based automatic speech recognition&rdquo;, Speech Communication108, (2019).</p> <p>20. S. Shafiee, F. Almasganj, B. Vazirnezhad, A. Jafari, &ldquo;A two-stage speech activity detection system considering fractal aspects of prosody&rdquo;, Elsevier Pattern Recognition Letters 31, (2020).</p> <p>21. https://www.ee.columbia.edu/~dpwe/sounds/digits/</p> <p>22. E. Paajanen, B. Ayad, &ldquo;New objective measures for characterisation of noise suppression algorithms&rdquo;, IEEE Workshop on Speech Coding Proceedings, (2000).</p> <p>23. M. M. Moghimi, &ldquo;Modifying the speech signal in time-frequency domain&rdquo;, (Thesis, in persian), (1398).</p>