Research summary of Emre Yılmaz

Bio

Emre received the B.Sc. degree in electrical and electronics engineering from the Middle East Technical University (METU), Turkey in 2008 and the M.Sc. degree in electrical engineering from the Royal Institute of Technology (KTH), Sweden in 2010. Then, he worked as a part-time researcher in the Institute of Communication Systems and Data Processing (IND), RWTH Aachen, Germany. He joined the Department of Electrical Engineering (ESAT), KU Leuven, Belgium as a Ph.D. candidate in January 2011 and received the Ph.D. degree in May 2015. From July 2015 to May 2018, he was a postdoctoral researcher at the CLST group in Radboud University Nijmegen, Netherlands. He was a research fellow in the Department of Electrical and Computer Engineering at the National University of Singapore from June 2018 to March 2020. Currently, he is a senior computer scientist at the Speech Technology & Research (STAR) Lab in SRI International, CA, USA. His research interests are ASR of code-switching speech, noise robust ASR, ASR of low-resourced languages, ASR of children and pathological speech, medical applications of ASR, speech enhancement and speaker & language recognition.

Contact details

Work address: 333 Ravenswood Ave, Menlo Park, CA 94024, USA

E-mail address: emre.yilmaz (at) sri.com, emrey (at) kth.se

Skype: schemreier1

Previous Projects

Publications [Google Scholar] [ResearchGate] [Orcid] [Scopus] [arXiv] [GitHub] [LinkedIn]

2022

A. Biswas, E. Yılmaz, E. Van der Westhuizen, F. De Wet and T. Niesler, “Code-Switched Automatic Speech Recognition in Five South African Languages,” Computer Speech & Language, vol. 71, 101262, Jan. 2022.

2020

E. Yılmaz, Ö. B. Gevrek, J. Wu, Y. Chen, X. Meng and H. Li, “Deep Convolutional Spiking Neural Networks for Keyword Spotting,” in Proc. INTERSPEECH 2020, pp. 2257-2561, Shanghai, China, Oct. 2020. [Postprint]

X. Zhou, E. Yılmaz, Y. Long, Y. Li and H. Li, “Multi-Encoder-Decoder Transformer for Code-Switching Speech Recognition,” in Proc. INTERSPEECH 2020, pp. 1042-1046, Shanghai, China, Oct. 2020. [arXiv] [Postprint]

X. Zhou, G. Lee, E. Yılmaz, Y. Long, J. Liang and H. Li, “Self-and-Mixed Attention Decoder with Deep Acoustic Structure for Transformer-based LVCSR,” in Proc. INTERSPEECH 2020, pp. 5016-5020, Shanghai, China, Oct. 2020. [arXiv] [Postprint]

J. van Hout, V. Mitra, H. Franco, E. Yılmaz, “Time-Frequency Convolutional Neural Networks with Bottleneck Architecture for Query-by-Example Processing,” US Patent 10,777,188 B2, issued on Nov. 14, 2018, granted on Sept. 15, 2020. [Postprint]

C. Gupta, E. Yılmaz and H. Li, “Automatic Lyrics Alignment and Transcription in Polyphonic Music: Does Background Music Help?,” in Proc. ICASSP 2020, pp. 496-500, Barcelona, Spain, May 2020. [arXiv] [Postprint]

C. Gupta, E. Yılmaz and H. Li, “NUS Auto Lyrix Align,” ICASSP 2020, Show & Tell, Barcelona, Spain, May 2020.

N. Wilkinson, A. Biswas, E. Yılmaz, F. De Wet, E. Van der Westhuizen and T. Niesler, “Semi-Supervised Acoustic Modeling for Five-lingual Code-switched ASR Using Automatically-Segmented Soap Opera Speech,” in Proc. SLTU-CCURL, pp. 70-78, Marseille, France, May 2020. [arXiv] [Postprint]

A. Biswas, E. Yılmaz, F. De Wet, E. Van der Westhuizen and T. Niesler, “Semi-Supervised Development of ASR Systems for Multilingual Code-Switched Speech in Under-Resourced Languages,” in Proc. LREC, pp. 3468-3474, Marseille, France, May 2020. [arXiv] [Postprint]

J. Wu, E. Yılmaz, M. Zhang, H. Li and K. C. Tan, “Deep Spiking Neural Networks for Large Vocabulary Automatic Speech Recognition,” Frontiers in Neuroscience, vol. 14 (199), pp. 1-14, Mar. 2020. [arXiv] [Postprint]

2019

X. Yue, G. Lee, E. Yılmaz, F. Deng and H. Li, “End-to-End Code-Switching ASR for Low-Resourced Language Pairs,” in Proc. IEEE ASRU Workshop, pp. 972-979, Singapore, Dec. 2019. [arXiv] [Postprint]

Y. Zhou, X. Tian, E. Yılmaz, R. K. Das and H. Li, “A Modularized Neural Network with Language-Specific Output Layers for Cross-lingual Voice Conversion,” in Proc. IEEE ASRU Workshop, pp. 160-167, Singapore, Dec. 2019. [arXiv] [Postprint]

C. Gupta, E. Yılmaz and H. Li, “Lyrics-to-Audio Alignment with Music-Aware Acoustic Models,” in International Music Information Retrieval Evaluation Exchange (MIREX), Nov. 2019. [Abstract] [Poster]

E. Yılmaz, V. Mitra, G. Sivaraman and H. Franco, “Articulatory and Bottleneck Features for Speaker-Independent ASR of Dysarthric Speech,” Computer Speech & Language, vol. 58, pp. 319-334, Nov. 2019. [Preprint] [arXiv] [Postprint]

E. Yılmaz, S. Cohen, X. Yue, D. van Leeuwen and H. Li, “Multi-Graph Decoding for Code-Switching ASR,” in Proc. INTERSPEECH, pp. 3750-3754, Graz, Austria, Sept. 2019. [arXiv] [Postprint]

Q. Wang, E. Yılmaz, A. Derinel and H. Li, “Code-Switching Detection Using ASR-Generated Language Posteriors,” in Proc. INTERSPEECH, pp. 3740-3744, Graz, Austria, Sept. 2019. [arXiv] [Postprint]

E. Yılmaz, A. Derinel, Z. Kun, H. van den Heuvel, N. Brummer, H. Li and D. van Leeuwen, “Large-Scale Speaker Diarization of Radio Broadcast Archives,” in Proc. INTERSPEECH, pp. 411-415, Graz, Austria, Sept. 2019. [arXiv] [Postprint]

A. Biswas, E. Yılmaz, F. De Wet, E. Van der Westhuizen and T. Niesler, “Semi-Supervised Acoustic Model Training for Five-lingual Code-Switched ASR,” in Proc. INTERSPEECH, pp. 3745-3749, Graz, Austria, Sept. 2019. [arXiv] [Postprint]

C. Gupta, E. Yılmaz and H. Li, “Acoustic Modeling for Lyrics-to-Audio Alignment,” in Proc. INTERSPEECH, pp. 2040-2044, Graz, Austria, Sept. 2019. [arXiv] [Postprint]

K. A. Lee et al., “I4U Submission to NIST SRE 2018: Leveraging from a Decade of Shared Experiences,” in Proc. INTERSPEECH, pp. 1497-1501, Graz, Austria, Sept. 2019. [arXiv] [Postprint]

2018

E. Yılmaz, M. McLaren, H. van den Heuvel and D. van Leeuwen, “Semi-Supervised Acoustic Model Training for Speech with Code-Switching,” Speech Communication, vol. 105, pp. 12-22, Dec. 2018. [Preprint] [arXiv] [Postprint]

L. Xu, R. K. Das, E. Yılmaz, J. Yang and H. Li, “Generative X-vectors for Text-Independent Speaker Verification,” in Workshop on Spoken Language Technologies (SLT), pp. 1014-1020, Athens, Greece, Dec. 2018. [Preprint] [arXiv] [Postprint]

E. Yılmaz, H. van den Heuvel and D. van Leeuwen, “Code-Switching Detection with Data-Augmented Acoustic and Language Models,” in 6th Workshop on Spoken Language Technologies for Under-resourced Languages (SLTU), pp. 127-131, India, Sept. 2018. [Preprint] [arXiv] [Postprint] [Presentation]

R. Menon, H. Kamper, E. Yılmaz, J. Quinn and T. Niesler, “ASR-free CNN-DTW Keyword Spotting Using Multilingual Bottleneck Features for Almost Zero-Resource Languages,” in 6th Workshop on Spoken Language Technologies for Under-resourced Languages (SLTU), pp. 20-24, Gurugram, India, Sept. 2018. [Preprint] [arXiv] [Postprint]

E. Yılmaz, H. van den Heuvel and D. van Leeuwen, “Acoustic and Textual Data Augmentation for Improved ASR of Code-Switching Speech,” in Proc. INTERSPEECH, pp. 1933-1937, Hyderabad, India, Sept. 2018. [Preprint] [arXiv] [Postprint] [Poster]

E. Yılmaz, V. Mitra, C. Bartels and H. Franco, “Articulatory Features for ASR of Pathological Speech,” in Proc. INTERSPEECH, pp. 2958-2962, Hyderabad, India, Sept. 2018. [Preprint] [arXiv] [Postprint] [Poster]

E. Yılmaz, A. Biswas, E. Van der Westhuizen, F. De Wet and T. Niesler, “Building a Unified Code-Switching ASR System for South African Languages,” in Proc. INTERSPEECH, pp. 1923-1927, Hyderabad, India, Sept. 2018. [Preprint] [arXiv] [Postprint] [Presentation]

A. Biswas, F. De Wet, E. Van der Westhuizen, E. Yılmaz and T. Niesler, “Multilingual Neural Network Acoustic Modelling for ASR of Under-Resourced English-isiZulu Code-Switched Speech,” in Proc. INTERSPEECH, pp. 2603-2607, Hyderabad, India, Sept. 2018. [Preprint] [Postprint]

M. McLaren, D. Castán, M. K. Nandwana, L. Ferrer and E. Yılmaz, “How to Train Your Speaker Embeddings Extractor,” in Proc. Speaker Odyssey Workshop, pp. 327-334, Les Sables d'Olonne, France, June 2018. [Preprint] [Postprint]

2017

E. Yılmaz, M. McLaren, H. van den Heuvel and D. van Leeuwen, “Language Diarization for Semi-Supervised Bilingual Acoustic Model Training,” in Proc. IEEE Automatic Speech Recognition and Understanding (ASRU), pp. 91-96, Okinawa, Japan, December 2017. [Preprint] [Poster] [Postprint] [BibTeX]

E. Yılmaz, J. van Hout and H. Franco, “Noise-Robust Exemplar Matching for Rescoring Query-by-Example Search,” in Proc. IEEE Automatic Speech Recognition and Understanding (ASRU), pp. 1-7, Okinawa, Japan, December 2017. [Preprint] [Poster] [Postprint] [BibTeX]

J. Dijkstra, W. Heeringa, E. Yılmaz, H. van den Heuvel, D. van Leeuwen and H. Van de Velde, “A Real Time Study of Contact-Induced Language Change in Frisian Relative Pronouns,” in Proc. International Symposium on Monolingual and Bilingual Speech (ISMBS), pp. 113-119, Chania, Greece, December 2017. [Postprint]

E. Yılmaz, H. van den Heuvel and D. van Leeuwen, “Exploiting Untranscribed Broadcast Data for Improved Code-switching Detection,” in Proc. INTERSPEECH, pp. 42-46, Stockholm, Sweden, August 2017. [Preprint] [Presentation][Postprint] [BibTeX]

E. Yılmaz, M. Ganzeboom, C. Cucchiarini and H. Strik, “Multi-stage DNN training for Automatic Recognition of Dysarthric Speech,” in Proc. INTERSPEECH, pp. 2685-2689, Stockholm, Sweden, August 2017. [Preprint] [Presentation] [Postprint] [BibTeX]

E. Yılmaz, J. Dijkstra, H. Van de Velde, F. Kampstra, J. Algra, H. van den Heuvel and D. van Leeuwen, “Longitudinal Speaker Clustering and Verification Corpus with Code-switching Frisian-Dutch Speech,” in Proc. INTERSPEECH, pp. 37-41 Stockholm, Sweden, August 2017. [Preprint] [Presentation] [Postprint] [BibTeX]

J. Dijkstra, H. Van de Velde, E. Yılmaz, F. Kampstra, J. Algra, H. van den Heuvel, D. van Leeuwen, “Audio mining and language change research: disclosure of a Frisian-Dutch radio archive,” in International Conference on Language Variation in Europe (ICLaVE9), Abstracts, Malaga, Spain, June 2017. [Poster]

2016

E. Yılmaz, H. van den Heuvel and D. van Leeuwen, “Code-switching Detection Using Multilingual DNNs,” in IEEE Workshop on Spoken Language Technology (SLT), pp. 610-616, San Diego, CA, USA, December 2016. [Preprint] [Poster] [Postprint] [BibTeX]

E. Yılmaz, H. van den Heuvel and D. van Leeuwen, “The Radboud University Nijmegen Submission to NIST SRE 2016,” in NIST SRE Post Evaluation Workshop, San Diego, CA, USA, December 2016. [SystemDescription] [Poster]

M. Ganzeboom, E. Yılmaz, C. Cucchiarini and H. Strik, “On the Development of an ASR-based Multimedia Game for Speech Therapy: Preliminary Results,” in International Workshop on Multimedia for Personal Health and Health Care (MM Health), Amsterdam, Netherlands, Oct. 2016. [Preprint] [Postprint] [Presentation] [BibTeX]

M. Ganzeboom, E. Yılmaz, C. Cucchiarini and H. Strik, “Prototype ASR-based Multimedia Game for Speech Therapy,” in International Workshop on Multimedia for Personal Health and Health Care (MM Health), Show & Tell, Amsterdam, Netherlands, Oct. 2016. [Preprint] [Postprint] [BibTeX]

M. Ganzeboom, E. Yılmaz, C. Cucchiarini and H. Strik, “An ASR-based Interactive Game for Speech Therapy,” in 7th Workshop on Speech and Language Processing for Assistive Technologies (SLPAT), pp. 63-68, San Francisco, CA, USA, Sept. 2016. [Preprint] [Postprint] [Poster] [BibTeX]

E. Yılmaz, M. Ganzeboom, C. Cucchiarini and H. Strik, “Combining Non-pathological Data of Different Language Varieties to Improve DNN-HMM Performance on Pathological Speech,” In Proc. INTERSPEECH, pp. 218-222, San Francisco, CA, USA, Sept. 2016. [Preprint] [Postprint] [Poster] [BibTeX]

E. Yılmaz, H. van den Heuvel, J. Dijkstra, H. Van de Velde, F. Kampstra, J. Algra and D. van Leeuwen, “Open Source Speech and Language Resources for Frisian,” In Proc. INTERSPEECH, pp. 1536-1540, San Francisco, CA, USA, Sept. 2016. [Preprint] [Postprint] [Poster] [BibTeX]
E. Yılmaz, H. van den Heuvel and D. van Leeuwen, “Investigating Bilingual Deep Neural Networks for Automatic Recognition of Code-switching Frisian Speech,” Procedia Computer Science, vol. 81, pp. 159-166, in 5th Workshop on Spoken Language Technologies for Under-resourced Languages (SLTU), Yogyakarta, Indonesia, May 2016. [Preprint] [Postprint] [Presentation] [BibTeX]
E. Yılmaz, M. Andringa, S. Kingma, J. Dijkstra, F. van der Kuip, H. Van de Velde, F. Kampstra, J. Algra, H. van den Heuvel and D. van Leeuwen, “A Longitudinal Bilingual Frisian-Dutch Radio Broadcast Database Designed for Code-switching Research,” In Proc. LREC, pp. 4666-4669, Portorož, Slovenia, May 2016. [Preprint] [Postprint] [Poster] [BibTeX]
E. Yılmaz, M. Ganzeboom, L. Beijer, C. Cucchiarini and H. Strik, “A Dutch Dysarthric Speech Database for Individualized Speech Therapy Research,” In Proc. LREC, pp. 792-795, Portorož, Slovenia, May 2016. [Preprint] [Postprint] [Poster] [BibTeX]
E. Yılmaz, J. F. Gemmeke and H. Van hamme, “Data Selection for Noise Robust Exemplar Matching,” In Proc. ICASSP, Shanghai, China, pp. 5980-5984, March 2016. [Preprint] [Postprint] [Presentation] [BibTeX]
E. Yılmaz, M. Ganzeboom, M. Bakker, D.-S. Boschman, L. Loos, J. Ongering, L. Beijer, T. Rietveld, C. Cucchiarini and H. Strik, “A Serious Game for Speech Training in Neurological Patients,” In ICASSP, Show & Tell, Shanghai, China, March 2016. [Poster] [BibTeX]

E. Yılmaz, J. F. Gemmeke and H. Van hamme, “Noise Robust Exemplar Matching with Alpha-Beta Divergence,” Speech Communication, vol. 76, pp. 127-142, Feb. 2016. [Preprint] [Postprint] [BibTeX]

2015

E. Yılmaz, M. Andringa, S. Kingma, F. van der Kuip, H. Van de Velde, F. Kampstra, J. Algra, H. van den Heuvel and D. van Leeuwen , “Initial steps towards building a large vocabulary ASR system for the Frisian language,” in Computational Linguistics in the Netherlands (CLIN), Abstracts, Amsterdam, Netherlands, Dec. 2015. [Poster] [BibTeX]

E. Yılmaz, D. Baby and H. Van hamme, “Noise Robust Exemplar Matching for Speech Enhancement: Applications on Automatic Speech Recognition,” in Proc. INTERSPEECH, Dresden, Germany, pp. 688-692, Sept. 2015. [Preprint] [Postprint] [Poster] [BibTeX]
E. Yılmaz, J. F. Gemmeke and H. Van hamme, “Adaptive Noise Dictionary Design for Noise Robust Exemplar Matching for Speech,” in Proc. EUSIPCO, Nice, France, pp. 1711-1715, Aug. 2015. [Preprint] [Postprint] [Presentation] [BibTeX]

E. Yılmaz, D. Baby and H. Van hamme, “Noise Robust Exemplar Matching with Coupled Dictionaries for Single-Channel Speech Enhancement,” in Proc. EUSIPCO, Nice, France, pp. 879-883, Aug. 2015. [Preprint] [Postprint] [Presentation] [BibTeX]

E. Yılmaz, “Noise Robust Exemplar Matching for Speech Recognition and Enhancement,” PhD Thesis, KU Leuven, Belgium, May 2015. [Thesis] [Online] [Presentation] [BibTeX]

2014

E. Yılmaz, K. Rematas, T. Tuytelaars and H. Van hamme, “Learning Like a Toddler: Watching Television Series to Learn Vocabulary from Images and Audio,” in Proc. ACM Multimedia, Orlando, FL, USA, pp. 1189-1192, Nov. 2014. [Preprint] [Postprint] [Poster] [BibTeX]
E. Yılmaz, J. Pelemans, and H. Van hamme, “Automatic Assessment of Children's Reading with the FLaVoR Decoding Using a Phone Confusion Model,” in Proc. INTERSPEECH, Singapore, pp. 969-972, Sept. 2014. [Preprint] [Postprint] [Presentation] [BibTeX]
E. Yılmaz, J. F. Gemmeke, and H. Van hamme, “Noise Robust Exemplar Matching Using Sparse Representations of Speech,” IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 22 (8), pp. 1306-1319, Aug. 2014. [Preprint] [Postprint] [BibTeX]
E. Yılmaz, J. Pelemans, S. Lievens and H. Van hamme, “Speech Reception Threshold Measurement Using Automatic Speech Recognition,” in Proc. ICASSP, Show & Tell, Florence, Italy, May 2014. [Preprint] [Poster] [BibTeX]

E. Yılmaz, J. F. Gemmeke and H. Van hamme, “Noise-robust Speech Recognition with Exemplar-based Sparse Representations Using Alpha-Beta Divergence,” in Proc. ICASSP, Florence, Italy, pp. 5539-5543, May 2014. [Preprint] [Postprint] [Poster] [BibTeX]

2013

E. Yılmaz, J. F. Gemmeke and H. Van hamme, “Exemplar Selection Techniques for Sparse Representations of Speech Using Multiple Dictionaries,” in Proc. EUSIPCO, Marrakesh, Morocco, pp. 1-5, Sept. 2013. [Preprint] [Postprint] [Presentation] [BibTeX]
H. Deprez, E. Yılmaz, S. Lievens and H. Van hamme, “Automating Speech Reception Threshold Measurements Using Automatic Speech Recognition,” in 4th Workshop on Speech and Language Processing for Assistive Technologies (SLPAT), Grenoble, France, pp. 35-40, Aug. 2013. [Preprint] [Postprint] [BibTeX]
E. Yılmaz, J. F. Gemmeke and H. Van hamme, “Noise-robust Automatic Speech Recognition with Exemplar-based Sparse Representations Using Multiple Length Adaptive Dictionaries,” in 2nd International Workshop on Machine Learning in Multisource Environments (CHIME), Vancouver, Canada, pp. 39-43, June 2013. [Preprint] [Postprint] [Poster] [BibTeX]
E. Yılmaz, J. F. Gemmeke and H. Van hamme, “Embedding Time Warping in Exemplar-based Sparse Representations of Speech,” in Proc. ICASSP, Vancouver, Canada, pp. 8076-8080, May 2013. [Preprint] [Postprint] [Poster] [BibTeX]

2012

E. Yılmaz, D. Van Compernolle and H. Van hamme, “Robust Tracking for Automatic Reading Tutors,” in Proc. INTERSPEECH, Portland, OR, USA, pp. 811-814, Sept. 2012. [Preprint] [Postprint] [Presentation] [BibTeX]
E. Yılmaz, D. Van Compernolle and H. Van hamme, “Combining Exemplar-based Matching and Exemplar-based Sparse Representations of Speech,” in Symposium on Machine Learning in Speech and Language Processing (MLSLP), Portland, OR, USA, Sept. 2012. [Preprint] [Postprint] [Poster] [BibTeX]
E. Yılmaz, J. F. Gemmeke, D. Van Compernolle and H. Van hamme, “Noise-robust Digit Recognition with Exemplar-based Sparse Representations of Variable Length,” in IEEE Workshop on Machine Learning for Signal Processing (MLSP), Santander, Spain, pp. 1-4, Sept. 2012. [Preprint] [Postprint] [Poster] [BibTeX]

2010

H. W. Löllmann, E. Yılmaz, M. Jeub and P. Vary, “An Improved Algorithm for Blind Reverberation Time Estimation,” in Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC), Tel Aviv, Israel, pp. 1-4, Aug. 2010. [Preprint] [Postprint] [BibTeX]
E. Yılmaz,“Algorithms for Estimating Reverberation Characteristics for Single Channel Dereverberation,” MSc Thesis, KTH, Sweden, May 2010. [Thesis] [Online] [Presentation] [BibTeX]