2025年5月26日上午,武(wu)漢大(da)學黃公平(ping)教授(shou)和南方科技大(da)學王中(zhong)(zhong)秋(qiu)副(fu)教授(shou)受語音(yin)及語言信息處理國家(jia)工程研究中(zhong)(zhong)心張結副(fu)教授(shou)的(de)邀請,在中(zhong)(zhong)金宝搏入口188高(gao)新校區信智樓C301會議室分(fen)別(bie)做了(le)題為“麥克風陣列高保(bao)真(zhen)波束形成方法”和“語音分(fen)離(li)及其泛化”的精彩報告(gao)。本(ben)次報告(gao)由(you)張結(jie)副教授(shou)主持,工程研究中心感興趣(qu)師生參加(jia)了(le)報告(gao)會。
波(bo)束(shu)(shu)(shu)形(xing)成(cheng)(cheng)和(he)(he)語(yu)音分(fen)(fen)離問(wen)題(ti)一直是語(yu)音前端的(de)(de)(de)研究(jiu)熱點(dian)。報告會上(shang)(shang),黃(huang)教(jiao)授(shou)首(shou)先以(yi)(yi)聲(sheng)(sheng)信(xin)號的(de)(de)(de)感知和(he)(he)傳播作為切入點(dian),介(jie)紹了(le)麥(mai)克風(feng)陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie)在遠(yuan)場(chang)拾(shi)音問(wen)題(ti)上(shang)(shang)面(mian)(mian)臨的(de)(de)(de)挑戰和(he)(he)現有波(bo)束(shu)(shu)(shu)形(xing)成(cheng)(cheng)技術的(de)(de)(de)不足。他提(ti)到,由(you)于(yu)遠(yuan)場(chang)信(xin)號低(di)信(xin)噪比(bi)和(he)(he)麥(mai)克風(feng)陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie)尺寸一般較小的(de)(de)(de)限制(zhi),使得麥(mai)克風(feng)陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie)在復雜(za)的(de)(de)(de)室內聲(sheng)(sheng)學環(huan)境中,難(nan)以(yi)(yi)保(bao)持對遠(yuan)場(chang)寬帶語(yu)音信(xin)號高保(bao)真輸出。接著,黃(huang)教(jiao)授(shou)介(jie)紹了(le)適(shi)用于(yu)小型(xing)陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie)高保(bao)真波(bo)束(shu)(shu)(shu)形(xing)成(cheng)(cheng)的(de)(de)(de)差(cha)(cha)(cha)分(fen)(fen)麥(mai)克風(feng)陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie)方法(fa),并(bing)通(tong)過(guo)零點(dian)約束(shu)(shu)(shu)型(xing)差(cha)(cha)(cha)分(fen)(fen)陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie)這一技術創新,闡述了(le)波(bo)束(shu)(shu)(shu)形(xing)成(cheng)(cheng)技術高增益頻不變,設(she)計靈活并(bing)控制(zhi)白(bai)噪聲(sheng)(sheng)增益的(de)(de)(de)技術需求。隨后,針對提(ti)高差(cha)(cha)(cha)分(fen)(fen)陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie)的(de)(de)(de)調向(xiang)能(neng)力這一目標(biao),黃(huang)教(jiao)授(shou)分(fen)(fen)別介(jie)紹了(le)其(qi)團隊在推廣線(xian)性差(cha)(cha)(cha)分(fen)(fen)陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie)到環(huan)形(xing)差(cha)(cha)(cha)分(fen)(fen)陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie)、同(tong)(tong)心圓(yuan)環(huan)差(cha)(cha)(cha)分(fen)(fen)陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie)、任意結構(gou)差(cha)(cha)(cha)分(fen)(fen)陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie)方面(mian)(mian)的(de)(de)(de)實驗(yan)探索成(cheng)(cheng)果及其(qi)理論證明,展(zhan)示了(le)如何通(tong)過(guo)雅可(ke)(ke)比(bi)級(ji)數展(zhan)開的(de)(de)(de)方式在最小均方誤差(cha)(cha)(cha)準則下對實際波(bo)束(shu)(shu)(shu)圖進行最優(you)近似。最后,黃(huang)教(jiao)授(shou)進一步介(jie)紹了(le)通(tong)過(guo)構(gou)造全(quan)向(xiang)和(he)(he)指向(xiang)性麥(mai)克風(feng)組成(cheng)(cheng)的(de)(de)(de)混合陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie),來實現聲(sheng)(sheng)源(yuan)和(he)(he)陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie)不在同(tong)(tong)一水平面(mian)(mian)上(shang)(shang)時全(quan)空間調向(xiang)的(de)(de)(de)研究(jiu)工(gong)作,拓(tuo)展(zhan)提(ti)出了(le)球形(xing)差(cha)(cha)(cha)分(fen)(fen)陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie),動態環(huan)境下最優(you)差(cha)(cha)(cha)分(fen)(fen)陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie)設(she)計以(yi)(yi)及波(bo)束(shu)(shu)(shu)寬度和(he)(he)旁瓣可(ke)(ke)控的(de)(de)(de)差(cha)(cha)(cha)分(fen)(fen)陣(zhen)(zhen)列(lie)(lie)(lie)(lie)(lie)的(de)(de)(de)設(she)計問(wen)題(ti),現場(chang)同(tong)(tong)學深受啟發。
王中(zhong)秋副(fu)教授圍繞“語音分離及其泛(fan)化”主題,系統(tong)介紹了(le)其團隊在(zai)遠(yuan)場語音處理、說話人(ren)分離和去混響等方向的(de)(de)最新(xin)研究進展及成(cheng)果。報告從(cong)語音交互在(zai)復雜聲學(xue)環境中(zhong)的(de)(de)挑戰出(chu)發,王教授首(shou)先回顧了(le)傳統(tong)監(jian)督學(xue)習在(zai)語音增強(qiang)與分離中(zhong)的(de)(de)進展,尤其是在(zai)復雜頻(pin)譜映射(she)方面(mian)的(de)(de)創新(xin),并詳細介紹了(le)其提出(chu)的(de)(de)TF-GridNet模(mo)型。該模(mo)型融合(he)全(quan)頻段(duan)與子頻段(duan)建模(mo)能力(li),結合(he)時間(jian)和頻率維度上的(de)注意力(li)機制,實現了優(you)秀的(de)語音(yin)分離性能。在語音(yin)去混響方面(mian),王教授提出(chu)了基于前向卷積預測(FCP)的(de)新方法,通過聯(lian)合估(gu)計(ji)目標(biao)語(yu)(yu)音(yin)(yin)與混響(xiang)濾波器,有效(xiao)解決了傳統方法無法建模的(de)反射信號影(ying)響(xiang),顯著提(ti)升了語(yu)(yu)音(yin)(yin)質量和語(yu)(yu)音(yin)(yin)識別準確率(lv)。此外,報告還深入探討了無監(jian)督、弱監(jian)督和半監(jian)督語(yu)(yu)音(yin)(yin)分離方法的(de)研究動向,重點介紹了其(qi)團(tuan)隊提(ti)出的(de)UNSSOR、USDnet和SuperM2M等模型(xing),分別在(zai)利用未標注真實數據、融合(he)(he)近講遠講混合(he)(he)信息、以(yi)及聯合(he)(he)監督與(yu)非監督學習方面取(qu)得(de)了突破,顯著提升了模型(xing)在(zai)真實復雜(za)環(huan)境下的泛化能力。
兩場學術報告吸引了(le)研究中(zhong)心(xin)相關(guan)方向的師生(sheng)廣泛參與討論,兩位教(jiao)授耐心(xin)地(di)回答(da)了(le)在場師生(sheng)的提(ti)問(wen)。本次報告會不僅可以幫助學生(sheng)了(le)解麥(mai)克風(feng)陣(zhen)列(lie)技術、語音分(fen)離等領(ling)域的前(qian)沿研究進(jin)展,更對(dui)學生(sheng)如何開展以點帶面、系統(tong)性(xing)的科研具有啟發意義。
嘉賓簡介:
黃公平,武漢(han)大學教授(shou)、博士生導師。獲國家高層(ceng)次青年人才、湖(hu)北省高層(ceng)次人才、德國 “洪堡學者”、中國電(dian)子學會優博、以色列理工(gong)Andrew and Erna Finci Viterbi獎、陜西省(sheng)優博等榮譽(yu)。研究面向(xiang)語音通信(xin)和(he)人工智能的聲(sheng)信(xin)號(hao)感知理論(lun)與(yu)關(guan)鍵(jian)技(ji)術。在國際(ji)權威期刊(kan)與(yu)會議上發表論(lun)文70余篇(pian),在Springer出版《Microphone Arrays》學術專著(zhu)1本,獲授(shou)權國際發(fa)明專(zhuan)利(li)7項。擔任IEEE Signal Processing Letter 和(he)Circuits Systems and Signal Processing編委(Associate Editor),《電子(zi)學報(英文版(ban))》、《信號處理》和(he)《聲學學報》青年編委(wei)、任IEEE Senior Member,中國電(dian)子(zi)學會高級會員、IEEE聲學(xue)信號處理技術(shu)委員會(hui)(AASP)委員,國際(ji)會議IEEE ICSPCC 2024共(gong)同技術主席、中國計(ji)算機學會語音聽(ting)覺與對話專委等。
王中秋,博士(shi),國(guo)家級青(qing)年(nian)人才,現(xian)任(ren)南方(fang)科技(ji)大學計算機科學與工程系(xi)副教授,曾(ceng)在美國(guo)三(san)菱(ling)電機研(yan)究(jiu)院任(ren)訪(fang)問研(yan)究(jiu)員、在美國(guo)卡內基梅隆大學語言技(ji)術(shu)研(yan)究(jiu)所任(ren)博士(shi)后研(yan)究(jiu)員,是IEEE Audio and Acoustic Signal Processing(AASP)技(ji)術委員(yuan)(yuan)會的(de)委員(yuan)(yuan)會委員(yuan)(yuan)。王(wang)博士的(de)研究課題(ti)集中于人(ren)工智能和計算聽覺(jue)中對于聲學信號的(de)感知、理解與生成,迄今已在人(ren)工智能、語音及音頻信號處理領(ling)域發(fa)表頂級期(qi)刊和會議論文70余篇,曾獲信號(hao)處理旗艦會議ICASSP2018最佳學(xue)生論(lun)文獎(jiang)。