2025年(nian)5月(yue)26日上(shang)午,武(wu)漢大(da)學黃公平(ping)教授和南方科技大(da)學王中(zhong)(zhong)秋副(fu)教授受語(yu)音(yin)及(ji)語(yu)言信息處理國家工程研究中(zhong)(zhong)心張結(jie)副(fu)教授的邀請,在中(zhong)(zhong)金宝搏入口188高新校區(qu)信智樓C301會議室分別做(zuo)了(le)題(ti)為“麥克(ke)風陣列高保真波束(shu)形成方法”和“語音分離及(ji)其泛化”的(de)精彩(cai)報(bao)(bao)告。本次報(bao)(bao)告由(you)張(zhang)結副(fu)教授主持(chi),工程研究中心感興(xing)趣師生參加了(le)報(bao)(bao)告會。
波(bo)束(shu)(shu)形(xing)成(cheng)和(he)(he)(he)語(yu)音(yin)分離問(wen)題(ti)一直是語(yu)音(yin)前端的(de)(de)(de)研(yan)究熱(re)點(dian)。報告會上,黃(huang)教授首(shou)先(xian)以聲信(xin)號(hao)的(de)(de)(de)感知和(he)(he)(he)傳播作(zuo)為切入點(dian),介(jie)紹(shao)了(le)麥(mai)克(ke)風(feng)陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie)在(zai)(zai)遠(yuan)場(chang)(chang)拾(shi)音(yin)問(wen)題(ti)上面(mian)(mian)臨的(de)(de)(de)挑戰(zhan)和(he)(he)(he)現(xian)有波(bo)束(shu)(shu)形(xing)成(cheng)技(ji)術(shu)(shu)的(de)(de)(de)不(bu)足(zu)。他提(ti)到,由于(yu)遠(yuan)場(chang)(chang)信(xin)號(hao)低信(xin)噪比(bi)和(he)(he)(he)麥(mai)克(ke)風(feng)陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie)尺寸一般較小(xiao)的(de)(de)(de)限(xian)制,使(shi)得麥(mai)克(ke)風(feng)陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie)在(zai)(zai)復雜(za)的(de)(de)(de)室內聲學(xue)環境中,難以保(bao)持(chi)對遠(yuan)場(chang)(chang)寬帶語(yu)音(yin)信(xin)號(hao)高保(bao)真輸出(chu)。接著,黃(huang)教授介(jie)紹(shao)了(le)適用(yong)于(yu)小(xiao)型陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie)高保(bao)真波(bo)束(shu)(shu)形(xing)成(cheng)的(de)(de)(de)差(cha)(cha)分麥(mai)克(ke)風(feng)陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie)方(fang)(fang)法,并通過(guo)零點(dian)約束(shu)(shu)型差(cha)(cha)分陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie)這一技(ji)術(shu)(shu)創新,闡述了(le)波(bo)束(shu)(shu)形(xing)成(cheng)技(ji)術(shu)(shu)高增益頻(pin)不(bu)變(bian),設(she)計(ji)靈活并控(kong)制白噪聲增益的(de)(de)(de)技(ji)術(shu)(shu)需求。隨后(hou),針對提(ti)高差(cha)(cha)分陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie)的(de)(de)(de)調(diao)(diao)向(xiang)能力這一目標,黃(huang)教授分別介(jie)紹(shao)了(le)其團(tuan)隊在(zai)(zai)推(tui)廣(guang)線(xian)性(xing)差(cha)(cha)分陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie)到環形(xing)差(cha)(cha)分陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie)、同心圓環差(cha)(cha)分陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie)、任意結構差(cha)(cha)分陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie)方(fang)(fang)面(mian)(mian)的(de)(de)(de)實驗(yan)探索成(cheng)果及(ji)其理論證(zheng)明,展(zhan)示了(le)如何通過(guo)雅可(ke)比(bi)級數展(zhan)開的(de)(de)(de)方(fang)(fang)式在(zai)(zai)最(zui)(zui)小(xiao)均(jun)方(fang)(fang)誤差(cha)(cha)準則下對實際波(bo)束(shu)(shu)圖(tu)進行(xing)最(zui)(zui)優近似(si)。最(zui)(zui)后(hou),黃(huang)教授進一步介(jie)紹(shao)了(le)通過(guo)構造全(quan)(quan)向(xiang)和(he)(he)(he)指向(xiang)性(xing)麥(mai)克(ke)風(feng)組成(cheng)的(de)(de)(de)混合陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie),來實現(xian)聲源(yuan)和(he)(he)(he)陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie)不(bu)在(zai)(zai)同一水平面(mian)(mian)上時全(quan)(quan)空間調(diao)(diao)向(xiang)的(de)(de)(de)研(yan)究工作(zuo),拓展(zhan)提(ti)出(chu)了(le)球形(xing)差(cha)(cha)分陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie),動態環境下最(zui)(zui)優差(cha)(cha)分陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie)設(she)計(ji)以及(ji)波(bo)束(shu)(shu)寬度和(he)(he)(he)旁瓣可(ke)控(kong)的(de)(de)(de)差(cha)(cha)分陣(zhen)(zhen)(zhen)列(lie)(lie)(lie)(lie)的(de)(de)(de)設(she)計(ji)問(wen)題(ti),現(xian)場(chang)(chang)同學(xue)深(shen)受啟發。
王中秋副教授圍(wei)繞“語音分離(li)及其泛化(hua)”主題,系統(tong)介紹了(le)其團隊在(zai)遠場語音處(chu)理、說話人分離(li)和(he)去混響(xiang)等(deng)方向的最(zui)新研究進展及成果。報告從語音交互在(zai)復雜聲學環境中的挑戰(zhan)出(chu)發,王教授首(shou)先回顧了(le)傳統(tong)監督學習在(zai)語音增(zeng)強與分離(li)中的進展,尤其是在(zai)復雜頻譜映射方面的創新,并詳細介紹了(le)其提出(chu)的TF-GridNet模(mo)(mo)型(xing)。該模(mo)(mo)型(xing)融合全頻(pin)段與子(zi)頻(pin)段建(jian)模(mo)(mo)能力,結合時間和(he)頻(pin)率(lv)維(wei)度上的注(zhu)意力機(ji)制(zhi),實現(xian)了優秀的語(yu)音分離性能。在語(yu)音去混響(xiang)方面,王教授(shou)提(ti)出了基于(yu)前向卷積(ji)預測(FCP)的(de)新方法(fa)(fa),通(tong)過聯合(he)估(gu)計目標語(yu)音(yin)(yin)與(yu)混響(xiang)濾波器,有效解決了傳統方法(fa)(fa)無法(fa)(fa)建(jian)模的(de)反射信號影響(xiang),顯著提升了語(yu)音(yin)(yin)質量和語(yu)音(yin)(yin)識別(bie)準(zhun)確(que)率。此外,報告還深入探討了無監(jian)督、弱監(jian)督和半監(jian)督語(yu)音(yin)(yin)分離方法(fa)(fa)的(de)研究動向,重點(dian)介紹(shao)了其(qi)團隊(dui)提出(chu)的(de)UNSSOR、USDnet和(he)SuperM2M等(deng)模型,分別(bie)在利(li)用未標注真實數據、融合(he)近講遠講混合(he)信息、以及聯(lian)合(he)監(jian)督與非監(jian)督學(xue)習(xi)方面取得(de)了突破,顯著提升了模型在真實復雜環境下的泛(fan)化(hua)能(neng)力。
兩場學(xue)術報(bao)告吸引了研(yan)究(jiu)中心相(xiang)關方(fang)向的師(shi)生廣(guang)泛(fan)參與討論(lun),兩位(wei)教授耐心地回答了在(zai)場師(shi)生的提問。本次報(bao)告會(hui)不僅(jin)可以幫助(zhu)學(xue)生了解麥克(ke)風陣列技術、語音分離等領域的前沿研(yan)究(jiu)進展,更對學(xue)生如何開展以點帶面、系(xi)統(tong)性(xing)的科研(yan)具有(you)啟發意義。
嘉賓簡介:
黃公平(ping),武漢大(da)學(xue)(xue)教授、博(bo)士生導師。獲國家高層次青年人(ren)才、湖北省高層次人(ren)才、德國 “洪堡學(xue)(xue)者”、中國電子學(xue)(xue)會優博(bo)、以色列理工Andrew and Erna Finci Viterbi獎、陜西省優(you)博(bo)等(deng)榮譽(yu)。研(yan)究(jiu)面向語音(yin)通信和人工智能的聲信號感知理論與關鍵技術。在國際(ji)權威期刊(kan)與會議(yi)上發表論文70余篇,在(zai)Springer出版《Microphone Arrays》學(xue)術專著1本,獲授(shou)權國際發(fa)明專利(li)7項。擔任IEEE Signal Processing Letter 和Circuits Systems and Signal Processing編(bian)委(Associate Editor),《電子學報(英(ying)文版)》、《信號處理》和(he)《聲學學報》青(qing)年(nian)編委、任IEEE Senior Member,中國電子學(xue)會(hui)(hui)高級(ji)會(hui)(hui)員、IEEE聲學信號處(chu)理(li)技術委(wei)員會(AASP)委員(yuan),國際會議IEEE ICSPCC 2024共同技(ji)術主席、中國計算機學會語(yu)音聽覺與對話專委(wei)等。
王中秋(qiu),博(bo)士,國家級青年人(ren)才,現(xian)任(ren)南方科技大(da)學計算機(ji)科學與工程(cheng)系副教授,曾(ceng)在美國三菱電機(ji)研(yan)究院任(ren)訪問研(yan)究員、在美國卡內基梅隆大(da)學語言技術研(yan)究所任(ren)博(bo)士后研(yan)究員,是IEEE Audio and Acoustic Signal Processing(AASP)技術(shu)委員會(hui)(hui)的委員會(hui)(hui)委員。王博(bo)士的研究(jiu)課題集中于(yu)人(ren)工(gong)智能(neng)和(he)計(ji)算聽(ting)覺中對(dui)于(yu)聲學信(xin)號的感知(zhi)、理解與生成(cheng),迄今已在人(ren)工(gong)智能(neng)、語音及(ji)音頻信(xin)號處理領域(yu)發表頂級期刊和(he)會(hui)(hui)議論文70余篇,曾獲信號處理(li)旗艦會議(yi)ICASSP2018最佳學生論文(wen)獎(jiang)。