報(bào)告題目:任務(wù)導(dǎo)向型對(duì)話系統(tǒng)中對(duì)話策略關(guān)鍵技術(shù)研究
報(bào) 告 人 :趙陽洋
內(nèi)容摘要:
任務(wù)導(dǎo)向型對(duì)話系統(tǒng)的研究日益引起學(xué)術(shù)界和工業(yè)界的重視。對(duì)話系統(tǒng)以自然語言形式幫助用戶完成一個(gè)或多個(gè)領(lǐng)域特定任務(wù),如餐廳和航班預(yù)訂、天氣查詢以及大型服務(wù)企業(yè)客戶服務(wù)等,可提高服務(wù)的便捷性,減輕客服負(fù)擔(dān),降低服務(wù)成本,在電商與政務(wù)服務(wù)等領(lǐng)域應(yīng)用前景廣闊。對(duì)話策略根據(jù)外部環(huán)境當(dāng)前狀態(tài),從動(dòng)作集中選擇動(dòng)作進(jìn)行響應(yīng),其性能的優(yōu)劣決定了任務(wù)型對(duì)話系統(tǒng)的成敗。對(duì)話策略可建模為馬爾可夫決策過程(MDP),用強(qiáng)化學(xué)習(xí)方法求解。由于任務(wù)型對(duì)話通常具有更高狀態(tài)空間和更大動(dòng)作空間,存在獎(jiǎng)勵(lì)稀疏問題,基于深度強(qiáng)化學(xué)習(xí)的對(duì)話策略學(xué)習(xí)一直面臨收斂緩慢和模型不穩(wěn)定的問題。模型在訓(xùn)練過程中,盡管采用用戶模擬器可部分減輕人工訓(xùn)練的代價(jià),訓(xùn)練的效率問題也仍然是一個(gè)技術(shù)瓶頸。近五年,本人針對(duì)上述問題展開了深入研究,本報(bào)告探索人類學(xué)習(xí)和教育過程,結(jié)合深度強(qiáng)化學(xué)習(xí)和課程學(xué)習(xí)實(shí)現(xiàn)你人腦的互補(bǔ)策略學(xué)習(xí)模型和自適應(yīng)課程學(xué)習(xí)策略模型,以提高對(duì)話策略學(xué)習(xí)效率。
報(bào)告人簡(jiǎn)介:

|
趙陽洋,女,1995年生,博士研究生。2017年獲得廣州中醫(yī)藥大學(xué)的醫(yī)學(xué)信息工程專業(yè)的學(xué)士學(xué)位,同年保送至華南理工大學(xué)軟件學(xué)院攻讀博士學(xué)位。2021年11月至今獲得國(guó)家留學(xué)基金委資助在荷蘭烏特勒支大學(xué)的計(jì)算機(jī)信息與計(jì)算機(jī)科學(xué)進(jìn)行聯(lián)合培養(yǎng)。 長(zhǎng)期從事人工智能、自然語言處理、人機(jī)對(duì)話、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)和課程學(xué)習(xí)研究。共發(fā)表本領(lǐng)域國(guó)際權(quán)威/頂級(jí)會(huì)議及期刊論文11篇,其中以第一作者(含通訊作者)發(fā)表論文6篇,包含國(guó)際頂級(jí)會(huì)議/期刊論文5篇. 受理國(guó)內(nèi)發(fā)明專利1件;國(guó)際頂級(jí)會(huì)議/期刊論文在投2篇。參與多項(xiàng)國(guó)家/省/市自然科學(xué)基金面上項(xiàng)目撰寫和結(jié)題工作,并獲得過華南理工大學(xué)博士研究生校長(zhǎng)獎(jiǎng)學(xué)金等。 |
會(huì)議時(shí)間:2022年6月9日(周四) 16:30
騰訊會(huì)議ID: 185-585-782
點(diǎn)擊鏈接直接加入會(huì)議:
https://meeting.tencent.com/dm/tQS3TsCzBjba
歡迎廣大師生參加!
長(zhǎng)江大學(xué)計(jì)算機(jī)科學(xué)學(xué)院