數(shù)據(jù)開源 | 高質(zhì)量雙工自然對話中文語音數(shù)據(jù)集,引領(lǐng)AI實(shí)時交互新體驗(yàn)

      2025-01-15

      來源:互聯(lián)網(wǎng)

      在快速發(fā)展的人工智能領(lǐng)域,技術(shù)突破與用戶體驗(yàn)提升正引領(lǐng)著語音對話模型邁向新的高度。從最初的簡單問答到如今復(fù)雜多變的對話場景,人機(jī)交互正經(jīng)歷著前所未有的深刻變革。傳統(tǒng)的訓(xùn)練數(shù)據(jù)已難以適應(yīng)當(dāng)前的需求,現(xiàn)代交互要求系統(tǒng)不僅能理解語言的上下文,還需快速識別用戶的需求并作出恰當(dāng)反饋。

      在此背景下,晴數(shù)智慧聯(lián)合中國科學(xué)院聲學(xué)研究所,共同開源了“雙工自然對話語音數(shù)據(jù)集_中文”,為語音對話模型提供更加真實(shí)、細(xì)膩的訓(xùn)練數(shù)據(jù)。通過對每位說話者語音的獨(dú)立分析,該數(shù)據(jù)集讓語音對話模型能夠洞察對話中的上下文變化、語調(diào)起伏以及情感波動,從而生成更加自然、準(zhǔn)確的回應(yīng)。同時,雙工分離數(shù)據(jù)讓端到端模型的構(gòu)建更為精準(zhǔn),反饋速度更快。

      數(shù)據(jù)集描述

      晴數(shù)智慧開發(fā)的多通道自然對話語音數(shù)據(jù)集,旨在解決當(dāng)前語音對話模型面臨的兩大問題:一是如何在復(fù)雜對話環(huán)境中準(zhǔn)確捕捉并區(qū)分每位說話者的語音信息;二是如何使AI模型更好地理解并適應(yīng)自然對話中的打斷、交互等動態(tài)過程。

      上圖為雙工語音交互模型架構(gòu)圖。雙工語音交互模型(如 dGSLM [1]、Moshi [2]和SLIDE [3])突破了傳統(tǒng)單工語音交互模型一問一答的僵化響應(yīng)模式,實(shí)現(xiàn)了同步聽說以及在交互過程中自然的打斷與插話。然而,這些模型的訓(xùn)練高度依賴雙工自然對話語音數(shù)據(jù)。而此類數(shù)據(jù)的稀缺,尤其是在中文領(lǐng)域,嚴(yán)重限制了上述模型的性能提升。

      為解決這些問題,我們采取了創(chuàng)新的數(shù)據(jù)采集與處理策略。首先,通過獨(dú)立采集每位說話者的音軌,并單獨(dú)對每個說話人做分類標(biāo)注,完整的保留了對話過程中自然的打斷,交互等過程。其次,通過將每位說話者的音頻分離,我們能夠提供更清晰、更精準(zhǔn)的訓(xùn)練數(shù)據(jù),使模型更專注于理解和響應(yīng)自然說話的交互過程。

      為了讓大家更直觀地了解我們的多通道數(shù)據(jù),我們特別選取了5小時的對話內(nèi)容作為本次開源數(shù)據(jù)集。本數(shù)據(jù)可以用于模型的微調(diào)或者測試使用(非商用)。

      數(shù)據(jù)集優(yōu)勢與亮點(diǎn)

      自然度:捕捉真實(shí)場景下的自然對話,確保數(shù)據(jù)的高度自然流暢;

      領(lǐng)域多樣性:覆蓋多個行業(yè)與話題,滿足跨領(lǐng)域應(yīng)用需求;

      地域多樣性:融入不同地域的語音特征,增強(qiáng)模型的泛化能力;

      副語言標(biāo)簽:特別標(biāo)注副語言信息,如語氣、停頓等,為深度情感分析與交互體驗(yàn)升級提供有力支持。

      除了中文雙工對話數(shù)據(jù)開源之外,我們同樣開源了英語雙工對話數(shù)據(jù),對英語雙工數(shù)據(jù)感興趣的朋友,歡迎通過以下鏈接下載并使用,探索更多可能~



      更多新聞
      火山引擎×上汽集團(tuán):共建汽車全場景AI新體驗(yàn)

      火山引擎×上汽集團(tuán):共建汽車全場景AI新體驗(yàn)

      Moka AI 探索實(shí)踐:七年技術(shù)深耕,從單點(diǎn)突破到招聘全流程閉環(huán)

      Moka AI 探索實(shí)踐:七年技術(shù)深耕,從單點(diǎn)突破到招聘全流程閉環(huán)

      2025快手磁力大會:加速“生成新商業(yè)”,AI全面重塑商業(yè)經(jīng)營

      2025快手磁力大會:加速“生成新商業(yè)”,AI全面重塑商業(yè)經(jīng)營

      免费无码一区二区三区蜜桃| 少妇人妻偷人精品无码视频| 中文字幕丰满伦子无码| 成人无码精品1区2区3区免费看| 天堂亚洲国产中文在线| 中文字幕人妻无码专区| 中文字幕在线无码一区二区三区| 日本爆乳j罩杯无码视频| 亚洲熟妇无码八V在线播放| 日日摸夜夜添无码AVA片| 内射无码专区久久亚洲| 国产成人无码区免费内射一片色欲 | 午夜无码视频一区二区三区| 少妇无码AV无码一区| 久久伊人亚洲AV无码网站| 无码国产精品一区二区免费虚拟VR| 成人无码免费一区二区三区| 十八禁视频在线观看免费无码无遮挡骂过| r级无码视频在线观看| 最近更新免费中文字幕大全| 亚洲无码黄色网址| 色欲A∨无码蜜臀AV免费播| 亚洲欧美中文日韩V在线观看| 国产乱子伦精品无码专区 | 亚洲男人在线无码视频| 免费A级毛片无码专区| 中文成人无码精品久久久不卡 | 人妻丰满熟妇AV无码片| 一本精品中文字幕在线| 日韩av无码中文无码电影| 国产精品无码A∨精品影院| 亚洲精品午夜无码电影网| 中文字幕在线看视频一区二区三区| 日韩成人无码影院| 久久精品国产亚洲AV无码偷窥| 中文字幕乱码无码人妻系列蜜桃| 婷婷综合久久中文字幕| 最好看的2018中文在线观看| 日韩精品无码久久一区二区三| 久久男人Av资源网站无码软件| 一夲道无码人妻精品一区二区|