Nvidia-ийн шинэ AI аудио загвар: Гайхалтай дуу чимээ!

Өнөө цагт хиймэл оюуны судалгааг сонирхогч хэн бүхэн текстийн дохиогоор яриа эсвэл хөгжим үүсгэдэг генератив загваруудтай танил болсон нь гарцаагүй. Nvidia-гийн шинээр танилцуулсан “Fugatto” загвар нэг алхам урагшилж, шинэ төрлийн синтетик сургалтын аргууд болон таамаглалын түвшний хослолын технологийг ашиглан “хөгжим, дуу хоолой, дуу чимээний аль ч хольцыг өөрчилж, өмнө хэзээ ч байгаагүй дуу чимээг гарган авах” боломжийг олгож байна.

Fugatto одоогоор олон нийтэд туршигдахад нээлттэй болоогүй байгаа ч, Fugatto загвар хэрхэн дууны төрөл бүрийн онцлог шинж болон тодорхойлолтыг нэмэх, багасгах замаар янз бүрийн үр дүн гаргаж болохыг харуулсан аудиогоор дүүрэн вэб сайттай. Үүнд саксофон хуцах, усан доор хүн ярих, түргэний машин хоор дуулах мэт өвөрмөц дуу чимээнүүд багтжээ. Хэдийгээр үзүүлсэн үр дүн заримдаа төгс биш байж болох ч Fugatto-гийн олон төрлийн чадварыг харуулах энэхүү өргөн боломж нь Nvidia-гийн Fugatto-г “дууны Швейцарь хутга” гэж тодорхойлсон нь зөв гэдгийг баталж байна.

Таны өгөгдөл ямар байна, үр дүн нь тийм л сайн байна

Судалгааны тайлбар бичигт Nvidia-гийн 10 гаруй судлаач аудио болон хэл хоорондын утга учиртай харилцааг илрүүлэх сургалтын өгөгдлийн багцыг бий болгохын хүндрэлийг тайлбарлажээ. Хэвийн хэлний загварууд текст дээр суурилсан өгөгдлөөс хэрхэн зааварчилгаа авахыг ерөнхийд нь ойлгож чаддаг ч, аудио мэдээлэл дээр илүү тодорхой зааварчилгаа өгөхгүйгээр шинж чанар болон тодорхойлолтыг ерөнхийд нь гаргаж ирэх нь хэцүү байдаг.

Үүний тулд судлаачид эхлээд LLM (Том хэлний загвар) ашиглан Python скрипт үүсгэж, янз бүрийн аудио “хувь хүний төрхийг” (жишээ нь, “стандарт, залуусын бүлэг, гучин хэдтэй хүмүүс, мэргэжлийн”) тодорхойлох загварчилсан болон чөлөөт хэлбэрийн зааварчилгааг томоохон хэмжээгээр бий болгодог. Дараа нь эдгээр хувийн онцлогт тохируулан абсолют (жишээ нь, “жаргалтай дуу хоолой үүсгэ”) болон харьцуулсан (жишээ нь, “энэ дуу хоолойны жаргалтай байдлыг нэмэгдүүл”) төрлийн зааварчилгааг гарган авдаг.

Fugatto-гийн суурь болгосон нээлттэй эхийн аудио өгөгдлийн багцууд эдгээр төрлийн шинж чанарын хэмжилтүүдийг анхнаасаа агуулж байдаггүй. Гэвч судлаачид өгөгдөлд тулгуурлан “синтетик тайлбарууд” үүсгэхийн тулд одоо байгаа аудио ойлгох загваруудыг ашиглаж, сургалтын клипүүдэд хүйс, сэтгэл хөдлөл, ярианы чанар зэрэг шинж чанаруудыг тодорхойлж тооцдог байгалийн хэлний тайлбар үүсгэжээ. Мөн аудиог акустик түвшинд илүү нарийвчлан тодорхойлох (жишээ нь, “үндсэн давтамжийн хэлбэлзэл” эсвэл “реверб”) аудио боловсруулалтын хэрэгслүүдийг ашигласан байна.

Харьцуулсан харилцааг ойлгохын тулд судлаачид нэг хүчин зүйлийг тогтмол байлгаж, нөгөө хүчин зүйлийг өөрчилдөг өгөгдлийн багцууд дээр тулгуурласан (жишээ нь, нэг текстийг өөр өөр сэтгэл хөдлөлөөр унших эсвэл нэг аяыг өөр өөр хөгжмийн зэмсгээр тоглох). Ийм өгөгдлийн дээжийг том багц дээр харьцуулах замаар загвар нь “жаргалтай” ярианд нийтлэг илэрдэг шинж чанаруудыг ойлгож эхлэх эсвэл саксофон, лимбийн дуу чимээг ялгаж сурах боломжтой болдог.

Нээлттэй эхийн аудио өгөгдлийн багцуудыг дээрх үйл явцад оруулсны дараа судлаачид 20 сая гаруй дээж, 50,000 цагийн аудиог хамарсан их хэмжээний тайлбарлагдсан өгөгдлийн багц бий болгожээ. Үүнээс цааш Nvidia-ийн 32 Tensor Core ашиглан 2.5 тэрбум параметртэй загвар бүтээж, аудио чанарын олон төрлийн тестүүдэд найдвартай үр дүн гаргаж эхэлсэн байна.

Бүгдийг нэгтгэх урлаг

^{За, Fugatto, монитор дээрх саксофоны дууг жаахан багасгаж, нохойн хуцах чимээг нэмээд өгөөч?}

Сургалтаас гадна Nvidia Fugatto-ийн “ComposableART” системийг (“Аудио Төлөөллийн Хувиргалт”) онцлон тайлбарлаж байна. Энэ систем нь текст болон/эсвэл аудио хэлбэрээр өгсөн дохионы дагуу “conditional guidance” (нөхцөлт удирдамж) ашиглан “зааварчилгаа болон үүргүүдийн (урьд өмнө байгаагүй) хослолуудыг бие даан удирдах, үүсгэх” чадвартай бөгөөд “сургалтын өгөгдлийн хүрээнээс гадуур өндөр тохируулгатай аудио гаргалт” үүсгэж чаддаг. Өөрөөр хэлбэл, энэ нь сургалтын багцаас авсан янз бүрийн шинж чанаруудыг хослуулан, урьд өмнө сонсогдож байгаагүй цоо шинэ дуу чимээг гаргаж чадна.

Эрдэм шинжилгээний өгүүлэлд тайлбарласан нарийн тооцооллыг (жишээ нь, “зааварчилгаа, кадрын индекс, загваруудын хоорондын векторын орнуудын жигнэсэн хослол”) бүрэн ойлгодог гэж хэлэхгүй. Гэхдээ уг системийн үр дүнг Fugatto-гийн вэбсайт болон Nvidia-ийн танилцуулгаас харахад ComposableART нь жишээлбэл, “инээж буй хүүхэд шиг сонсогдох хийл” эсвэл “хөнгөн борооны өмнө тоглож буй банжо,” эсвэл “металлын шаналлаар орилж буй үйлдвэрийн тоног төхөөрөмжийн дуу чимээ” зэргийг бүтээж чаддагийг онцолсон байна. Зарим жишээнүүд бидний сонсголд илүү үнэмшилтэй байх ч, Fugatto загварын янз бүрийн нээлттэй эхийн өгөгдлийн багцаас маш өөр шинж чанаруудыг шинжлэн, хослуулж чаддаг нь энэхүү технологийн чадамжийг харуулж байна.

Fugatto-гийн хамгийн сонирхолтой хэсэг бол тус бүрийн аудио шинж чанарыг хоёр туйлтай биш, залгуурын тусламжтайгаар тохируулж болох нэгэн жигд хувьсагч байдлаар авч үздэгт оршино. Жишээлбэл, акустик гитар болон урсах усны дууг хослуулсан жишээн дээр гитар эсвэл усны жинг харьцангуй ихэсгэхэд үр дүн нь маш өөр болж хувирдаг. Nvidia мөн Франц аялгыг илүү хүчтэй эсвэл сул болгох, эсвэл ярианы клип дэх “гунигийн түвшинг” өөрчлөх боломжтойг дурдсан байна.

Янз бүрийн аудио шинж чанаруудыг хослуулж, тохируулах чадвараас гадна Fugatto өмнөх загваруудад байсан зарим үүргүүдийг ч гүйцэтгэж чадна. Жишээлбэл, текст уншиж буй дуу хоолойн сэтгэл хөдлөлийг өөрчлөх, хөгжмийн доторх дуу хоолойн бичлэгийг ялгах гэх мэт. Мөн Fugatto MIDI хөгжмийн нэгэн хэсэгт байгаа тус бүрийн ноотыг илрүүлэн өөр өөр төрлийн дуу хоолойн гүйцэтгэлээр солих, эсвэл хөгжмийн цохилтыг илрүүлж, хэмнэлийн дагуу бөмбөрийн дуу, нохой хуцах, эсвэл цагны түнтгэрэх чимээ гэх мэт эффектүүдийг нэмж оруулах чадвартай.

^{Fugatto-гийн үүсгэсэн аудио (ягаан өнгөтэй) нь оруулсан MIDI файлын ая (хөх өнгөтэй)-тай маш сайн тохирч байна.}

Судлаачид Fugatto-г “өгөгдөл болон загварын цар хүрээнээс гарч ирэх хяналтгүй олон үүрэгтэй сургалтын ирээдүй рүү хийх эхний алхам” гэж тодорхойлсон боловч Nvidia аль хэдийнээ Fugatto-г дууны прототип бүтээх, видео тоглоомын хөгжмийг динамик байдлаар өөрчлөх, олон улсын сурталчилгаанд чиглэх зэрэг олон хэрэглээнд ашиглах боломжтойг онцолж байна. Гэсэн ч Nvidia Fugatto мэтийн загваруудыг дууны уран бүтээлчдийн бүтээлч авьяасыг орлох биш, харин шинэ хэрэгсэл болгон харах нь зүйтэйг онцлон дурджээ.

Nvidia-ийн блогт Nvidia Inception-ийн оролцогч, продюсер/дуучин-дуу зохиогч Идо Змишлани:

“Хөгжмийн түүх бол мөн технологийн түүх юм. Цахилгаан гитар рок-н-роллыг дэлхийд авчирсан. Семплер гарч ирснээр хип-хоп төрсөн. Хиймэл оюуны тусламжтайгаар бид хөгжмийн дараагийн бүлгийг бичиж байна. Бидэнд шинэ хөгжмийн зэмсэг, шинэ хэрэгсэл бий болсон бөгөөд энэ нь үнэхээр сэтгэл хөдөлгөм юм” гэжээ.

arstechnica.com