MusicLM: Google AI generéiert Musek a verschiddene Genren op 24 kHz

Vergréisseren / En AI-generéiert Bild vun engem explodéierende Ball vu Musek.

Ars Technica

En Donneschdeg hunn d’Fuerscher vu Google en neien generativen AI Modell genannt MusicLM ugekënnegt, deen 24 KHz musikalesch Audio aus Textbeschreiwunge ka kreéieren, sou wéi “eng berouegend Geimelodie ënnerstëtzt vun engem verzerrte Gittarriff.” Et kann och eng hummed Melodie an en anere musikalesche Stil transforméieren a Musek fir e puer Minutten erausginn.

MusicLM benotzt en AI Modell trainéiert op wat Google nennt “a grousst Dataset vun net-labeléierter Musek,” zesumme mat Iwwerschrëften aus MusicCaps, en neit Dataset besteet aus 5,521 Musek-Textpaaren. MusicCaps kritt seng Textbeschreiwunge vu mënschlechen Experten a seng passende Audioclips vum Google AudioSet, eng Sammlung vun iwwer 2 Millioune markéierte 10-Sekonne Soundclips aus YouTube Videoen gezunn.

Allgemeng funktionnéiert MusicLM an zwee Haaptdeeler: éischtens hëlt et eng Sequenz vun Audio Tokens (Stécker vum Toun) a mapt se op semantesch Tokens (Wierder déi Bedeitung duerstellen) an Ënnertitelen fir Training. Den zweeten Deel kritt Benotzer Iwwerschrëften an / oder Input Audio a generéiert akustesch Tokens (Stécker vum Toun déi de resultéierende Songoutput ausmaachen). De System hänkt vun engem fréiere AI Modell genannt AudioLM (vu Google am September agefouert) zesumme mat anere Komponenten wéi SoundStream a MuLan.

Google behaapt datt MusicLM méi wéi fréier AI Museksgeneratoren an der Audioqualitéit an der Anhale vun Textbeschreiwungen iwwerschreift. Op der MusicLM Demonstratiounssäit liwwert Google vill Beispiller vum AI Modell an Aktioun, erstellt Audio aus “räiche Iwwerschrëften”, déi d’Gefill vun der Musek beschreiwen, a souguer Gesang (déi bis elo gibberish sinn). Hei ass e Beispill vun enger räicher Iwwerschrëft déi se ubidden:

Luesen Tempo, Bass-an-Drums gefouert Reggae Song. Nohalteg elektresch Guitar. Héichgeheescht Bongos mat Réngtéin. Gesang sinn entspaant mat engem relaxen Gefill, ganz expressiv.

Google weist och dem MusicLM seng “laang Generatioun” (fënnef Minutte Museksclips aus enger einfacher Ufro erstellen), “Geschichtsmodus” (deen eng Sequenz vun Textprompts hëlt an et an eng morphing Serie vu musikaleschen Melodien mécht), “Text a Melodie” “Conditioun” (wat e mënschleche Humming oder Whistling Audio-Input hëlt an et ännert fir de Stil mat enger Prompt ze passen), a Musek generéiert déi d’Stëmmung vun de Bildopschrëften entsprécht.

E Blockdiagramm vum MusicLM AI Museksgeneratiounsmodell aus sengem akademesche Pabeier geholl.
Vergréisseren / E Blockdiagramm vum MusicLM AI Museksgeneratiounsmodell aus sengem akademesche Pabeier geholl.

Google Fuerschung

Weider ënnen op der Beispill Säit, daucht Google an d’Fäegkeet vum MusicLM fir speziell Instrumenter ze kreéieren (zB Flute, Cello, Gittar), verschidde musikalesch Genren, verschidde Museker Erfahrungsniveauen, Plazen (Entkommen aus dem Prisong, Turnstonnen), Zäitperioden (e Club an den 1950er), a méi.

AI-generéiert Musek ass iwwerhaapt keng nei Iddi, awer AI Museksgeneratiounsmethoden vu fréiere Joerzéngte hunn dacks musikalesch Notatioun erstallt déi spéider vun der Hand oder duerch e Synthesizer gespillt gouf, wärend MusicLM déi rau Audiofrequenze vun der Musek generéiert. Och am Dezember hu mir Riffusion ofgedeckt, en Hobby AI Projet deen ähnlech Musek aus Textbeschreiwunge ka kreéieren, awer net mat héijer Vertrauen. Google referéiert Riffusion a sengem MusicLM akademesche Pabeier, a seet datt MusicLM et a Qualitéit iwwerschreift.

Am MusicLM Pabeier skizzéieren seng Creatoren potenziell Auswierkunge vu MusicLM, dorënner “potenziell Mëssbrauch vu kreativen Inhalter” (dh Copyright Themen), potenziell Biases fir Kulturen, déi an den Trainingsdaten ënnerrepresentéiert sinn, a potenziell kulturell Appropriatiounsprobleemer. Als Resultat betount Google d’Noutwendegkeet fir méi Aarbecht fir dës Risiken unzegoen, a si halen de Code zréck: “Mir hu keng Pläng fir Modeller op dësem Punkt ze verëffentlechen.”

D’Fuerscher vu Google kucken schonn no vir op zukünfteg Verbesserungen: “Zukünfteg Aarbecht kann sech op d’Textergeneratioun fokusséieren, zesumme mat der Verbesserung vun der Textkonditioun an der Stëmmqualitéit. En aneren Aspekt ass d’Modellering vun héijer Songstruktur wéi Aféierung, Vers, a Chorus. Musek mat enger méi héijer Sample Taux ass en zousätzlecht Zil.”

Et ass méiglecherweis net ze vill ze proposéieren datt AI Fuerscher d’Museksgeneratiounstechnologie verbesseren, bis iergendeen Studioqualitéit Musek an all Stil ka kreéieren andeems se et beschreiwen – och wann keen nach genau virauszesoen wéini dat Zil erreecht gëtt oder wéi Genau et wäert d’Museksindustrie beaflossen. Bleift ofgeschloss fir weider Entwécklungen.

Leave a Comment

Your email address will not be published. Required fields are marked *