MusicLM: Google AI generéiert Musek a verschiddene Genren op 24 kHz

Vergréisseren / En AI-generéiert Bild vun engem explodéierende Ball vu Musek.

Ars Technica

En Donneschdeg hunn d’Fuerscher vu Google en neien generativen AI Modell genannt MusicLM ugekĂ«nnegt, deen 24 KHz musikalesch Audio aus Textbeschreiwunge ka kreĂ©ieren, sou wĂ©i “eng berouegend Geimelodie Ă«nnerstĂ«tzt vun engem verzerrte Gittarriff.” Et kann och eng hummed Melodie an en anere musikalesche Stil transformĂ©ieren a Musek fir e puer Minutten erausginn.

MusicLM benotzt en AI Modell trainĂ©iert op wat Google nennt “a grousst Dataset vun net-labelĂ©ierter Musek,” zesumme mat IwwerschrĂ«ften aus MusicCaps, en neit Dataset besteet aus 5,521 Musek-Textpaaren. MusicCaps kritt seng Textbeschreiwunge vu mĂ«nschlechen Experten a seng passende Audioclips vum Google AudioSet, eng Sammlung vun iwwer 2 Millioune markĂ©ierte 10-Sekonne Soundclips aus YouTube Videoen gezunn.

Allgemeng funktionnéiert MusicLM an zwee Haaptdeeler: éischtens hëlt et eng Sequenz vun Audio Tokens (Stécker vum Toun) a mapt se op semantesch Tokens (Wierder déi Bedeitung duerstellen) an Ënnertitelen fir Training. Den zweeten Deel kritt Benotzer Iwwerschrëften an / oder Input Audio a generéiert akustesch Tokens (Stécker vum Toun déi de resultéierende Songoutput ausmaachen). De System hänkt vun engem fréiere AI Modell genannt AudioLM (vu Google am September agefouert) zesumme mat anere Komponenten wéi SoundStream a MuLan.

Google behaapt datt MusicLM mĂ©i wĂ©i frĂ©ier AI Museksgeneratoren an der AudioqualitĂ©it an der Anhale vun Textbeschreiwungen iwwerschreift. Op der MusicLM Demonstratiounssäit liwwert Google vill Beispiller vum AI Modell an Aktioun, erstellt Audio aus “räiche IwwerschrĂ«ften”, dĂ©i d’Gefill vun der Musek beschreiwen, a souguer Gesang (dĂ©i bis elo gibberish sinn). Hei ass e Beispill vun enger räicher IwwerschrĂ«ft dĂ©i se ubidden:

Luesen Tempo, Bass-an-Drums gefouert Reggae Song. Nohalteg elektresch Guitar. Héichgeheescht Bongos mat Réngtéin. Gesang sinn entspaant mat engem relaxen Gefill, ganz expressiv.

Google weist och dem MusicLM seng “laang Generatioun” (fĂ«nnef Minutte Museksclips aus enger einfacher Ufro erstellen), “Geschichtsmodus” (deen eng Sequenz vun Textprompts hĂ«lt an et an eng morphing Serie vu musikaleschen Melodien mĂ©cht), “Text a Melodie” “Conditioun” (wat e mĂ«nschleche Humming oder Whistling Audio-Input hĂ«lt an et ännert fir de Stil mat enger Prompt ze passen), a Musek generĂ©iert dĂ©i d’StĂ«mmung vun de BildopschrĂ«ften entsprĂ©cht.

E Blockdiagramm vum MusicLM AI Museksgeneratiounsmodell aus sengem akademesche Pabeier geholl.
Vergréisseren / E Blockdiagramm vum MusicLM AI Museksgeneratiounsmodell aus sengem akademesche Pabeier geholl.

Google Fuerschung

Weider Ă«nnen op der Beispill Säit, daucht Google an d’Fäegkeet vum MusicLM fir speziell Instrumenter ze kreĂ©ieren (zB Flute, Cello, Gittar), verschidde musikalesch Genren, verschidde Museker Erfahrungsniveauen, Plazen (Entkommen aus dem Prisong, Turnstonnen), Zäitperioden (e Club an den 1950er), a mĂ©i.

AI-generéiert Musek ass iwwerhaapt keng nei Iddi, awer AI Museksgeneratiounsmethoden vu fréiere Joerzéngte hunn dacks musikalesch Notatioun erstallt déi spéider vun der Hand oder duerch e Synthesizer gespillt gouf, wärend MusicLM déi rau Audiofrequenze vun der Musek generéiert. Och am Dezember hu mir Riffusion ofgedeckt, en Hobby AI Projet deen ähnlech Musek aus Textbeschreiwunge ka kreéieren, awer net mat héijer Vertrauen. Google referéiert Riffusion a sengem MusicLM akademesche Pabeier, a seet datt MusicLM et a Qualitéit iwwerschreift.

Am MusicLM Pabeier skizzĂ©ieren seng Creatoren potenziell Auswierkunge vu MusicLM, dorĂ«nner “potenziell MĂ«ssbrauch vu kreativen Inhalter” (dh Copyright Themen), potenziell Biases fir Kulturen, dĂ©i an den Trainingsdaten Ă«nnerrepresentĂ©iert sinn, a potenziell kulturell Appropriatiounsprobleemer. Als Resultat betount Google d’Noutwendegkeet fir mĂ©i Aarbecht fir dĂ«s Risiken unzegoen, a si halen de Code zrĂ©ck: “Mir hu keng Pläng fir Modeller op dĂ«sem Punkt ze verĂ«ffentlechen.”

D’Fuerscher vu Google kucken schonn no vir op zukĂ¼nfteg Verbesserungen: “ZukĂ¼nfteg Aarbecht kann sech op d’Textergeneratioun fokussĂ©ieren, zesumme mat der Verbesserung vun der Textkonditioun an der StĂ«mmqualitĂ©it. En aneren Aspekt ass d’Modellering vun hĂ©ijer Songstruktur wĂ©i AfĂ©ierung, Vers, a Chorus. Musek mat enger mĂ©i hĂ©ijer Sample Taux ass en zousätzlecht Zil.”

Et ass mĂ©iglecherweis net ze vill ze proposĂ©ieren datt AI Fuerscher d’Museksgeneratiounstechnologie verbesseren, bis iergendeen StudioqualitĂ©it Musek an all Stil ka kreĂ©ieren andeems se et beschreiwen – och wann keen nach genau virauszesoen wĂ©ini dat Zil erreecht gĂ«tt oder wĂ©i Genau et wäert d’Museksindustrie beaflossen. Bleift ofgeschloss fir weider EntwĂ©cklungen.

Leave a Comment

Your email address will not be published. Required fields are marked *