Kiedy sztuczna inteligencja może tworzyć sztukę – co to oznacza dla kreatywności?  |  Sztuczna inteligencja (AI)

Kiedy sztuczna inteligencja może tworzyć sztukę – co to oznacza dla kreatywności? | Sztuczna inteligencja (AI)

WKiedy artysta koncepcyjny i ilustrator RJ Palmer po raz pierwszy był świadkiem dopracowanego fotorealizmu kompozycji wytwarzanych przez generator obrazów AI Dall-E 2, jego uczucie było niespokojne. Narzędzie, wydane przez firmę badającą sztuczną inteligencję OpenAI, wykazało wyraźną poprawę w stosunku do Dall-E z 2021 r., a jego śladem szybko zostali konkurenci, tacy jak Stable Diffusion i Midjourney. Wpisz dowolny surrealistyczny monit, od żaby Kermita w stylu Edvarda Muncha do Golluma z Władca Pierścieni ucztowanie na kawałku arbuza, a te narzędzia zwrócą zaskakująco dokładny obraz chwilę później.

Internet rozkoszował się możliwościami tworzenia memów, a konto na Twitterze dokumentujące „dziwne pokolenia Dall-E” zdobyło ponad milion obserwujących. Kosmopolityczny trąbiło o pierwszej na świecie okładce magazynu generowanej przez sztuczną inteligencję, a inwestorzy technologiczni załamali się, by pomachać w nowej erze „generatywnej sztucznej inteligencji”. Możliwości generowania obrazu rozprzestrzeniły się już na wideo, wraz z wydaniem Imagen Video Google i Make-A-Video Meta.

Ale nowa artystyczna sprawność AI nie została tak ekstatycznie przyjęta przez niektórych twórców. „Głównym problemem dla mnie jest to, co to wpłynie na przyszłość nie tylko mojej branży, ale ogólnie kreatywnych branż ludzkich” – mówi Palmer.

Okładka Cosmopolitana przedstawiająca astronautę kroczącego po fioletowej planecie i czytającego „Poznaj pierwszą na świecie sztucznie inteligentną okładkę magazynu… a wykonanie zajęło tylko 20 sekund”.
W czerwcu Cosmopolitan opublikował pierwszą okładkę magazynu wygenerowaną przez sztuczną inteligencję, powstałą we współpracy artystki cyfrowej Karen X Cheng i OpenAI.

Pozyskując duże zbiory danych w celu analizowania wzorców i budowania modeli predykcyjnych, sztuczna inteligencja od dawna okazuje się lepsza od ludzi w niektórych zadaniach. To właśnie ta przedzierająca się liczba doprowadziła do tego, że sztuczna inteligencja pokonała mistrza świata Go w 2016 roku, szybko obliczając najkorzystniejszą strategię gry i nie bojąc się wykonywać ruchów, które wywołałyby drwiny, gdyby pochodziły od osoby. Jednak do niedawna tworzenie oryginalnej twórczości, zwłaszcza twórczości, było uważane za dążenie wyraźnie ludzkie.

Ostatnie ulepszenia AI przesunęły tarczę. Generatory obrazów AI mogą teraz nie tylko transponować pisane frazy na nowe obrazy, ale także poczyniono postępy w generowaniu mowy AI: duże modele językowe, takie jak GPT-3, osiągnęły poziom płynności, który przekonał przynajmniej jednego niedawno zwolnionego badacza Google o wyczucie maszyny. Podłącz twórczość Bacha, a sztuczna inteligencja może improwizować muzykę w mniej więcej tym samym stylu – z zastrzeżeniem, że często niemożliwa byłaby gra ludzka orkiestra.

Ta klasa technologii jest znana jako generatywna sztuczna inteligencja i działa w procesie znanym jako dyfuzja. Zasadniczo ogromne zbiory danych są zeskrobane, aby trenować sztuczną inteligencję, a dzięki procesowi technicznemu sztuczna inteligencja jest w stanie opracować nowe treści, które przypominają dane treningowe, ale nie są identyczne. Po obejrzeniu milionów zdjęć psów oznaczonych słowem „pies”, jest w stanie umieścić piksele w kształcie całkowicie nowego szczeniaka, który przypomina zbiór danych na tyle, że nie mielibyśmy problemu z nazwaniem go psem. To nie jest idealne – narzędzia do obrazowania AI wciąż mają problemy z renderowaniem dłoni, które wyglądają jak ludzkie, proporcje ciała mogą być nieprawidłowe i mają zwyczaj pisania nonsensownych tekstów.

Podczas gdy internauci przyjęli ten superdoładowany potencjał twórczy – uzbrojeni w odpowiednio dopracowaną podpowiedź, nawet nowicjusze mogą teraz tworzyć fascynujące cyfrowe płótna – niektórzy artyści sprzeciwiali się zdolności nowej technologii do mimikry. Wśród podpowiedzi wprowadzonych do generatorów obrazów Stable Diffusion i Midjourney, wiele z nich oznacza nazwisko artysty, aby zapewnić bardziej estetyczny styl powstałego obrazu. Coś tak przyziemnego jak miska pomarańczy może przykuć uwagę, jeśli zostanie wykonane w stylu, powiedzmy, Picassa. Ponieważ sztuczna inteligencja została przeszkolona na miliardach obrazów, z których część jest chronionymi prawami autorskimi dziełami żyjących artystów, może generalnie stworzyć całkiem wierne przybliżenie.

Kolaż przedstawiający Kermit Żaba jako postać na moście w Krzyku Muncha
„Kermit żaba namalowany przez Muncha”, stworzony przez Florisa Groesza za pomocą oprogramowania Dall-E. Zdjęcie: @SirJanosFroglez

Niektórzy są oburzeni tym, co uważają za kradzież ich artystycznego znaku firmowego. Greg Rutkowski, artysta koncepcyjny i ilustrator, znany ze swoich epickich scen fantasy, wypełnionych złotym światłem, był już wspomniany w setkach tysięcy podpowiedzi używanych w Midjourney i Stable Diffusion. „Minął zaledwie miesiąc. A co za rok? Prawdopodobnie nie będę w stanie znaleźć tam swojej pracy, ponieważ [the internet] zostanie zalany sztuką AI” – powiedział Rutkowski Przegląd technologii MIT. – To dotyczy.

Dall-E 2 jest czarną skrzynką, w której OpenAI odmawia wydania kodu lub udostępniania danych, na których szkolono narzędzia. Ale Stable Diffusion zdecydował się na otwarcie kodu źródłowego i udostępnienie szczegółów bazy danych obrazów wykorzystywanych do trenowania modelu.

Spawning, kolektyw artystyczny, zbudował narzędzie o nazwie Czy zostałem przeszkolony? aby pomóc artystom dowiedzieć się, czy ich dzieła znalazły się wśród 5,8 miliarda obrazów użytych do trenowania stabilnej dyfuzji, a także włączyć lub wyłączyć pojawianie się w przyszłych zestawach szkoleniowych. Firma stojąca za Stable Diffusion, Stability AI, powiedziała, że ​​jest otwarta na pracę z tym narzędziem. Spośród 1800 artystów, którzy już zarejestrowali się, aby korzystać z narzędzia, Matthew Dryhurst, naukowiec i członek Spawning, mówi, że jest to podział 60/40 na korzyść rezygnacji.

Ale Stowarzyszenie Sztuki Konceptualnej (CAA) podkreśla, że ​​tym razem szkody zostały już wyrządzone, ponieważ narzędzia zostały już przeszkolone na pracach artystów bez ich zgody. „To tak, jakby ktoś, kto już cię okradł, mówiąc: „Czy chcesz zrezygnować z tego, że cię okradłem?” – mówi Karla Ortiz, ilustratorka i członek zarządu CAA.

Emad Mostaque ze Stability AI mówi, że chociaż dane wykorzystywane do trenowania Stable Diffusion nie oferowały opcji rezygnacji, „był to w dużej mierze model testowy, mocno niezoptymalizowany na migawce obrazów w Internecie”. Mówi, że nowe modele są zwykle szkolone na świeżych zestawach danych i wtedy firma bierze pod uwagę prośby artystów.

Mężczyzna w kryzie i dublecie siedzący przy komputerze stacjonarnym
“Renesansowy obraz przedstawiający osobę siedzącą w kabinie biurowej, piszącą na klawiaturze, zestresowaną”, autorstwa Dall-E.

To nie tylko dzieła sztuki: analiza treningowej bazy danych dla Stable Diffusion wykazała, że ​​pochłonęła ona również prywatne zdjęcia medyczne, zdjęcia członków społeczeństwa (czasem wraz z ich pełnymi nazwiskami) i pornografię.

Ortiz szczególnie sprzeciwia się komercjalizacji części swojej działalności Stability AI – DreamStudio, która oferuje klientom niestandardowe modele i większą łatwość użytkowania. „Firmy te ustanowiły teraz precedens polegający na tym, że wykorzystujesz prywatne i chronione prawem autorskim dane wszystkich osób, nawet bez zgody” — mówi. „Potem mówią: „Nie możemy nic z tym zrobić, dżin wyszedł z butelki!”

To, co można z tym zrobić, poza poleganiem na korzyściach firm stojących za tymi narzędziami, wciąż pozostaje kwestią dyskusyjną.

CAA powołuje się na niepokojące brytyjskie przepisy, które mogą pozwolić firmom AI na jeszcze większą swobodę w wykorzystywaniu chronionych prawem autorskim dzieł twórczych w celu szkolenia narzędzi, które następnie mogą być komercyjnie. W Stanach Zjednoczonych organizacja spotkała się z urzędnikami rządowymi, aby porozmawiać o prawie autorskim, a obecnie prowadzi rozmowy z lobbystami z Waszyngtonu, aby przedyskutować, jak odepchnąć to jako przemysł.

Poza naśladownictwem Palmer zwrócił uwagę na jeszcze większy problem: czy te narzędzia narażają na ryzyko całą klasę twórców? W niektórych przypadkach sztuczna inteligencja może być używana zamiast obrazów stockowych – biblioteka obrazów Shutterstock niedawno zawarła umowę z OpenAI na integrację Dall-E w swoim produkcie. Palmer twierdzi jednak, że dzieła sztuki, takie jak ilustracje do artykułów, książek lub okładek albumów, mogą wkrótce stanąć w obliczu konkurencji ze strony sztucznej inteligencji, podkopując kwitnący obszar sztuki komercyjnej.

Właściciele generatorów obrazów AI mają tendencję do twierdzenia, że ​​wręcz przeciwnie, narzędzia te demokratyzują sztukę. „Tak duża część świata jest twórczo zatwardzona”, powiedział założyciel Stability AI, Emad Mostaque podczas niedawnej imprezy z okazji zbiórki funduszy o wartości 101 milionów dolarów, „i zrobimy to, aby mogli kupować tęcze”. Ale jeśli każdy może wykorzystać sztuczną inteligencję do tworzenia technicznie mistrzowskich obrazów, co to mówi o istocie kreatywności?

Anna Ridler, artystka znana ze swojej pracy ze sztuczną inteligencją, mówi, że pomimo tego, że Dall-E 2 czuje się „jak magia” przy pierwszym użyciu, jak dotąd nie odczuła iskry inspiracji w swoich eksperymentach z tym narzędziem. Preferuje pracę z innym rodzajem sztucznej inteligencji, zwanym generatywnymi sieciami kontradyktoryjności (GAN). Sieci GAN działają jako wymiana między dwiema sieciami, z których jedna tworzy nowe obrazy, a druga decyduje o tym, jak dobrze obraz spełnia określony cel. Artystyczny GAN może mieć na celu stworzenie czegoś, co jest jak najbardziej odmienne od danych treningowych, bez opuszczania kategorii tego, co ludzie uznaliby za sztukę wizualną.

Kwestie te wywołały zintensyfikowaną debatę na temat tego, w jakim stopniu możemy przypisać sztucznej inteligencji kreatywność. Według Marcusa du Sautoy, matematyka z Oxford University i autora Kod kreatywności: jak sztuczna inteligencja uczy się pisać, malować i myśleć, Dall-E i inne generatory obrazów prawdopodobnie są najbliżej replikacji pewnego rodzaju „kombinowanej” kreatywności, ponieważ algorytmy są uczone tworzenia nowych obrazów w tym samym stylu, co miliony innych w danych treningowych. GAN, z którymi współpracuje Ridler, są bliższe „transformacyjnej” kreatywności, jak mówi – tworząc coś w całkowicie nowatorskim stylu.

Nieostry, rozmyty obraz corgi na plaży
Dall-E wygenerował obraz „starego zdjęcia corgi na plaży” – pokazując, że oprogramowanie może również tworzyć realistycznie wyglądające obrazy.

Ridler sprzeciwia się takiemu schematycznemu podejściu do definiowania kreatywności. „Spłaszcza to do myślenia o sztuce jako o interesującej tapecie, a nie o czymś, co próbuje wyrazić pomysły i szukać prawdy” – mówi. Jako artystka konceptualna doskonale zdaje sobie sprawę z niedociągnięć AI. „Sztuczna inteligencja nie radzi sobie z pojęciami: zapadającymi się momentami w czasie, wspomnieniami, myślami, emocjami – wszystko to jest prawdziwą ludzką umiejętnością, która tworzy dzieło sztuki, a nie coś, co wizualnie wygląda ładnie”.

Narzędzia obrazu AI pokazują niektóre z tych braków. Podczas gdy „astronauta jadący na koniu” zwróci dokładny rendering, „jazda konna astronauta” zwróci obrazy, które wyglądają bardzo podobnie – wskazując, że sztuczna inteligencja tak naprawdę nie rozumie związków przyczynowych między różnymi na świecie.

Dryhurst i Ridler twierdzą, że idea „wymiany artysty” wynika z niedoceniania procesu artystycznego. Dryhurst ubolewa nad tym, co widzi jako media podkręcające alarmistyczne narracje, podkreślając niedawne New York Times artykuł o artyście, który wykorzystał Midjourney, aby wygrać w kategorii cyfrowej dorocznego konkursu artystycznego odbywającego się na targach stanu Kolorado. Dryhurst zwraca uwagę, że targi państwowe to nie do końca prestiżowe forum. „Rozdawali nagrody za owoce w puszkach” — mówi. „Drażni mnie to, że wydaje się, że istnieje taki rodzaj pragnienia, by straszyć artystów”.

„Sztuka jest martwa, koleś”, powiedział zwycięzca targów stanowych.

Możliwe, że szum wokół tych narzędzi jako sił destrukcyjnych przewyższa rzeczywistość. Mostaque mówi, że generatory obrazów AI są częścią tego, co nazywa „inteligentnymi mediami”, co stanowi szansę na „jeden bilion dolarów”, powołując się na budżet Disneya wynoszący ponad 10 miliardów dolarów (8,7 miliarda funtów) i wartość całej branży gier ponad 170 miliardów dolarów. „Każdy element treści od BBC do Disneya będzie interaktywny przez te modele”, mówi.

Pojawiające się obecnie aplikacje są bardziej prozaiczne, w tym moodboardy do doradztwa projektowego, storyboardy do filmów i makiety do projektowania wnętrz, a Mark Beccue, analityk w dziale AI firmy Omdia, jest sceptycznie nastawiony do wartości miliarda dolarów. „Jakie są tu zabójcze przypadki użycia?” on mówi. „To nie ma sensu. Jaki problem z tym rozwiązujesz?” Analityk z firmy konsultingowej Accenture twierdzi, że pewnego dnia narzędzia mogą zostać wykorzystane do tworzenia treści w celu trenowania algorytmów uczenia maszynowego, na przykład w autonomicznych pojazdach, i przyspieszania tworzenia gier. To, czy przyniesie to coś tak lukratywnego, jak proponują generatory obrazów AI i ich zwolennicy, okaże się.

Leave a Comment

Your email address will not be published. Required fields are marked *