Od uporabe AI do vodenja AI: Moja revolucija TTS delovnega procesa

Hej!

prejšnji teden sem te pustil v napetosti. Ravnokar sem odkril, kako impresivna je Googlova storitev Text-to-Speech (TTS), a sem naletel na oviro pri YouTubu. Ta teden se vračam s posodobitvijo, rešitvijo in delovnim procesom, ki bo spremenil tvoj pogled na ustvarjanje zvočnih vsebin.

Prva ovira: Verifikacija YouTuba kanala

Kot obljubljeno, sem želel deliti zvok, ki sem ga ustvaril. Prvi korak je bil priprava mojega novega YouTube kanala, Ideas Universe, za akcijo. Ko pa sem poskušal naložiti zvočno datoteko (kot video), mi je bilo preprečeno nalaganje daljših posnetkov.

Kanal sem moral verificirati s telefonsko številko. Sliši se preprosto, kajne? Narobe. Nenehno sem prejemal čudno napako. Po nekaj poskusih in napakah sem našel krivca: obliko moje telefonske številke.

Strokovni nasvet: Če boš kdaj moral verificirati YouTube kanal, se prepričaj, da vneseš svojo telefonsko številko z znakom + in kodo države (npr. +38631123456). Uporaba 00 namesto znaka + bo povzročila napako. To je majhna podrobnost, ki pa mi je prihranila ogromno frustracij.

Od “uporabe” AI do “vodenja” AI

Začetni zvok iz Googlovega AI Studia je bil dober, a vedel sem, da je lahko še boljši. Začel sem z ročnim dodajanjem navodil v besedilo, kot sta [pause here] ali [speak this part louder]. To je delovalo, vendar si nisem predstavljal kako bi to delal z daljšimi teksti.

Pomislil sem: “Mora obstajati boljši način.”

Kaj, če bi lahko uporabil AI za usmerjanje drugega AI?

Ključ do nadzora izhoda TTS je nekaj, kar se imenuje SSML (Speech Synthesis Markup Language). To je nabor oznak, s katerimi lahko oviješ besedilo za nadzor vsega, od premorov in poudarkov do višine in glasnosti. Ročno pisanje SSML je zamudno in se zdi kot kodiranje.

Tukaj je delovni proces, ki sem ga uporabil:

Poišči pravila: Vedel sem, da imajo vrhunske storitve TTS podrobne vodnike o tem, kako usmerjati njihove modele za najboljše rezultate. Našel sem odličen vodnik za usmerjanje od ElevenLabs, s podrobnimi navodili za doseganje čustvenega in izraznega razpona.
Nauči AI: Odprl sem ChatGPT, prilepil povezavo do dokumentacije ElevenLabs in mu dal preprosto navodilo: “Nauči se to.”
Delegiraj nalogo: Nato sem dal ChatGPT-ju majhen del svojega teksta in novo navodilo: “Zdaj uporabi, kar si se naučil, na mojem besedilu.”

Tukaj je primer pred in po:

ChatGPT Prompt

Režiserjev rez, ustvarjen z AI:

[serious tone] This is the story of how I stopped “using” AI… and started leading it. [a pause, tone shifts to conversational curiosity] A few months ago, a friend called me, completely frustrated. [imitating a frustrated tone, slightly louder] “This AI stuff is garbage,” he said. [sighs]

Rezultat je bil boljši. AI je dobro zajel pripovedni tok in čustvene premike ter dodala niansirana navodila, za katera bi ročno potreboval več ur. Prevedel je moj namen v natančna navodila za model TTS.

Končni rezultat: Poslušaj sam

Vzel sem tekst iz tega LinkedIn newsletter-ja, ustvaril zvok z Gemini in ga naložil na svoj na novo verificiran YouTube kanal.

Končno različico lahko poslušaš tukaj:

Ali je ElevenLabs močnejši? Da, ampak …

Seveda je vrhunsko orodje, kot je ElevenLabs, neverjetno močno. Ponuja napredne funkcije, kot so profesionalno kloniranje glasu, knjižnica zvočnih učinkov in sofisticirana orodja za urejanje, ki omogočajo ustvarjanje zvočnih knjig z večimi glasovi in samodejno sinhronizacijo videoposnetkov. Z dovolj podatki lahko ustvariš hiper-realistične klone lastnega glasu.

Ampak bistvo je naslednje:

za mojo specifično potrebo, da hitro in učinkovito spremenim newsletter v zvenečo zvočno različico, je bil Gemini popolna izbira. Glas se je zdel bolj naraven za mojo vsebino, postopek je bil brezhiben in ne pozabimo na najboljši del: je brezplačen.

Ta pot me je naučila dragocene lekcije. Prava moč AI ni samo v uporabi orodij, temveč v njihovem orkestriranju. Gre za iskanje pametnih načinov, kako različne AI-je pripraviti do sodelovanja, da avtomatizirajo dolgočasne dele in okrepijo tvojo ustvarjalnost.

Katero dolgočasno nalogo v tvojem procesu ustvarjanja vsebin bi si želel avtomatizirati? Odpiši in mi sporoči!

Se slišiva kmalu, Primož