Maagjes borrelen. Dat is normaal. Het geluid van bewegende spieren in het spijsverteringsstelsel. Het menselijk lichaam doet zijn werk. Soms, als er een microfoon in de buurt is, worden die kabbelende en gorgelende geluiden opgepikt.

AI-audioboekvertellers hoeven zich geen zorgen te maken over vreemde gastro-intestinale geluiden, maar Leah Allers en ingenieur Craig Hinkle zijn geen bots. Het zijn mensen die half januari opnemen voor Nashville Audiobook Productions, zich zorgen maken over gorgelen, bespreken waar de nadruk op het woord ‘verhogen’ moet worden gelegd, en zich bezighouden met het gedetailleerde werk van het geven van een ‘echte’ stem aan een boek over hoe paren communiceren.

De studio van NAP bevindt zich in The Rukkus Room in Nashville, Tennessee, dezelfde plaats waar Taylor Swift haar zevenvoudig platina titelloze debuutalbum opnam. De geur van koffie dringt de wachtkamer binnen. Hinkle is afgestemd op elk woord dat uit de mond van Allers komt, kijkend van een iPad met de tekst van het boek naar een grote monitor die op het klankbord in de studio staat.

“Ik wil wat meer emoties uit deze vragen halen”, zegt Allers tegen Hinkle voordat hij een deel van een hoofdstuk opnieuw begint.

Luisterboeken zijn booming. Volgens Acumen Research and Consulting zal de markt naar verwachting in 2030 $ 33,5 miljard bereiken, tegen ongeveer $ 4,2 miljard in 2021. Of dit nu een uitloper is van de stijgende populariteit van podcasts, een kwestie van luistergemak of een bijproduct van de pandemie, het is niet ontsnapt aan de aandacht van technologiebedrijven en de onvermijdelijke griezel van kunstmatige intelligentie.

In 2023 is de opwinding rond het potentieel van AI groot, maar dat geldt ook voor de bezorgdheid over het stelen van banen van worstelende creatievelingen. ChatGPT kan alles schrijven, van pre-autorisatiebrieven voor verzekeringen tot biografieën van dating-apps, met wisselend succes. AI-platforms zoals Lensa AI En Dall-E van OpenAI spuwen AI-gegenereerde kunst uit, waardoor velen die de kost verdienen met het maken van digitale kunst zich zorgen maken over hun toekomst.

“Ik weet niet of dit over vijf jaar nog mijn fulltime optreden zal zijn.” Tanya Eby, verteller van het audioboek

Techbedrijven, waaronder Apple en Google, werken al een tijdje aan AI-audioboekvertelling. In 2022 rolde Google zijn diensten uit naar uitgevers in zes landen, waaronder de VS en Canada. De AI-vertellers van Google hebben namen als Archie, die Brits klinkt, en Santiago, die Spaans spreekt. Begin januari, Apple introduceerde een stal van AI-stemmen met namen als Madison en Jackson, waarop auteurs en indie-uitgevers die hun boeken op Apple Books verkopen, kunnen tikken om genres van non-fictie tot romantiek te lezen.

Door de toenemende aanwezigheid van AI in de vertelling van gesproken boeken bevinden menselijke vertellers zoals Tanya Eby zich in verschillende stadia van stress.

Bekroonde verteller Tanya Eby. Tanja Eby

“Ik weet niet of dit over vijf jaar nog mijn fulltime optreden zal zijn”, zegt Eby, een verteller uit Grand Rapids, Michigan, die de afgelopen 21 jaar meer dan 1000 boeken heeft opgenomen.

Vertellers zoals Eby zeggen dat hun menselijkheid precies is wat hen helpt hun werk te doen. Vooral bij fictie nemen vertellers beslissingen over alles, van de stem van een personage tot hoe nuance en emotie over te brengen op een manier die het verhaal weerspiegelt.

“Als een personage snikt na de dood van hun vader, moet ik die tranen en snikken overbrengen in haar toespraak”, zegt Kathleen Li, een verteller uit Austin, Texas.

Vertellers beschrijven de intimiteit van een stem in het oor van een luisteraar en vragen zich af of zelfs de meest levensechte AI in de griezelige vallei zal vallen. Het gevaar, zo maken ze zich zorgen, verstoort de ervaring.

AI-stemmen kunnen variëren van hoogdravend tot behoorlijk overtuigend. Maar zelfs de meest vloeiende kan die griezelige vallei-struikeldraden veroorzaken met een bezorging of tempo dat niet klinkt.

“Het hele ding over het consumeren van media is dat we erin willen worden gehuld”, zegt Jonathan Sleep, een verteller die buiten Atlanta, Georgia woont.

Geld praat

Audioboekdiehards vinden het misschien moeilijk om te begrijpen waarom iemand zou kiezen voor een synthetische stem in plaats van een menselijke. Maar voor kleine uitgevers en auteurs kunnen tijd en geld een krachtiger argument zijn dan de heiligheid van een creatieve prestatie.

Audioboeken verdienen niet veel geld voor de University of Michigan Press. De uitgever brengt ongeveer 100 academische boeken per jaar uit – door wetenschappers voor wetenschappers of studenten.

Het kan wel $ 6.000 kosten om een ​​verteller in te huren voor een boek dat misschien maar een paar honderd terugverdient. En dan hebben we het nog niet eens over het intensieve productieproces. Volgens ACX, Amazon’s Audiobook Creation Exchange, kan het ongeveer zes uur duren om een ​​voltooid uur van een audioboek te produceren.

“De realiteit is dat tenzij je een soort bestseller hebt, de economie niet werkt”, zegt Charles Watkinson, directeur van de University of Michigan Press en universitair bibliothecaris voor publicaties bij de University of Michigan Library. Hij is ook voorzitter van de Association of University Presses, een beroepsorganisatie van uitgevers in de academische ruimte.

Voor kleinere auteurs en uitgevers kunnen de tijd en kosten van het produceren van een audioboek buiten bereik zijn. AI zou daar verandering in kunnen brengen.

“De realiteit is dat tenzij je een soort bestseller hebt, de economie niet werkt.” Charles Watkinson, Universiteit van Michigan Press

Ongeveer twee jaar geleden benaderde Google de University of Michigan Press over deelname aan een pilotprogramma. De pers kon de tool van Google gebruiken om ongeveer 100 digitaal geproduceerde audioboeken te maken. Er is nog steeds een zekere mate van menselijke tussenkomst vereist. Watkinson zei dat sommige professoren die Google hebben gebruikt, studenten naar de opname zullen laten luisteren om deze te vergelijken met de tekst. Kleinere persen kunnen nog steeds personeelsproblemen hebben, ondanks het versnellen van het opnameproces met AI.

Watkinson zei dat de Universiteit van Michigan geïnteresseerd was in hoe AI mogelijk de toegankelijkheid van boeken zou kunnen vergroten die anders misschien niet in audiovorm beschikbaar zouden zijn.

In de begindagen van de pilot bereikten ze ongeveer 900 auteurs met een voorbeeld van de vertelling, en de algemene reactie was dat de AI-vertelling slechts een beetje beter was dan wat een schermlezer iemand met een visuele beperking zou kunnen bieden. Voor mensen met visuele problemen die misschien geen schermlezers of iets dergelijks hebben, kan AI misschien helpen een leemte in de toegang op te vullen.

In andere gevallen kunnen luisteraars gewoon blij zijn met een opgenomen boek in welke vorm dan ook. Een stagiaire van Watkinson gebruikte audioboeken om te blijven studeren op momenten dat ze geen open boek voor zich kon hebben, zoals in de bus of als ze naar de les liep. Ze noemde het ‘interstitieel luisteren’.

De opkomst van digitale stemmen

Naast grote namen als Apple en Google, is er een snelgroeiende groep kleinere bedrijven die de AI-spraakruimte betreden.

DeepZen probeert AI-audiovertelling natuurlijker te laten klinken. DeepZen

DeepZen is er een van. Opgericht in 2018 en geïnspireerd door de film Her uit 2013, over een man die verliefd wordt op zijn virtuele AI-assistent, bouwde DeepZen een natuurlijk taalverwerkingssysteem dat signalen uit tekst kan halen en dat AI-stemmen gebruikt die zijn gemaakt van gelicentieerde menselijke vertellers, pseudoniem gelabeld .

Een van de grootste uitdagingen was het creëren van een platform dat tekst niet plat zou napraten, maar in plaats daarvan met toon zou doordringen, zei CEO en mede-oprichter Taylan Kamis.

Het duurde een paar jaar voordat het op de markt kwam, maar nu kunnen klanten met DeepZen een manuscript uploaden en, afhankelijk van hun prijsplan, een geautomatiseerde of beheerde service selecteren. Beide worden geleverd met niveaus van kwaliteitscontrole, zoals een uitspraakcontrole, maar de beheerde optie biedt een proefdrukcontrole door menselijke redacteuren en twee correctierondes.

De geautomatiseerde service kost een klant $ 69 per voltooid uur versus $ 129 voor de beheerde optie. DeepZen heeft tot nu toe bijna 3.000 boeken geproduceerd, zowel fictie als non-fictie.

Op de website kun je luisteren naar samples van 10 stemmen, met namen als Todd, Dahlia en Alice.

Ergens op de wereld zijn Todd, Dahlia en Alice echte mensen. Kamis denkt dat stemlicenties een manier kunnen zijn voor vertellers om naast AI te bestaan ​​in vertelling.

“Die verteller zal geld verdienen in zijn of haar slaap en zijn stem zal royalty’s verdienen in Japan (of) China of Zuid-Afrika,” zei hij.

DeepZen werkt ook aan een manier om AI-stemmen andere talen te laten spreken, om het marktbereik te vergroten.

En het maakt niet uit om de uitdagingen van het spreken van slechts één taal te overwinnen – de dood hoeft niet eens in de weg te staan. DeepZen benaderde de familie van de bekende stemacteur en verteller Edward Hermann, die stierf in 2014, over licenties voor zijn stem. Ze hebben zich aangemeld. In zekere zin werkt Hermann nog steeds, postuum.

Terug praten

Kamis is niet de enige die denkt dat er een manier is voor AI en mensen om met elkaar overweg te kunnen in stemvertelling.

Watkinson, van de Universiteit van Michigan, wil AI gebruiken als een manier om te testen welke boeken het waard zijn om een ​​mens in te huren om op te nemen. Als iemand bijzonder goed verkoopt, kan het succes de kosten rechtvaardigen. Hij is zelf een fan van luisterboeken.

“Dit is een oprit voor ons om menselijke vertellers te krijgen,” zei hij.

Niet iedereen is optimistisch. Sommigen in de branche maken zich zorgen dat er minder banen zullen zijn voor vertellers die niet beroemd zijn of zelf geen volgers hebben.

“Al die middenklasse, echt solide vertellers … doen uitstekend werk en het is hun levensonderhoud – maar ze zullen niet per se een gelijkspel worden”, zegt Andrea Fleck-Nisbet, CEO van de Independent Book Publishers Association.

Na twee decennia in het vak zei Eby dat ze zich afvraagt ​​wat er gebeurt als ze uiteindelijk niet het werk kan vinden om fulltime te vertellen.

“Fictie gaat over wat het betekent om mens te zijn. En een machine kan dat niet repliceren.” Elizabeth Bell, auteur

“Welke vaardigheden heb ik die competitief zijn? En hoe zou ik naar een kantoor gaan en wat zou ik bieden?” zij vroeg.

Verteller Jonathan Sleep zei dat hij weet dat hij huiswerk te doen heeft – en hij krijgt extra aandacht voor de contracten die hij tekent en welke rechten hij overdraagt ​​met betrekking tot zijn stem.

Anderen, zoals verteller Andy Garcia-Ruse, willen hun sterke punten uitspelen: “Het enige wat we kunnen doen is ervoor zorgen dat ze verliefd worden op onze uitvoeringen en blijven werken.”

Sommige auteurs weigeren een digitale stem te gebruiken.

“Ik heb het gevoel dat het doel van fictie is om de emoties van de lezer of de luisteraar op te roepen, en fictie gaat over wat het betekent om mens te zijn. En een machine kan dat niet repliceren”, zei auteur Elizabeth Bell.

Auteur Chris Stokel-Walker gebruikte Google om zijn non-fictieboek TikTok Boom uit 2021 te vertellen, over de populaire video-app, en schreef over het resultaat in Inverse.

“Wat terugkwam, was een audioboek dat, hoewel het een deel van de emotie en het drama miste waarop je zou hopen, behoorlijk klonk”, schreef Stokel-Walker.

Toch blijven er nog genoeg vragen over. Zullen mensen, in een wereld waar mensen al elke dag digitale stemmen als Siri en Alexa horen, er niet meer om geven als een digitale stem niet perfect menselijk klinkt? Voor Fleck-Nisbet is AI-vertelling slechts een van de vele vragen waarmee de uitgeverijsector te maken zal krijgen. Er zijn andere onzekerheden over AI en auteursrecht of intellectueel eigendom.

Met andere woorden, dit is nog maar het begin.

Luider spreken

Niets van dit alles wil zeggen dat vertellers volgende week in de werkloosheidslijn zullen staan.

John Behrens, eigenaar van Nashville Audiobook Productions, heeft de afgelopen jaren met twee AI-gegenereerde boeken gewerkt, die in wezen zorgen voor kwaliteitscontrole. De AI liep nog steeds tegen problemen aan. Het kon geen bijbelverzen uitspreken en worstelde met retorische vragen in de tekst.

Een slecht audioboek kan 50 tot 100 inzendingen opleveren voor problemen die moeten worden opgelost, zei Behrens. De AI produceerde honderden. Dat brengt hem ertoe te geloven dat menselijke vertellers nergens heen gaan – tenminste voor een tijdje. Hij raadt paniek af.

“Als je in angst gaat leven… waarom zou je dan blijven investeren in deze carrière als je denkt dat het gaat opdrogen?” hij zei.

Terug in de Rukkus Room nemen Allers en Hinkle een pauze om over de robots te praten.

Het is de eerste keer dat Allers een audioboek vertelt, hoewel ze veel voice-overwerk en nasynchronisatie heeft gedaan, ook voor Netflix.

Hinkle is niet onder de indruk van AI.

‘Een robot die een boek leest,’ zei hij. “Ik denk nog steeds dat het lang gaat duren voordat het natuurlijk en begaafd klinkt.”

Vertel het niet aan Madison en Jackson.

Noot van de redactie: CNET gebruikt een AI-engine om een ​​aantal persoonlijke financiële verklaringen te maken die door onze redacteuren worden bewerkt en op feiten worden gecontroleerd. Voor meer, zie deze post.