Hem Audio Jag hör döda människor? naturligt språkteknologi får röster från tidigare och nuvarande liv

Jag hör döda människor? naturligt språkteknologi får röster från tidigare och nuvarande liv

Innehållsförteckning:

Anonim

Idag är de flesta datoröster passé. Du blir förmodligen inte för upptagen om cyborgs och robotar när du hör "droid" på din telefon som hjälper dig med en fakturobetalning eller frågar vilken avdelning du vill ha. Men vad händer om du plötsligt hörde Kurt Cobain fördriva dig för kortinformation? Eller John F. Kennedy som berättar om underverkan med tidig omröstning? Eller att Elvis får ner ditt namn och din adress innan han bryter in i "en hunk, en hunk av brinnande kärlek?"


Alla dessa skulle vara … ganska konstiga, men det som är ännu mer fascinerande är att tekniken i princip redan är här. För bara ett decennium sedan blev vi förvånade över en dators förmåga att ens prata alls. Nu håller vi på att flytas av frittgående datorgenererade röster som låter precis som vi känner.

Stora förändringar i NLP

Om du uppmärksammar området naturligt språkbehandling (NLP), kanske du har hört talas om några senaste framsteg som går utöver de typer av konserverade virtuella assistentröster som vi nu hör i våra globala positioneringssystem (GPS) och automatiserade affärer telefonlinjer.


Inledningen av NLP krävde en hel del forskning om den allmänna mekaniken för mänskligt tal. Forskare och ingenjörer var tvungna att identifiera enskilda fonetiker, lägga dem i större algoritmer för att generera fraser och meningar och sedan försöka hantera allt på en metanivå för att generera något som lät verkligt. Med tiden behärskade NLP-ledare detta och började bygga avancerade algoritmer för att förstå vad människor säger. För att sammanföra dessa två kom företag med drivrutinerna för dagens virtuella assistenter och helt digitala fakturar för betalningsbetalningar, vars sätt - medan irriterande - fortfarande är fantastiskt när du slutar att tänka på det arbete som gjordes i dem.


Några företag går utöver den generiska virtuella röst för att sätta ihop ett mer specifikt personligt resultat. Detta kräver att man går igenom en viss persons lexikon och samlar in stora mängder unik röstvideo och sedan tillämpar detta arkiv på de komplexa rytmerna för fonetik, betoning, kadens och alla andra små signaler som lingvister ofta grupperar under den breda banan för "prosody."


Det som kommer ut är en röst som lyssnarna ser på som "ägs" av en viss person - antingen någon de känner och har pratat med, eller någon vars röst de känner igen som ett resultat av personens berömmelse.


Från Elvis till Martin Luther King kan någons röst nu "klonas" på detta sätt - förutsatt att det finns en betydande förinspelad post av deras tal. Genom att tillämpa ännu mer detaljerad analys och manipulation på enskilda små ljud kan företag göra en virtuell kolkopia av någons röst som låter mycket som den riktiga saken.

Spännande skapelser "Text to Voice" på VivoText

VivoText är till exempel ett företag som arbetar för att revolutionera användningen av konstgjorda mänskliga röster för alla typer av kampanjer, från ljudböcker till interaktivt röstsvar (IVR). På VivoText arbetar forsknings- och produktionsteam med processer som teoretiskt sett specifikt skulle kunna replikera rösterna från avlidna kändisar, till exempel Ol 'Blue Eyes själv.


"För att klona Frank Sinatras röst, skulle vi faktiskt gå igenom hans inspelade arv, " säger VivoText VD Gershon Silbert och pratar om hur denna typ av teknik skulle kunna fungera.


Just nu arbetar VivoText med att arkivera rösterna för dem som fortfarande är med oss, till exempel NPR-korrespondenten Neal Conan, som har registrerat sig som modell för denna typ av IT-pionjärprojekt. En kampanjvideo visar VivoText-arbetare som noggrant skapar fonetiska kodmoduler med tillhandahållen röstinmatning från Conan. De skapar sedan modellerna för verktyg för text till tal (TTS) som framkallar ett dramatiskt mänskligt och personifierat resultat.


Enligt Ben Feibleman, vice vd för strategi och affärsutveckling på VivoText, arbetar datorn på ett fonemnivå (med de minsta unika taldelarna) för att anpassa sig till en prosodisk modell för en individuell mänsklig röst.


"Det vet hur rösten pratar, " säger Feibleman och tillägger att genom att använda "enhetsval" väljer datorn ett antal bitar för att sätta ihop ett enda kort ord, som där ordet "fredag" ges fem komponenter som hjälper till att utveckla en speciell betoning och tonresultat.

Konstgjord röst i marknadsföring

Så, hur fungerar detta i marknadsföring? VivoTexts produkter kan vara extremt användbara för att skapa produkter, som ljudböcker, som kan nå målgrupper. Till exempel, hur mycket effektivare skulle en Elvis-röst jämföras med en av dagens generiska, deadpan, automatiserade röster om den användes för att sälja underhållningsrelaterade produkter?


Eller, vad sägs om i politik? Feibleman har arbetat med olika idéer för att använda projekt som dessa för att förbättra marknadsföringen för företag eller andra parter som behöver effektivare meddelanden.


"Om du känner till några politiker som går till president kan detta ha 10 miljoner svingstatliga väljare att få ett personligt samtal från en kandidat, tacka dem för deras stöd, berätta för dem vart de måste gå för att rösta, vädret och alla beslag kvällen före valet, "sa Feibleman.

Dina röst lever vidare

Det finns en annan uppenbar applikation för all denna teknik. Naturliga språkföretag som VivoText skulle kunna skapa en personlig tjänst som skulle ladda upp all kundens röstinformation till en produkt som skulle göra det möjligt för personen att "tala för evigt."


Praktiskt genomförande skulle sannolikt väcka ett antal frågor om hur vi hör och internaliserar talade röster. Till exempel, vad krävs för att en ljudström ska låta exakt som någon? Hur väl måste vi känna en person för att känna igen en viss röst? Och intressant, vad händer om en naturlig språktjänst producerar en rå karikatur snarare än en tvingande mimik?


Utvärdering av resultat, säger Feibleman, beror ofta på hänsyn till kontext. Till exempel säger han att barn vanligtvis inte ställer frågor om vem som talar när de lyssnar på en berättelse. De vill bara ha mer. Men också många vuxna kanske inte tänker på vem som pratar med dem, med tanke på ett särskilt scenario, till exempel en passiv sändning eller telefonmeddelande. Det är också lättare att luras av en dator via telefon eftersom det dämpade ljudet kan dölja glitches eller andra skillnader mellan datorresultaten och en mänsklig röst.


"Det händer inte att du utmanar röstens äkthet, " säger Feibleman.

År 2525

När företag går vidare med att utveckla produkter och tjänster och besvara dessa frågor kan "levande tal" -teknologier främja oss mot den konvergensen av teknik och det mänskliga sinnet, som klassiskt har kallats artificiell intelligens (AI).


Om datorer kan prata som oss kan de kanske lura andra användare att tänka att de tänker som oss och mata in i den större singularitetsprincipen, som infördes i vårt lexikon av John von Neumann, en teknikpionjär från 1950-talet evangeliserad av författare och tänkare som Ray Kurzweil. Kurzweils bok från 2005, "The Singularity Is Near", lockar vissa och skrämmer andra. Kurzweils förutspådde att "intelligens" som ett fenomen år 2045 kommer att bli kraftigt orubbligt från den mänskliga hjärnan och migrera in i teknik, vilket gör att linjerna mellan maskiner och deras mänskliga mästare blir oskarpa.


Immortalized i texterna till Zager & Evans "" År 2525 "(ingen gör läskiga sci-fi-ballader som dessa killar) …


År 4545

Du behöver inte dina tänder, behöver inte

dina ögon

Du hittar inte en sak att tugga

Ingen kommer att titta på dig


År 5555

Dina armar hänger hängande vid dina sidor

Dina ben fick inget att göra

Någon maskin gör det åt dig


Är datoröster ett steg i den här riktningen? Som ett nytt sätt att lägga ut vissa av människokroppens funktioner (eller mer vanligtvis för att simulera dem) är denna typ av tekniska framsteg en av de största - och förmodligen underrapporterade - framstegen i horisonten när vi ser in i en enskild framtid . (om "singulariteten" i Kommer datorer att kunna imitera det mänskliga sinnet?)

Jag hör döda människor? naturligt språkteknologi får röster från tidigare och nuvarande liv