Röstigenkänningsteknik: användbar eller smärtsam?

2026

Innehållsförteckning:

Tryck på 0 för att prata med en människa
Personliga telefonappar: Siri, Google Now
Där VR faller platt
Vad framtiden har att erbjuda

Har du någonsin ringt ett företag för att få hjälp eller betala din faktura, bara för att hälsas av en trevlig inspelad röst som vill ha en konversation med dig - men inte förstår hälften av vad du säger? Eller kanske du äger en iPhone, och medan Siri först verkade som en bra allierad, har du insett att ibland (OK, låt oss vara ärliga, ofta) hon bara inte förstår det? Röstigenkänningsteknologi (VRT), även känd som tal-till-text, faller i en vanlig fälla: den har potential att vara otroligt cool (och pojke, är vi rotande för det), men oftare är det en tandslipning träna i frustration.

En gång en idé som tillhörde science fiction-riket, har röstigenkänning vuxit från dess barndom på 1950-talet, då Bell Laboratories Audrey-system designades för att känna igen siffror som talas i en enda röst, till det moderna nätverket av konversationselektronik som vi nu interagerar med dagligen - med blandade resultat.

Tryck på 0 för att prata med en människa

Många av dagens företag använder nu system som kallas interaktivt röstsvar (IVR) för att hantera kundtjänstsamtal. Den vanligaste användningen är för röstnavigerade menyer, men vissa företag använder IVR-system som kan få åtkomst till kundkontoinformation och svara på mindre frågor. Meny IVR-programvara har vanligtvis ett begränsat ordförråd, vilket kan begränsas till "ja", "nej" och siffror. Mer komplicerade system kan känna igen företagsspecifika ord och fraser.

Dessa system blir mer populära - åtminstone för företag - av ett enkelt skäl: de är kostnadseffektiva. Enligt en rapport från Wall Street Journal från 2010 kostar ett typiskt kundsamtal som når en agent mellan $ 3 och $ 9, medan ett samtal som hanteras genom ett automatiserat system bara kostar fem till sju cent. Och naturligtvis blir datorprogram inte trötta, ringer in sjuka eller blir frustrerade över kunderna (även om kunder verkligen blir frustrerade av dem!).

Lyckligtvis betyder detta inte alltid att IVR tar bort jobb från människor - eller åtminstone att alla människor försvinner från callcenter. Dessa röstaktiverade hjälpare gör det möjligt för mänskliga kundtjänster att vara mer produktiva genom att rikta samtal och svara på enkla frågor.

Naturligtvis för de mänskliga användare som interagerar med denna teknik är det inte alltid smidig segling. Teknik hjälper till att förbättra vanliga problem inom IVR-teknik, till exempel problem med accenter, men att säkra automatiserade system är fortfarande ett vanligt tema online. Kolla in denna komedi skit om en hiss utrustad med röstigenkänning, som belyser frustrationen som fel i IVR-system kan ge.

Personliga telefonappar: Siri, Google Now

De flesta känner till röstigenkänning för smartphones. Medan majoriteten av de senaste telefonmodellerna har VR, deras popularitet - och notoritet - svällde när Apple introducerade Siri, den milt sarkastiska, röstaktiverade "personliga assistenten" för iPhone 4S 2011. Google skapade snart en direkt konkurrent: Google Nu för Android Jelly Bean OS. Båda systemen har kvinnliga röster och sofistikerade igenkänningsfunktioner som låter användare "prata" med sina telefoner med vardagligt språk.

Men även om dessa system är betydligt mer sofistikerade och funktionella än sina föregångare, visar de också att tekniken fortfarande har en lång väg att gå. Skämt om Siris misslyckande har blivit ett populärt internetmeme. En man stämde till och med Apple för falsk reklam angående Siris kapacitet.

Kanske är det därför att Apple skapade Siri för att vara avancerad och informativ, men VR-programvaran är också lite på den sassiga sidan. Om du till exempel talar en av de mest beryktade linjerna för underrättelseteknologi i biografhistoria från filmen 1968 "2001: A Space Odyssey" - "öppna dörrarna till pod-bukten" - kommer Siri att svara med antingen svarslinjen från filmen, " Jag är ledsen (ditt namn), jag är rädd att jag inte kan göra det, "eller det mer sarkastiska, " vi underrättelsetjänstemän kommer aldrig att leva ner det, tydligen. "

Att ringa dig med namn är bara en av funktionerna som försöker göra Siri lättare att älska och lite mer mänsklig. VR-assistenten kan följa röstkommandon för att ringa samtal, ta diktat och skicka texter, utföra Internet-sökningar för information, hitta butiker i närheten, ge vägbeskrivningar och mer, allt utan att behöva röra någonting. Svar talas samtidigt av telefonen och visas på skärmen.

Google Now, VR-delen av Android Jelly Bean-plattformen, är mycket lik Siri. Systemet erbjuder samma omfattande igenkänningsfunktioner genom att översätta tillfälliga tal till kommandon som låter användare ringa samtal, skicka texter, köra sökningar, utföra beräkningar och konverteringar, ta orddefinitioner, ställa in larm, spela låtar och få kartor och vägbeskrivningar.

För personliga röstassistenter som Siri och Google Now är fördelarna uppenbara. Allt från att ringa och sms till sökning och underhållning är snabbare och enklare. Säg bara vad du vill, och (för det mesta) tar VR-appen det åt dig. VR-hands-off-tekniken är särskilt användbar under körning. Och även om många människor har dekorerat Siris brister, och författare har hävdat att Google Nu: s förmåga att väsentligt driva användarnas liv båda är skrämmande lite förolämpande, tycker de flesta fortfarande att dessa futuristiska tekniker är ganska coola.

Naturligtvis är personliga telefonappar som Siri och Google Now långt ifrån perfekta - även om de visar vart den här tekniken kan vara på väg i framtiden. Det betyder att även när Siri dyker upp ett fel svar, kommer vi sannolikt att skratta och förlåta henne, veta att nästa version kommer att bli mycket bättre.

Där VR faller platt

Om du någonsin har stött på en IVR när du ringde ett företag kan du ha märkt vissa kommunikationshinder. Vissa program använder en robottext-till-tal-röst som felaktigt uttalar ord och gör saker svåra att förstå. Andra har känslighetsproblem som resulterar i att programvaran inte kan behandla det du säger om du är för hög, för mjuk eller inte försöker försiktigt.

Dessutom känner många fortfarande inte bekvämt att prata med en maskin. Om du kör några sökningar på IVR kommer du att möta listor som människor har satt upp olika sätt att kringgå IVR-system och komma till en "riktig person." Dessa lösningar sträcker sig från "fortsätt att trycka på 0 för en operatör" till "svär vid maskinen tills den hämtar en människa." Som ett resultat har mycket av den senaste utvecklingen i IVR-system kretsat kring att göra dem mer smakliga för människor; gör rösterna mer sympatiska och mindre robotiska, gör systemet enklare att navigera och låter uppringare veta hur lång tid det kommer att ta från början till slut. Det tyder på att bättre teknik är bara halva striden här; den andra hälften får användare ombord med att prata med en maskin.

Vad framtiden har att erbjuda

Trots dessa utmaningar förbättras röstigenkänningstekniken hela tiden. Program som Siri och Google Now - brister och allt - är fortfarande extremt imponerande i sin prestanda, och flera företag utökar VR-kapaciteten till andra applikationer.

Till exempel har Nuance, skaparna av Dragon NaturallySpeaking tal-till-text-mjukvara, redan utvecklat röstkontroller för tv-apparater och bilar, och versioner av denna teknik är integrerade i vissa Samsung-TV-apparater och SYNC-underhållningssystem som används i vissa Ford-fordon.

Och när Google och Apple fortsätter att hitta nya användningsområden för sina röstigenkänningsteknologier, är det troligt att vi i allt högre grad pratar med alla typer av vardagsmaskiner, från våra tv-apparater till våra brödrostar. Och än en gång ser det ut som science fiction var rätt. Vi måste bara hoppas att de smarta författarna hade fel om en sak. Om dessa maskiner tar över kan du vara i en hel del problem nästa gång du ber Siri att "öppna dörrarna för bågen."