Sesame har presenterat en ny AI-röstteknologi
Sesame har presenterat en ny AI-röstteknologi

Sesames nya AI-röst: En revolution för digital kundservice?

Sesame har presenterat en ny AI-röstteknologi som syftar till att göra digitala interaktioner mer realistiska genom vad de kallar ”röstnärvaro”. Detta koncept handlar om att skapa en känsla av äkthet i samtal, där användaren inte bara hör en röst utan också upplever att de blir förstådda och uppskattade.

Röstnärvaro bygger på flera viktiga faktorer, inklusive förmågan att tolka och reagera på emotionella signaler, naturlig tajming med pauser och betoning, anpassning av tonläge efter kontext samt bibehållandet av en konsekvent och pålitlig närvaro genom hela interaktionen.

För att uppnå detta använder Sesame två AI-modeller baserade på Metas Llama-arkitektur, som arbetar tillsammans för att skapa mer naturliga och engagerande röstupplevelser. Företaget planerar dessutom att släppa viktiga delar av sin forskning som öppen källkod under en Apache 2.0-licens, vilket gör det möjligt för andra att bygga vidare på teknologin.

På sikt kan detta ha stor betydelse för support inom e-handel. AI-drivna röster med bättre röstnärvaro skulle kunna hantera kundtjänstärenden på ett mer mänskligt och empatiskt sätt, minska väntetider och förbättra kundupplevelsen. Genom att förstå kundens tonfall och känslomässiga tillstånd kan AI-assistenter anpassa sina svar mer naturligt, vilket kan bidra till ökad kundnöjdhet och effektivare supportlösningar.

I artikeln ”Crossing the Uncanny Valley of Conversational Voice” från den 27 februari 2025 diskuterar Sesame AI utmaningarna med att göra digitala röstassistenter mer mänskliga och engagerande. Nuvarande assistenter saknar ofta emotionell nyans, vilket leder till en monoton och utmattande användarupplevelse. För att övervinna detta introducerar Sesame AI konceptet ”voice presence”, som innebär att skapa röstassistenter med:

  • Emotionell intelligens: Förmågan att förstå och reagera på känslomässiga sammanhang.
  • Konversationsdynamik: Naturlig timing, pauser och betoning.
  • Kontextmedvetenhet: Anpassning av ton och stil beroende på situationen.
  • Konsekvent personlighet: Bibehållen och pålitlig närvaro genom hela interaktionen.

För att uppnå detta har Sesame AI utvecklat en ”Conversational Speech Model” (CSM) som använder transformatorer för att analysera och generera tal baserat på samtalets historik. Denna modell syftar till att producera mer naturligt och sammanhängande tal genom att integrera emotionella och kontextuella nyanser. Trots framstegen erkänner företaget att det fortfarande finns utmaningar kvar, men de är fast beslutna att fortsätta förbättra teknologin för att skapa mer engagerande och mänskliga röstassistenter.

Sesames röstassistent går att testa via deras webbsida genom både en kvinnlig och en manligt kodad röst.