12 november 2024
Touchpulse wint €50.000 bij AI Pitch Competition met Navis, een navigatie-app voor slechtzienden
- Startups
- AI
Wereldwijd lijden 300 miljoen mensen aan een stemaandoening, (hevig) stotteren of zijn hun stem kwijt door ziekte, trauma of ouderdom. Dit heeft een grote impact op hun dagelijks leven, hun werk en gevoel van geluk.
De real-time ondersteunende stemtechnologie en bel-app van Whispp zet fluisterspraak (mensen die ernstig stotteren, spreken ontspannen en vloeiend als zij fluisteren) en aangedane spraak (keelkanker, stembandverlamming, Parkinson, ALS) om in de heldere, natuurlijke stem van een persoon.
Tijdens zijn jeugd had Joris Castermans – oprichter en ceo van Whispp – last van stotteren. Met name op de middelbare school voelde hij de pijn van het zich niet kunnen uitdrukken. Zo werd het idee voor Whispp geboren, gebaseerd op twee belangrijke inzichten. Mensen die ernstig stotteren, praten heel vloeiend en ontspannen als ze fluisteren. Ze hebben ook een hekel aan telefoneren. Dus ontwikkelde Whispp spraaktechnologie en een bel-app die deze gefluisterde spraak omzet in iemands heldere en natuurlijke stem, in real-time, dus zonder merkbare vertraging. Met LUMO Labs als een van hun belangrijkste investeerders ging het innovatie-ecosysteem Brainport open voor de startup. We spraken met Castermans over ambities, succes en uitdagingen.
“Nu ons leven steeds digitaler wordt, zijn er steeds meer steminterfaces. Meestal zijn deze ontworpen met gezonde stemmen in gedachten en dus niet inclusief. Voor een grote groep mensen (met stemstoornissen) is communicatie niet altijd toegankelijk. Met onze ondersteunende technologie willen we het doel van “no voice left behind” bevorderen. Onze droom is om Whispp Assistive Voice Technology wereldwijd beschikbaar te hebben op elke smartphone en laptop om een meer inclusieve wereld te creëren.”
“Whispp opereert in het domein van ondersteunende technologie. We positioneren onszelf als “Assistive Voice Technology”. Big tech en assistive speech tech bedrijven richten zich voornamelijk op Automatic Speech Recognition (ASR), ook wel bekend als spraak-naar-tekst (STT) voor niet-standaard spraak. Het nadeel van deze aanpak is de hoge latentie van 2 tot 5 seconden. Dit vormt een belemmering voor een natuurlijke conversatie omdat elke keer een zin moet worden uitgesproken en vervolgens tekst moet worden herkend. Als het STT-model fouten maakt, dan wordt de verkeerde zin gegenereerd. Een ander nadeel van het TTS-model is dat de bedoelde intonatie, pauze, klemtoon van de woorden en emotie niet controleerbaar zijn vanuit alleen tekst.
In dit scenario zijn de huidige AI spraaktechnologie oplossingen niet in staat om een adequate oplossing te bieden voor mensen met stemproblemen die hun stem kwijt zijn, maar nog wel goed kunnen articuleren. Met onze real-time audio-naar-audio gebaseerde spraaktechnologie heeft Whispp een nieuwe productcategorie gecreëerd. We kunnen wereldwijd 300 miljoen mensen die op dit moment niet de juiste ondersteuning krijgen, helpen.”
“Speech AI-technologie verbetert in het algemeen de communicatie, het overbrugt de kloof door spraak toegankelijker en begrijpelijker te maken. De vooruitgang in spraakherkenning (en vertaling) zal worden verbeterd voor talen en dialecten met lage bronnen (met lage bronnen bedoelen we talen die relatief minder data beschikbaar hebben voor het trainen van AI-modellen). Dit zal de inclusie voor mensen met verschillende accenten en spraakproblemen verbeteren. Vooruitgang op het gebied van kleinere, meer geoptimaliseerde modellen zal de integratie van deze systemen in smartphones en randapparatuur mogelijk maken, waardoor spraaktechnologie toegankelijker zal worden dan ooit tevoren.”
“Het feit dat we een positieve impact hebben op het leven van mensen. In mei namen we deel aan een symposium in Florida van de Amerikaanse patiëntenorganisatie Dysphonia International. Daar ontmoetten we een groep van 150 mensen die lijden aan verschillende stemproblemen. In een open mic sessie deelden velen van hen hun persoonlijke verhalen en verschillende mensen gebruikten Whispp al in hun dagelijks leven!”
“We zijn begin 2019 begonnen met onze AI-ontwikkelingen, dus we liepen voor op de enorme recente AI-ontwikkelingen. Whispp gebruikt een andere aanpak voor zijn realtime audio-to-audio gebaseerde AI; waarbij audio eerst wordt verdeeld in verschillende (diepe) componenten en vervolgens wordt gecombineerd om audio met verschillende eigenschappen te creëren. Deze benadering is geïnspireerd op de Source-Filter theorie van menselijke spraakproductie.
Hoewel deze benadering nieuw is, waren we er jarenlang niet zeker van of deze onderzoeksaanpak tot vruchtbare resultaten leidde. Dankzij het doorzettingsvermogen van ons creatieve AI-team en het behouden van het geloof, zijn we erin geslaagd om revolutionaire AI-technologie te ontwikkelen met (bijna) geen vertraging.”
De Gerard & Anton Awards zijn mede mogelijk gemaakt door EY, Rabobank, V.O. Patents & Trademarks, TWICE, Kadans Science Partner, Braventure, Lumo Labs, Gemeente Eindhoven, High Tech Campus, Philips, Goevaers & Znn. B.V. en DeepTechXL.