dumell.net/tidningsartiklar

Tala med din dator

Publicerad i Jakobstads Tidning 07.07.1996

Tillhör du de som brukar tala med sin dator i hopp om att den skall förstå vad den borde göra eller de som ofta ordbehandling men sällan använder annat än pekfingrarna? Taligenkänning, eller vad man nu vill kalla "speech-recognition" på svenska, är återigen på tapeten när IBM nu byggt in taligenkänning i nyaste versionen av sitt operativsystem OS/2.

IBM har nu gjort något som kan komma att visa sig vara ett genialt drag; nästa version av företagets operativsystem OS/2 förstår tal. Det är möjligt att såväl kontrollera datorn (starta program, navigera på Internet och så vidare) som att diktera långa texter för ordbehandlingsprogrammet.

OS/2 har alltid varit populärt bland teknisk personal men de stora massorna har knappt ens känt till det. Den inbyggda taligenkänningen kan vara det som får även de stora massorna att intressera sig för OS/2.

Egentligen är det ett under att Microsoft inte kommit på idén att bygga in taligenkänning i Windows. Ordbehandling är ju ett av de vanligaste användningsområdena för PCn men få är speciellt goda maskinskrivare. Orsaken till att Microsoft inte byggt in ett taligenkänningssystem i Windows är antagligen att de inte klarar av att göra det. Endast sex företag gör taligenkänningssystem och av dem är IBM en av de främsta. Jag förväntar mig att Microsoft snart kommer att meddela att de licensierat ett taligenkänningssystem av någon utomstående tillverkare, kanske av Dragon Systems som är det andra ledande företaget i branschen med ett system som långt liknar IBMs.

VoiceType

Taligenkänningssystemet i Merlin, som nästa version av OS/2 kallas, är version 2.0 av IBMs egna VoiceType. Ännu för några månader sedan sålde IBM VoiceType som ett fristående program och priset låg då på över 5000 mark. IBM har tydligen beslutat offra en av sina guldhönor för att främja OS/2 som antagligen kommer att kosta under tusen mark. Min gissning är att den reklamkampanj IBM drog igång för VoiceType inte gav önskat resultat och att IBM beslöt att hellre sälja OS/2 tillsammans med VoiceType till ett lågt pris än vare sig OS/2 eller VoiceType till ett högt pris.

Ännu för fyra år sedan krävde ett ordentligt taligenkänningssystem mer kraft än vad som stod att finna i en vanlig PC och följaktligen kördes IBMs ursprungliga taligenkänningsprogram "Personal Dictation System" på stora RS/6000 maskiner. För två år sedan hade såväl datorerna som programmet blivit såpass mycket snabbare att det tillsammans med en extra DSP processor, som skötte den beräkningsintensiva ljudanalysen, kunde köras på en större PC. VoiceType som är PDS efterföljare fungerar idag på en vanlig PC utan extra hårdvara, med undantag av ett vanligt ljudkort med mikrofon, men resurser kräver det nog.

Lär datorn lyssna

VoiceType fungerar med hjälp av ordlistor över hur de vanligaste orden i ett språk låter. När användaren talat in ett ord jämförs det med orden i ordlistan varefter programmet väljer det som passar bäst. Till en början kommer Merlin att levereras med endast några enstaka ordlistor, för tyska, franska och engelska om jag minns rätt.

Eftersom alla människor låter olika måste programmet först anpassas till sin användare. Det här sker genom att användaren uttalar vissa givna ord och bokstavskombinationer för att programmet skall kunna analysera hur användaren skiljer sig från den "medeltalsröst" ordlistan baserar sig på. Åtminstone de första ordlistorna bygger på en manlig medeltalsröst vilket gör det nästan omöjligt för kvinnor att använda systemet.

Efter den första grundläggande anpassningen, som i gamla versioner av VoiceType kunde ta upp till en timme, fortsätter programmet ständigt att lära sig. Ju mer man använder VoiceType desto snabbare och exaktare blir det samtidigt som det lär sig nya ord.

Medan vi i skriven text sätter in mellanslag för att markera olika ord så sätter vi inte in några pauser mellan ord när vi talar. Vi människor har inga problem att separera ord i tal så om vi kan språket, men om vi hör ett främmande språk tycker vi allt låter som ett enda långt ord. För att underlätta datorns uppgift kräver de flesta taligenkänningsprogram att användaren lägger in en diskret paus mellan varje ord. Den här typen av taligenkänningsprogram kallas därför diskreta. Endast två ar marknadens taligenkänningsprogram är kontinuerliga men åtminstone det ena fungerar genom att föst spela in allt tal och först därefter börjar programmet bena ut de enskilda orden och skapa text.

En vetenskap i sig

VoiceType utför först en akustisk processering som filtrerar bort monotona ljud, såsom ljudet från datorns fläkt, varefter ljudet delas in i en hundradedels sekund långa avsnitt. Varje avsnitt analyseras och beroende på karakteristika i frekvensen ges varje avsnitt en kod enligt en tabell. På det här viset kan varje ord representeras av en serie enkla koder som är mycket enklare att behandla än det ursprungliga digitala ljudet.

Orden i ordlistan är också kodade enligt samma system och på det här viset kan programmet snabbt söka upp de ord vars kodserie närmast påminner om det intalade. De ord som liknar mest jämförs sedan med en lista över hur vanliga de olika orden är överlag och hur vanliga de är tillsammans med föregående ord och tillsammans med följande ord. Tack vare den statistiska analysen kan programmet välja "write" framom "right" ifall det följs av ordet "letter". För varje nytt ord som användaren uttalat går programmet tillbaks och gör nya statistiska analyser av de föregående orden. Det är lustigt att se hur texten ständigt förändras på skärmen vartefter nya ord kommer till.

Programmet anpassar ständigt kodningstabellen och statistiska tabellen vartefter det lär sig hur användaren uttalar ett visst ord och hur ofta denne använder ordet.

Programmet sparar också allt du säger som normalt ljud. När du sedan kontrolläser texten kan du klicka på ett felaktigt ord och få upp en lista med rimliga alternativ. Det rätta finns vanligtvis i listan och när du väljer det kan programmet gå tillbaks och spela upp hur du uttalade ordet för att lära sig att bättre förstå dit tal. Om du inte hittar det rätta ordet i listan kan du skriva in det, på det här sättet kan du också lära programmet nya ord.

Taligenkänning är inte någon leksak utan något mycket effektiv för många. Att det nu kommer att bli tillgängligt på det här viset, förhållandevis billigt och enkelt, är spännande.

Carl-Magnus Dumell