Skip to main content

Staten av Linux-röstigenkänning

Chippad av staten, 7a+ (Juni 2025)

Chippad av staten, 7a+ (Juni 2025)
Anonim

Jag spenderar mycket tid på att leta efter artiklar och ganska ofta tänker jag på ämnet för en artikel medan du går till järnvägsstationen eller när du är ute och om i allmänhet.

En kväll medan jag gick 1,5 mil till stationen från mitt jobb tänkte jag "skulle det inte vara bra om jag kunde spela in vad jag ville säga och sedan få det transkriberat automatiskt till en textfil som jag kunde redigera och formatera senare" .

Jag har spenderat många långa timmar på att titta på de olika alternativen som finns tillgängliga för röstigenkänning och diktering, inklusive inspelning direkt via en mikrofon med dikteringsprogramvara i Linux, inspelning av filen till MP3 eller WAV-format och konvertera det via kommandoraden, samt att använda Chrome och Android-applikationer.

Denna artikel lyfter fram mina resultat efter dagar med hårt arbete.

Linux-alternativ

Att försöka hitta diktat- och röstigenkänningssoftware i Linux är inte så enkelt som det kan vara och de tillgängliga alternativen är inte så kloka.

Den här wikipedia-sidan har en lista över möjliga alternativ, inklusive CMU Sphinx, Julius och Simon.

Jag använder SparkyLinux som är baserat på Debian Testing för tillfället och jag kan säga att det enda röstigenkänningspaketet som finns tillgängligt i repositorierna är Sphinx.

De inbyggda Linux-programmen jag slutade försöka var PocketSphinx, som jag brukade konvertera WAV-filer till text och Freespeech-VR vilket är en python-applikation som låter dig spela in direkt från en mikrofon.

Jag har också provat ett par Chrome-appar, inklusive VoiceNote II och Dictanote.

Slutligen försökte jag "Apps and Email" och "Talk and Talk Dictation" Android Apps.

Freespeech-VR

Freespeech-VR är inte tillgängligt i standardförteckningarna. Jag hämtade filerna härifrån.

Efter att ha hämtat och extraherat innehållet i zip-filen öppnade jag en terminal och navigerade till mappen där filerna extraherades till. Jag skrev följande kommando för att öppna freespeech-vr.

sudo python freespeech-vr

Jag har ett par hörlurar med en ganska anständig mikrofon och en ganska tydlig sydlig engelsk accent.

Följande text uppträdde i fönstret freespeech-vr:

Välkommen till enhetens hundar av utfall Idag Har du säker på hur du hanterar test Ett måste testa när du använder text Ett sätt på systemet Tal I den till en var bara i en För att hoppas på att stanna och de medel som en kyckling gyllene som system Ea när det heter mitt namn nästa telefonsamtal Den här filen Snabbare nog ett fall telefon till Hands-Space sfinxen Going Det är inte en telefon kommer att delas En utbildad och och verktyg Använda talar När du är färdig Säg en använd fil Sista en berättelse A Och använder en av när det är väldigt hur framgångsrik Den här Linux var som Undvik du

Jag skulle bara vilja säga nu att det här inte är webbplatsen Enhet av hundar och på något sätt nämnde jag ingenting att göra med gyllene kycklingar. Jag försökte faktiskt beskriva processen med att använda röstigenkänningsprogramvara.

Jag försökte programmet några gånger, inklusive varierande tonhöjd och hastighet men noggrannheten var dålig.

PocketSphinx

PocketSphinx kan ta en WAV-fil och konvertera den till text med kommandoraden. PocketSphinx är tillgänglig via Debians repositories och bör vara tillgänglig för de flesta distributioner.

Huvudproblemet jag hittade med PocketSphinx är att du praktiskt taget behöver en examen i begreppen röstigenkänning, språkfiler, ordböcker och hur man tränar systemet.

Efter installationen av PocketSphinx bör du gå till CMU Sphinx webbplats och läsa så mycket information som möjligt. Du måste också hämta följande modellfil.

  • US-engelsk generisk språkmodell

(Om du inte är en inbyggd engelsktalare väljer du språkmodellen som passar dig).

Dokumentationen för PocketSphinx och Sphinx i allmänhet är svår att förstå för lekpersonen men från vad jag kunde få fram ordlistor används för att ge en lista över möjliga ord och språkmodeller har en lista över potentiella uttalanden.

För att testa PocketSphinx använde jag en inspelning av min egen röst, ett stycke från Al Pacino i "The Devils Advocate" och ett fragment från "Morgan Freeman". Poängen med detta var att prova olika röster och för mig finns det ingen som kan berätta en historia lika tydligt som Morgan Freeman och ingen levererar en linje som Al Pacino.

För att PocketSphinx ska fungera behöver den en WAV-fil och den måste vara i ett visst format. Om filen är i MP3-format, använd kommandot ffmpeg för att konvertera det till WAV-format:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

För att köra PocketSphinx använd följande kommando:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous tar en WAV-fil och konverterar den till text.

I kommandot ovan får man se en ordbokslogg som heter "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" med språkmodellen "cmusphinx-5.0-en-us.lm". Filen som konverteras till text heter voice2.wav (vilken är en inspelning som jag gjorde med min röst). Slutligen placerar 2> alla de verkliga utdata som du inte nödvändigtvis behöver i en fil som heter voice2.log. De faktiska resultaten av testet visas i terminalfönstret.

Resultaten som använder min röst är följande:

välkommen till nästa om väl nej denna vecka ämne om vilken erkännande programvara på en minut

Resultaten är inte så fasansfulla som med freespeech-vr men ändå inte riktigt användbara. Jag försökte sedan använda PocketSphinx med Al Pacino men det gav inget resultat alls.

Slutligen försökte jag använda Morgan Freeman röst från filmen "Bruce Almighty" och här är resultatet:

000000000: vi kommer på henne000000001: är allt så tufft ja dagen som just nu ja det här är det mesta vi har levt, jag är del av den heta000000002: i hissen som är nyckeln till lite baseball eller vet vad man ska göra i livet000000003: Vilka är de som kommer att återhämta sig000000004: de skrev inte det000000005: de har på mig rätt ut000000006: du måste vara regler000000007: Jag har väntat dig000000008: och han lärde sig här det var en illustration var var mördaren julfest000000009: Det visar sig vara ett sätt att skriva o. röv jag trodde att få alltid bär en000000010: Liksom problemet förenat kommer inte ge honom det bra, jag är den uppskattade dem vid det ögonblicket när vi inte allt det du tror jag är i världen kommer hem och jag har sett det000000011: en far som har den000000012: vad mycket om detta000000013: Gäller det000000014: Allt du de som inte faller för mycket000000015: hösten på hösten000000016: håll dig bra bara för mig000000017: Det är olyckligt om jag tycker också att de kommer att få en att den som kommer att allt det som är gift på en var nej vi tycker om att det är annorlunda

Mitt test kan knappast anses vetenskapligt och utvecklarna av PocketSphinx kan ange att jag inte använder programvaran korrekt. Det finns också en teknik som kallas röstutbildning som kan användas för att skapa bättre ordböcker och språkfiler.

Min övertygande åsikt är dock att det bara är för svårt för vanlig daglig användning.

VoiceNote II

VoiceNote II är en Chrome App som använder Google Voice Recognition API.

Om du använder Chrome- eller Chrome-webbläsare kan du installera VoiceNote II via webbutiken.

Ikonerna på VoiceNote II läggs ut på ett konstigt sätt, eftersom du behöver ställa in språket längst ner i fönstret och redigeringsknappen är också längst ner, dock är inspelningsknappen högst upp till höger.

Det första du behöver göra är att välja ett språk och detta kan uppnås genom att klicka på världsikonen.

För att börja spela in, klicka på mikrofonikonen och börja prata med din mikrofon. För de bästa resultaten jag hittade talade långsamt var nyckeln så att programvaran skulle ha chans att hålla koll på.

Resultaten var inte stora, vilket kan ses nedan:

Hej och välkommen att ansluta. Go-Travels.com dagens artiklar om röst till textkonvertering dunelm farrell recession 2008 som konverteringar och det sa väl stödde det bästa sättet jag hittade rösttext tillägg för att visa 2014debian eller rpm-paketet öppna det rösttyp till tal till text öppna det om du vill välja vs valde i edinburgh franska tyska får dig tiden i united kingdomstart på havet microphonewhat du slutade skriva din text som en textfil till itsuccess ja det är mycket standard engelska accent från södra england bäst för det men jag ska till textvia denna torrentalong med det faktiska dokumentet och du kan se för de misstag som gör det lättare för dig att lyssna

Dictanote

Dictanote är en annan Chrome-app som kan användas för dikteringsändamål och kom över som mer intuitiv men resultaten var inte bättre än VoiceNote II.

Jag använde bara demoversionen av Dictanote som hindrar dig från att skapa nya dokument, men det låter dig prata över text som redan finns i redigeraren. Jag kunde testa röstigenkänningen men resultaten var inte bättre än VoiceNote II och så registrerade jag inte för pro-versionen.

Diktation och post

"Dictation and Mail" är en Android-applikation som använder det inbyggda Google-röstigenkännings API.

Resultaten från "Dictation and Mail" var mycket bättre än något annat program som försökt fram till denna punkt.

Hej välkommen till Linux Lifewire. Idag talar vi om att konvertera ljud till text

Tricket med "Dictation and Mail" är att tala långsamt och uttala så bra som möjligt med en jämn accent.

När du har slutat prata kan du maila resultaten till dig själv.

Talk and Talk Dictation

Den andra Android-applikationen som jag försökte var "Talk and Talk Dictation".

Gränssnittet för den här appen var det bästa av gänget och röstigenkänningen fungerade mycket bra. Efter inspelningen av dikteringen kunde jag dela resultaten på olika sätt, inklusive via e-post.

välkommen till linux Go-Travels.com idag pratar vi om att konvertera tal till text

Som du kan se är texten ovan så tydlig som du kan förvänta dig att få. Att prata sakta är nyckeln.

Sammanfattning

Native Linux har något sätt att gå med avseende på röstigenkänning och specifikt diktering. Det finns vissa program som använder Google Voice API, men de är ännu inte listade i repositories.

ChromeOS-applikationer är lite bättre, men de bästa resultaten har hittills uppnåtts med hjälp av min Android-telefon. Kanske har telefonen en bättre mikrofon, och därför finns det en bättre chans att konvertera talprogrammet.

För att röstigenkänning ska bli riktigt användbar behöver den vara mer intuitiv med mindre inställning krävs. Du borde inte behöva röra med språkmodeller och ordböcker för att göra det förståeligt.

Jag uppskattar dock att hela konsten att röstigenkänning är mycket utmanande eftersom alla har en annan röst och det finns så många dialekter från region till region i ett land som aldrig kommer att oroa sig för de hundratals språk som används över hela världen.

Min analys är därför att programvaran för röstigenkänning fortfarande är igång.