Läget för Linux röstigenkänning

Taligenkänning i Linux spårar Windows- och Mac-plattformarna eftersom både Microsoft och Apple har investerat mycket tid och kostnader i att lägga till röstkommando- eller röstassistentprogramvara i sina kärnoperativsystem.

Även om situationen inte är dyster för Linux, som med många avancerade tekniker, är det fria och öppna källkodsuniversumet ett steg efter, särskilt med röstkommandoverktyg.


Native Linux Taligenkänning

Ingen Linux-distribution fokuserar på taligenkänning. Men appar som stöder taligenkänningsfunktioner är beroende av en handfull bibliotek med öppen källkod, inklusive Sphinx, Kaldi, Julius och Mozilla Deepspeech.

Negativt utrymme / Mockup. Bilder

Dessa bibliotek förlitar sig på en talkorpus som erbjuder variationer av ljud för att träna AI och därför korrekt översätta talet till text. Projekt med öppen källkod är dock mindre sofistikerade (eftersom de har mindre bidrag för att utbilda AI), vilket innebär att de flesta text-till-tal-appar för Linux ofta slår om konverteringen. Vanligtvis slår de det så grundligt att det inte är klart vad det ursprungliga talet kunde ha varit.

Alternativ för Linux Tal till text

Använd en av fem lösningsvägar.

  • Förlita dig på inbyggda Linux-appar som finns tillgängliga i distributionens förvar - om några dyker upp.
  • Amazon gjorde Alexa tillgängligt för Linux, inklusive för Raspberry Pi. Du måste utföra en hel del anpassad justering för att få detta arrangemang att fungera, men det kommer att fungera.
  • Gå till Google Speech API i din webbläsare via DictationIO. Den här tjänsten fungerar endast för diktering. du kan inte använda den för röstkommando. Den drivs av Googles AI så kvaliteten är bra.

  • Använd en tjänst som Alexa eller Google Assistant som ett röstkommandoverktyg för Linux via Triggercmd-tjänsten. Triggercmd körs på din dator; använd den för att åberopa Alexa eller Google Assistant och få verktygen att utföra specifika Bash-skript baserat på ditt kommando. Säg något som "OK Google, fråga trigger-kommandot för att öppna miniräknaren." Google Assistant fungerar som mellanhand med Triggercmd för att köra Bash-skriptet som anges av frasen "öppna räknaren."
  • Använd Wine eller en virtuell maskin med programvara för Windows som Dragon NaturallySpeaking. Med rätt justering kan du använda Dragon-motorn för transkription, även om den här lösningen inte fungerar för röstkommandotillämpningar.

Lämna en kommentar