OpenAI kuuleb sind sosinat | Hackaday

Kui soovite proovida kvaliteetset hääletuvastust ilma midagi ostmata, siis edu. Muidugi võite laenata oma telefoni kõnetuvastust või sundida mõnda Raspberry Pi virtuaalset assistenti teie eest töötlema, kuid need ei sobi suurte tööde jaoks, mida te ei soovi mõne suletud lähtekoodiga siduda. lahendus. OpenAI on juurutanud Sosista, mis on nende väitel avatud lähtekoodiga närvivõrk, mis “läheneb ingliskeelse kõnetuvastuse robustsusele ja täpsusele inimese tasemel”. Tundub, et see töötab ka vähemalt mõnes teises keeles.

Kui katsetate tutvustustega, märkate, et kiire või armsa aktsendiga rääkimine ei paista tulemusi mõjutavat. Postituses mainitakse, et seda koolitati 680 000 tunni jälgitud andmete põhjal. Kui räägiksite tehisintellektiga nii palju, jääksite 77 aastat magamata!

Sisemiselt jagatakse kõne 30-sekundilisteks hammustusteks, mis toidavad spektrogrammi. Kodeerijad töötlevad spektrogrammi ja dekoodrid seedivad tulemusi ennustamise ja muu heuristika abil. Umbes kolmandik andmetest pärines mitte-ingliskeelsetest allikatest ja seejärel tõlgiti. Saate lugeda paber selle kohta, kuidas üldine väljaõpe ületab mõned spetsiaalselt koolitatud mudelid standardsete võrdlusnäitajate puhul, kuid nad usuvad, et Whisper toimib juhusliku kõne korral paremini kui konkreetsed võrdlusnäitajad.

Mudeli “väikese” variatsiooni suurus on endiselt 39 megabaiti ja “suur” variant on üle pooleteise giga. Nii et see tõenäoliselt teie Arduino puhul niipea ei tööta. Kui aga soovite kodeerida, on kõik sisse lülitatud GitHub.

On ka teisi lahendusi, kuid mitte nii vastupidav. Kui soovite kasutada assistendipõhist marsruuti, siis siin natuke inspiratsiooni.

Leave a Comment