Studija slučaja: AI za razgovor

Više od 3 tisuće sati podataka prikupljenih, segmentiranih i transkribiranih za izradu ASR-a na 8 indijskih jezika

Razgovorni ai

Vlada ima za cilj omogućiti svojim građanima jednostavan pristup internetu i digitalnim uslugama na njihovom materinjem jeziku kroz projekt Bhashini.

BHASHINI, indijska platforma za prevođenje jezika vođena umjetnom inteligencijom, vitalni je dio inicijative Digital India.

Dizajnirana za pružanje alata za umjetnu inteligenciju (AI) i obradu prirodnog jezika (NLP) malim i srednjim poduzećima, startupima i neovisnim inovatorima, Bhashini platforma služi kao javni resurs. Njegov je cilj promicanje digitalne uključenosti omogućavanjem građanima Indije interakciju s digitalnim inicijativama zemlje na njihovim materinjim jezicima.

Osim toga, cilj mu je značajno proširiti dostupnost internetskog sadržaja na indijskim jezicima. Ovo je posebno usmjereno na područja od javnog interesa kao što su upravljanje i politika, znanost i tehnologija, itd. Posljedično, ovo će potaknuti građane da koriste internet na svom jeziku, promičući njihovo aktivno sudjelovanje.

Rješenje u stvarnom svijetu

Oslobađanje moći lokalizacije s podacima

Indiji je bila potrebna platforma koja bi se usredotočila na stvaranje višejezičnih skupova podataka i rješenja za jezičnu tehnologiju temeljenih na umjetnoj inteligenciji kako bi pružila digitalne usluge na indijskim jezicima. Kako bi pokrenuo ovu inicijativu, Indijski tehnološki institut u Madrasu (IIT Madras) udružio se sa Shaipom kako bi prikupio, segmentirao i transkribirao skupove podataka na indijskim jezicima za izgradnju višejezičnih govornih modela.

Izazovi

Kako bi pomogao klijentu s njihovim govornim planom za govornu tehnologiju za indijske jezike, tim je trebao nabaviti, segmentirati i prepisati velike količine podataka za obuku kako bi izgradio AI model. Kritični zahtjevi klijenta bili su:

Prikupljanje podataka

  • Prikupite 3000 sati podataka o obuci na 8 indijskih jezika s 4 dijalekta po jeziku.
  • Za svaki jezik, dobavljač će prikupiti Extempore Speech i
    Konverzacijski govor dobnih skupina od 18 do 60 godina
  • Osigurajte raznoliku kombinaciju govornika prema dobi, spolu, obrazovanju i dijalektima
  • Osigurajte raznoliku kombinaciju okruženja za snimanje prema specifikacijama.
  • Svaka audio snimka mora biti najmanje 16 kHz, ali po mogućnosti 44 kHz

Segmentacija podataka

  • Stvorite segmente govora od 15 sekundi i vremenski označite zvuk na milisekunde za svakog određenog govornika, vrstu zvuka (govor, žamor, glazba, buka), skretanja, izjave i fraze u razgovoru
  • Stvorite svaki segment za svoj ciljani zvučni signal s ispunom od 200-400 milisekundi na početku i na kraju.
  • Za sve segmente moraju biti ispunjeni sljedeći objekti, tj. vrijeme početka, vrijeme završetka, ID segmenta, razina glasnoće, vrsta zvuka, kod jezika, ID govornika itd.

Transkripcija podataka

  • Slijedite detaljne smjernice za transkripciju u vezi sa znakovima i posebnim simbolima, pravopisom i gramatikom, velikim slovom, kraticama, kontrakcijama, pojedinačnim izgovorenim slovima, brojevima, interpunkcijskim znakovima, akronimima, disfluentnim, govorom, nerazumljivim govorom, jezicima koji nisu ciljani, negovorom itd.

Provjera kvalitete i povratne informacije

  • Sve snimke moraju proći procjenu kvalitete i provjeru valjanosti, samo će se potvrditi govor

Riješenje

S našim dubokim razumijevanjem konverzacijske umjetne inteligencije, pomogli smo klijentu prikupiti, segmentirati i transkribirati podatke s timom stručnih kolekcionara, lingvista i anotatora kako bi izgradili veliki korpus audio skupa podataka na 8 indijskih jezika.

Opseg posla za Shaip uključivao je, ali nije bio ograničen na prikupljanje velikih količina podataka za audio obuku, segmentiranje audio snimaka u više dijelova, transkripciju podataka i isporuku odgovarajućih JSON datoteka koje sadrže metapodatke [ID govornika, dob, spol, jezik, dijalekt, materinji jezik, kvalifikacija, zanimanje, domena, format datoteke, frekvencija, kanal, vrsta zvuka, broj govornika, broj stranih jezika, korištena postavka, uskopojasni ili širokopojasni zvuk itd.].

Shaip je prikupio 3000 sati audiopodataka u velikom broju, održavajući željene razine kvalitete potrebne za obuku govorne tehnologije za složene projekte. Izričit obrazac pristanka uzet je od svakog sudionika.

1. Prikupljanje podataka

2. Segmentacija podataka

  • Prikupljeni audio podaci dalje su podijeljeni u govorne segmente od 15 sekundi i vremenski označeni u milisekunde za svakog govornika, vrstu zvuka, okret, izgovor i frazu u razgovoru.
  • Stvorio je svaki segment za svoj ciljani zvučni signal s ispunom od 200-400 milisekundi na početku i kraju zvučnog signala.
  • Za sve segmente bili su prisutni i ispunjeni sljedeći objekti, tj. vrijeme početka, vrijeme završetka, ID segmenta, razina glasnoće (glasno, normalno, tiho), primarna vrsta zvuka (govor, žamor, glazba, buka, preklapanje), ID govornika koda jezika, transkripcija itd.

3. Provjera kvalitete i povratne informacije

  • Kvaliteta svih snimaka procijenjena je i isporučene su samo potvrđene snimke govora s WER od 90% i TER od 90%
  • Slijedi kontrolni popis kvalitete:
    » Maksimalno 15 sekundi duljine segmenta
    » Prijepis iz određenih domena, naime: vrijeme, različite vrste vijesti, zdravlje, poljoprivreda, obrazovanje, poslovi ili financije
    » Niska pozadinska buka
    » Nema isključenog audio zapisa – Nema izobličenja
    » Ispravna audio segmentacija za transkripciju

4. Prijepis podataka

Sve izgovorene riječi, uključujući oklijevanja, dopunske riječi, lažne startove i druge verbalne tikove, točno su uhvaćene u transkripciji. Također smo slijedili detaljne smjernice za transkripciju oko velikih i malih slova, pravopisa, velikih slova, kratica, kontrakcija, brojeva,
interpunkcija, akronimi, disfluentni govor, negovorni šumovi itd. Štoviše, tijek rada koji se slijedi za prikupljanje i transkripciju je sljedeći:

Ishod

Visokokvalitetni zvučni podaci od stručnjaka lingvista omogućit će Indijskom institutu za tehnologiju – Madras, da točno obučava i izgradi višejezične modele prepoznavanja govora na 8 indijskih jezika s različitim dijalektima u predviđenom vremenu. Modeli prepoznavanja govora mogu se koristiti za:

  • Prevladati jezičnu barijeru za digitalno uključivanje povezivanjem građana s inicijativama na njihovom materinjem jeziku.
  • Promiče digitalno upravljanje
  • Katalizator za formiranje ekosustava za usluge i proizvode na indijskim jezicima
  • Više lokaliziranog digitalnog sadržaja u domenama od javnog interesa, posebice upravljanja i politike
Zlatna-5 zvjezdica

Bili smo impresionirani Shaipovom stručnošću u razgovornom AI prostoru. Njihova ukupna kompetencija za provedbu projekta od pronalaženja izvora, segmentiranja, transkripcije i isporuke potrebnih podataka o obuci od stručnjaka lingvista na 8 jezika unutar strogih rokova i smjernica; dok još uvijek održava prihvatljivi standard kvalitete.”

Recite nam kako vam možemo pomoći s vašom sljedećom inicijativom umjetne inteligencije.