Studija slučaja: AI za razgovor

Više od 3 tisuće sati prikupljenih, segmentiranih i transkribiranih podataka za izradu ASR-a na 8 indijskih jezika

Zbirka iskaza
Vlada ima za cilj omogućiti svojim građanima jednostavan pristup internetu i digitalnim uslugama na njihovom materinjem jeziku kroz projekt Bhashini.

BHASHINI, indijska platforma za prevođenje jezika vođena umjetnom inteligencijom, vitalni je dio inicijative Digital India.

Dizajnirana za pružanje alata za umjetnu inteligenciju (AI) i obradu prirodnog jezika (NLP) malim i srednjim poduzećima, startupima i neovisnim inovatorima, Bhashini platforma služi kao javni resurs. Njegov je cilj promicanje digitalne uključenosti omogućavanjem građanima Indije interakciju s digitalnim inicijativama zemlje na njihovim materinjim jezicima.

Osim toga, cilj mu je značajno proširiti dostupnost internetskog sadržaja na indijskim jezicima. Ovo je posebno usmjereno na područja od javnog interesa kao što su upravljanje i politika, znanost i tehnologija, itd. Posljedično, ovo će potaknuti građane da koriste internet na svom jeziku, promičući njihovo aktivno sudjelovanje.

Iskoristite NLP kako biste omogućili raznolik ekosustav suradnika, partnerskih subjekata i građana u svrhu nadilaženja jezičnih barijera, čime se osigurava digitalna uključenost i osnaživanje

Rješenje u stvarnom svijetu

Oslobađanje moći lokalizacije s podacima

Indiji je bila potrebna platforma koja bi se usredotočila na stvaranje višejezičnih skupova podataka i jezičnih tehnoloških rješenja temeljenih na umjetnoj inteligenciji kako bi se pružile digitalne usluge na indijskim jezicima. Za pokretanje ove inicijative, Indijski institut za tehnologiju, Madras (IIT Madras) udružio se sa Shaipom u prikupljanju, segmentiranju i transkripciji skupova podataka indijskog jezika za izradu višejezičnih govornih modela.

Izazovi

Kako bi pomogao klijentu s njihovim govornim planom za govornu tehnologiju za indijske jezike, tim je trebao nabaviti, segmentirati i prepisati velike količine podataka za obuku kako bi izgradio AI model. Kritični zahtjevi klijenta bili su:

Prikupljanje podataka

  • Prikupite 3000 sati podataka o obuci na 8 indijskih jezika s 4 dijalekta po jeziku.
  • Za svaki jezik, dobavljač će prikupiti Extempore Speech i
    Konverzacijski govor dobnih skupina od 18 do 60 godina
  • Osigurajte raznoliku kombinaciju govornika prema dobi, spolu, obrazovanju i dijalektima
  • Osigurajte raznoliku kombinaciju okruženja za snimanje prema specifikacijama.
  • Svaka audio snimka mora biti najmanje 16 kHz, ali po mogućnosti 44 kHz

Segmentacija podataka

  • Stvorite segmente govora od 15 sekundi i vremenski označite zvuk na milisekunde za svakog određenog govornika, vrstu zvuka (govor, žamor, glazba, buka), skretanja, izjave i fraze u razgovoru
  • Stvorite svaki segment za svoj ciljani zvučni signal s ispunom od 200-400 milisekundi na početku i na kraju.
  • Za sve segmente moraju biti ispunjeni sljedeći objekti, tj. vrijeme početka, vrijeme završetka, ID segmenta, razina glasnoće, vrsta zvuka, kod jezika, ID govornika itd.

Transkripcija podataka

  • Slijedite detaljne smjernice za transkripciju u vezi sa znakovima i posebnim simbolima, pravopisom i gramatikom, velikim slovom, kraticama, kontrakcijama, pojedinačnim izgovorenim slovima, brojevima, interpunkcijskim znakovima, akronimima, disfluentnim, govorom, nerazumljivim govorom, jezicima koji nisu ciljani, negovorom itd.

Provjera kvalitete i povratne informacije

  • Sve snimke moraju proći procjenu kvalitete i provjeru valjanosti, samo će se potvrditi govor

Riješenje

S našim dubokim razumijevanjem konverzacijske umjetne inteligencije, pomogli smo klijentu prikupiti, segmentirati i prepisati podatke s timom stručnih sakupljača, lingvista i anotatora kako bismo izgradili veliki korpus skupa audio podataka na 8 indijskih jezika

Opseg posla za Shaipa uključivao je, ali nije bio ograničen na prikupljanje velikih količina audiopodataka o obuci, segmentiranje audiosnimki u više, transkribiranje podataka i isporuku odgovarajućih JSON datoteka koje sadrže metapodatke [SpeakerID, Age, Gender, Language, Dialect,
Materinji jezik, kvalifikacija, zanimanje, domena, format datoteke, frekvencija, kanal, vrsta zvuka, broj govornika, broj stranih jezika, korištena postavka, uskopojasni ili širokopojasni audio itd.]. 

Shaip je prikupio 3000 sati audiopodataka u velikom broju, održavajući željene razine kvalitete potrebne za obuku govorne tehnologije za složene projekte. Izričit obrazac pristanka uzet je od svakog sudionika.

1. Prikupljanje podataka