Latviešu valodas runas korpusā (LaRKo), kas 2014. gadā izstrādāts LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijā, iekļauti plašsaziņas līdzekļos - dažādos televīzijas (LNT, TV3, LTV1, LTV7 u. c.) un radio kanālos ( LR1, LR2, LR3, radio SWH u. c.) - izskanējušo raidījumu, arī Latvijas Republikas Saeimas sēžu audioieraksti un to atšifrējumi ortogrāfiskajā transkripcijā.

Korpusā iekļauti gandrīz 300 runātāju balss ieraksti.

Katram audiofailam ir pievienota metainformācija: ziņas par ieraksta vietu (piemēram, studijā, studijā ar fona troksni, ārpus studijas telpās bez fona trokšņiem, ārpus studijas ar fona troksni, auto salonā, uz ielas) un audiofragmenta ilgums.

Dots arī runātāju raksturojums: 1) dzimums, 2) piederība vecumgrupai (16-24, 25-50, 51-65, 66+), 3) valodas prasme (dzimtā valoda, dzimtā valoda ar dialekta iezīmēm, nav dzimtā valoda, bilingvāls). Turklāt par katru audiofragmentu norādīts, vai runa ir iepriekš sagatavota, spontāna vai tas ir lasīts teksts; vai runa ir privāta vai publiska.

Palīdzība
:
Uz augšu