Ortogrāfiskā transkripcija

Katrs runas korpusā iekļaujamais fails (audioieraksts) ar programmu Transcriber 1.5.1. tiek sadalīts transkribēšanai derīgos un nederīgos fragmentos. Par transkribēšanai derīgiem fragmentiem tiek uzskatīti tādi fragmenti, kas satur viena runātāja nepārtrauktu runu. Savukārt par transkribēšanai nederīgiem fragmentiem tiek uzskatīti tādi fragmenti, kur runātāja runa tiek pārtraukta un traucēta, piemēram, ieraksti ar skaļu fona troksni, vairāku runātāju paralēla runa u. tml.

Iekļaušanai korpusā atlasītie fragmenti manuāli ir sadalīti segmentos (frāzēs) un transkribēti ortogrāfiskajā transkripcijā. Vidējais frāzes garums ir 2-3 sekundes. Frāzes tiek dalītas atbilstoši runas intonatīvajai struktūrai. Ieelpas, izelpas, pauzes, kas ir garākas par 0,3 sekundēm, arī pauzes, kas atdala vienu intonatīvo vienību no citas, tiek izdalītas kā atsevišķi fragmenti audiofailā.

LaRKo audiomateriāli transkribēti t. s. ortogrāfiskajā transkripcijā, kas ir burtiska sacītā atveide rakstos mašīnlasāmā formā, ievērojot valodas ortogrāfijas principus. Ortogrāfiskajā transkripcijā runātais tiek pierakstīts vārdiem, tostarp rakstot gan ciparus, gan arī saīsinājumus. Papildus tekstā tiek norādīti arī neverbālie elementi, pauzes un teksts svešvalodā. Tiek norādītas arī atkāpes no latviešu valodas ortoepijas un ortogrāfijas normām. (Skat. tabulu)

Ortogrāfiskajā transkripcijā izmantotie apzīmējumi

PAUZES

(.)

Klusuma pauze (pārtraukums runas plūsmā) tiek apzīmēta ar punktu, kas likts apaļajās iekavās.

(0.3)

Ja klusuma pauze ilgst vismaz 0,3 sekundes, tiek norādīts tās garums.

(āā) (ēē) (khm) (mm), (em), (am)

Aizpildītas pauzes . Aizpildītās pauzes tiek pierakstītas, apaļajās iekavās norādot atbilstošu burtu savirknējumus

VĀRDU FRAGMENTI

kadr-

Defise tiek likta izlaistā vārda fragmenta vietā.

-raide

NESKAIDRS TEKSTS

{teksts}

{tek}sta

Neskaidrs teksts tiek likts figūriekavās, norādot iespējamo tekstu; tiek minēts iespējamais vārds, vārda daļa.

{---}

Nesaklausāms teksts tiek apzīmēts ar defisēm; defišu skaits atbilst saklausāmo zilbju skaitam.

NEVERBĀLIE ELEMENTI

(.h)

Ieelpa tiek norādīta, izmantojot punktu un līdzskani h, kas likts iekavās.

(h.)

Izelpa tiek norādīta, izmantojot līdzskani h un punktu, kas likts iekavās.

@

Smiekli. Simbols tiek atkārtotas tik reižu, cik zilbēm atbilst smiešanās.

<@>teksts</@>

Teksts tiek izrunāts smejoties.

<tr/>

Troksnis , ko rada fonā runājoši cilvēki vai ierīces, piem., radio, televizors, braucoša automašīna.

<tr> teksts </tr>

<ftr/>

Fizioloģisks troksnis — cilvēka radīts troksnis, šņaukāšanās, mēles klakšķināšana, čāpstināšana, žagošanās, šķavas u. tml.

<ftr> teksts </ftr>

Ja fizioloģisks troksnis ir ilgstošs, t. i., kādam runājot, fonā dzirdams fizioloģisks troksnis, piem., skaļa elpošana, tiek norādīts fizioloģiskā trokšņa sākums un beigas.

<muz> teksts </muz>

Runājot tekstu, fonā skan mūzika.

TEKSTS SVEŠVALODĀ

daunšift [1, en, downshift]

vsjo [ 1 , ru , всё ]

Ortogrāfiski marķētajos datos ir norādīts teksts svešvalodā, transliterējot dzirdēto ar latīņu alfabēta burtiem pēc iespējas tuvāk izrunai. Kvadrātiekavās tiek norādīts 1) valodas vienību skaits, 2) valodas kods, 3) vārdu rakstība oriģinālvalodā, izmantojot vai nu latīņu alfabētu, vai kirilicu (slāvu valodu alfabētu).

INTERNETA ADRESES

vē vē vē punkts tē vē divdesmit četri punkts el vē [11, www.tv24.lv]

vē vē vē mans džī pī es el vē [9, www.mansgps.lv]

Interneta adreses ortogrāfiskajā transkripcijā pierakstītas tā, kā tās tiek izrunātas, kvadrātiekavās norādot vienību skaitu un adreses oriģinālrakstību.

:
Uz augšu