Reconocer la especificidad de los corpus orales

En la caracterizacion de los corpus orales se utilizan algunos terminos cuyo sig- nificado resulta util precisar antes de abordar los siguientes apartados. En primer lugar, suele emplearse el concepto de “transcription ortografica enriquecida” para referirse a una representation ortografica en la que se senalan algunos elementos relacionados con la oralidad. En (1) se muestra un ejemplo de este tipo de transcrip- cion, extraido de PRESEEA, en el que se marcan las pausas (mediante una barra inclinada), las risas, los ruidos producidos por el entrevistado, los alargamientos, las dificultades encontradas en la transcription, el discurso indirecto у las hesitaciones que se reflejan en la elision de parte de una palabra.

(1) no/es que me molesta que me traten de tu por ejemplo/vas al banco//y у la empleada me trata de tu/y yo diciendo por favor soy igual de cliente que mi padre /y mmm у no se me mo me molesta /

Las convenciones utilizadas se encuentran documentadas en cada corpus у difieren en fimcion de los objetivos de los investigadores pero, por lo general, se adoptan las definidas por la Text Encoding Initiative (Romary у Witt 2014; TEI Consortium 2018). Para facilitar el tratamiento informatico de los datos, los feno- menos que se transcriben deben estar, ademas, codificados, у para tal fin se emplean marcas situadas entre angulos, en las que < indica el principio у /> senala el final del fenomeno, propias del lenguaje de codificacion denominado XML (Extensible Markup Language).

En un corpus oral orientado a los estudios sobre el piano fonico se realiza tambien una segmentacion de la serial sonora, operacion mediante la que se delimita el principio у el final de cada unidad de analisis en el nivel segmental (fonemas о alofonos), en el suprasegmental (por ejemplo, grupos fonicos о grupos entonativos) о en el de la representacion ortografica.

Una vez establecidas las fronteras, cada unidad se etiqueta para definir su conte- nido; pueden emplearse los simbolos del Alfabeto Fonetico Internacional (IPA sin fecha) о los de su adaptacion para la transcripcion de recursos electronicos cono- cida сото SAMPA (Speech Assessment Methods Phonetic Alphabet) (Wells 1999- 2015), у tambien se utilizan etiquetas especificas para los fenomenos prosodicos, сото las que se proponen, por ejemplo, en INTSINT (International Transcription System for Intonation) (Baque у Estruch 2003) о en ToBI (Tones and Break Indices) (Hualde 2003); habitualmente se incluye tambien la representacion ortografica. Los terminos “etiquetado” (labelling) у “anotacion” (annotation) pueden considerate, en la practica, сото sinonimos, si bien el primero se emplea a menudo en los estudios de tipo fonetico у el segundo en los que tratan otros niveles del analisis lingiiistico. Los diversos procedimientos para etiquetar о anotar corpus orales se discuten con detalle en Delais-Roussarie у Post (2014) y, especificamente en el caso de los corpus de hablantes no nativos, en Ballier у Martin (2015) у en Carranza (2016).

Finalmente, el concepto de “alineacion” (alignment) remite a la sincronizacion temporal entre el etiquetado у la serial sonora, tal сото se muestra en un ejemplo extraido del corpus CIEMPIESS, recogido en la figura 8.1, en el que la serial se ha segmentado en palabras у la representacion ortografica —en la que el acento lexico se nrarca mediante una mayuscula у las pausas se indican con la etiqueta “++dis++”— se ha alineado con la grabacion.

Cuando el etiquetado corresponde a distintos niveles de analisis, los datos del corpus quedan representados de modo semejante a una partitura de orquesta, tal сото puede apreciarse en la figura 8.2; en ella se reproduce el mismo enunciado de la figura 8.1, al que se han anadido tres niveles de etiquetado que originalmente no estaban presentes en el corpus CIEMPIESS: el de los grupos fonicos, representados ortograficamente, el de las silabas у el de los segmentos, ambos transcritos mediante el Alfabeto Fonetico Internacional.

FICURA 8.1 Transcripcion ortografica alineada con la serial sonora (oscilograma у espectrograma) mediante el programa Praat en el enunciado “Hola, que tal. Estas escuchando radio Yus” extraido del corpus CIEMPIESS.

FICURA 8.2 Etiquetado en cuatro niveles alineado con la seiial sonora (oscilograma у espectrograma) realizado mediante el programa Praat en el enunciado “Hola, que tal. Estas escuchando radio Yus” extraido del corpus CIEMPIESS.

En el proceso de creation de un corpus oral se deben tomar decisiones у definir criterios para cada uno de los aspectos que se acaban de mencionar —transcripcion ortografica, segmentation у etiquetado о anotacion— asi сото en lo que se refiere a las caracteristicas de los participantes у del material lingiiistico recogido у a los procedimientos para obtener los datos. El lector interesado puede encontrar indicaciones utiles sobre todas estas cuestiones en Durand, Gut у KristofFersen (2014), Niebuhr у Michaud (2015) у Polo (2018) y, en el caso de los corpus de hablantes no nativos, en trabajos сото los de Bonaventura, Howarth у Menzel (2000), Racine et al. (2011), Gilquin (2015) у de Pustka et al. (2018), asi сото en el capitulo 7 del presente volumen.

 
Source
< Prev   CONTENTS   Source   Next >