Corpus para investigar sobre el componente fónico en español como LE/L2

Joaquim Llisterri

Resumen

Este capitulo se centra en la relevancia de los corpus orales para el estudio del componente fonico en espanol сото LE/L2. En primer lugar, se considera la especificidad de los corpus orales у se introducen los conceptos basicos relacionados con este campo, para explorar, a continuation, algunos de los ambitos en los que los corpus orales, tanto de hablantes nativos сото de hablantes no nativos, resultan de utilidad en la ensenanza у en la investigation. En la segunda parte del capitulo se discuten las posibilidades у las limitaciones de la consulta de corpus orales en linea, у se presentan sucintamente algunas investigaciones basadas en corpus llevadas a cabo sobre aspectos foneticos de la production у la perception del habla en espanol сото LE/L2. La tercera parte del capitulo resume las caracteristicas esenciales, especialmente en lo que se refiere al acceso a los datos, de algunos corpus orales en espanol сото L1 у сото LE/L2 en los que el investigador о el profesor pueden contar con las grabaciones; finalmente, se mencionan las herramientas empleadas mas habitualmente para el analisis у la gestion de un corpus oral.

Necesidades

El estudio del componente fonico en espanol сото LE/L2 todavia no ha alcan- zado su pleno desarrollo si se compara con las investigaciones llevadas a cabo sobre otros niveles del analisis lingiiistico. Aunque existen varias razones que explican tal situation, la dificultad de contar con datos orales es, sin duda, una de ellas, pues, si la creation de recursos lingiiisticos adecuados para caracterizar foneticamente una primera lengua ya exige un esfuerzo considerable, сото senala Granger (2008, 262-263), “The difficulty of collecting and transcribing speech is multiplied by a factor of 10 in the case of learner data”.

Pese a que recopilar textos escritos no es, сото se ha visto en los capitulos 6 у 7 del presente volumen, una tarea trivial, obtener grabaciones que combinen la naturalidad у la espontaneidad de los participantes con un nivel de calidad que permita llevar a cabo un analisis fonetico requiere una metodologia, un entorno у unas herramientas especificas que aumentan la complejidad del trabajo del inves- tigador; por otra parte, la transcripcion ortografica y, especialmente, el etiquetado fonetico de un corpus oral, aunque puedan automatizarse hasta cierto punto, exi- gen una formacion especializada у una notable inversion tanto en tiempo сото en recursos humanos у economicos (Myles 2005; Delais-Roussarie у Yoo 2011; Caines, McCarthy у O’Keetfe 2016). Por todo ello, el conjunto de corpus escritos a disposicion de la comunidad cientifica es notablemente mayor que el de corpus que contienen material sonoro susceptible de un estudio fonetico, lo que, a su vez, repercute en la menor atencion que se ha prestado al nivel fonico en comparacion con el gramatical, el lexico о el discursivo.

Distinguir entre corpus orales y corpus de lengua oral

En la tipologia de corpus presentada en el capitulo 6 se ha hecho referencia al criterio de la modalidad, que permite dividir los recursos lingiiisticos en escritos у hablados, asi сото a la dicotomia entre escritos у orales en lo que respecta a la especificidad de los textos. Para los fines de este capitulo, conviene, sin embargo, distinguir entre los “corpus de lengua oral” que, en ingles, suelen denominarse spoken language corpora, у los “corpus orales”, conocidos en ingles сото speech corpora (Llisterri 1996; Whichmann 2008; McCarthy у O’Keeffe 2013; Caines, McCarthy у O’Keeffe 2016). Los corpus de lengua oral ofrecen сото principal material de trabajo una transcripcion ortografica de las grabaciones originales —enriquecida para representar algunos fenomenos propios de la oralidad, сото se explica en el apartado 8.1.2—, mientras que los corpus orales incluyen una transcripcion fone- tica de los materiales sincronizada con la grabacion у acompanada, en ocasiones, de algun tipo de anotacion. La posibilidad de contar con la serial sonora condiciona, сото es natural, el tipo de trabajo que puede llevarse a cabo. Por ello, en los corpus de lengua oral el analisis se aborda con los mismos procedimientos у herramientas que se emplean en un corpus de lengua escrita —de ahi que en ocasiones se utilice el termino “textos orales” (spoken texts) para describir este tipo de materiales— ya que, sin acceso a la serial sonora, un corpus de lengua oral puede considerarse, a efectos practicos, un conjunto de textos у tratarse tal сото se ha explicado en los capitulos 6 у 7. En los corpus orales, en cambio, el interes del investigador se centra en el piano fonico, por lo que debe recurrirse a herramientas сото las que se describen en el apartado 8.3.3.

En lo que se refiere especificamente a los corpus con materiales procedentes de hablantes no nativos que contienen algiin componente relacionado con la oralidad, Ballier у Martin (2015) proponen una clasificacion en la que se distinguen tres tipos de materiales: corpus que consisten unicamente en transcripciones ortografi- cas (mute spoken corpora), corpus con los documentos sonoros sincronizados con la transcription ortografica (speaking corpora) у corpus con la serial sonora sincronizada con un etiquetado en el nivel fonetico segmental о suprasegmental (phonetic corpora). Gut (2014), por su parte, plantea una division entre bases de datos de habla en una L2 que contienen grabaciones de participantes que realizan tareas muy especificas у controladas (databases oJL2 speech), corpus de lengua oral de hablantes no nativos, en los que se cuenta, basicamente, con una transcription ortografica enriquecida de la grabacion, pero que, en general, no contienen la serial sonora (corpora of spoken learner language) y, fmalmente, corpus fonologicos de hablantes no nativos (phonological learner corpora), consistentes en la serial sonora sincronizada con una transcription fonetica о fonologica.

Puesto que el presente capitulo se centra en el componente fonico, se con- sideran imicamente los recursos en los que se puede trabajar con la senal sonora, es decir, los corpus orales, excluyendo aquellos corpus de lengua oral que, en terminos de Ballier у Martin (2015), se describirian сото “mudos”, dado que el investigador no tiene acceso directo a las grabaciones. Cabe precisar tambien que se hace imicamente referencia a recursos que no son comerciales y, por ello, se pueden utilizar gratuitamente, aunque en algunos casos sea necesario crear una cuenta de usuario. El lector interesado en conocer otros materiales puede recur- rir a los catalogos en linea de CLARIN (CLARIN 2018b), ELRA (ELRA 2018) о del LDC (LDC 2019); existen tambien catalogos especializados en corpus de hablantes no nativos сото los de la Universidad Catolica de Lovaina (Centre for English Corpus Linguistics 2019), del proyecto TalkBank (McWhinney sin fecha) у de CLARIN (CLARIN 2018a), ademas del desarrollado especificamente para el espanol сото LE/L2 por Diaz Sanchez (sin fecha); asimismo, los trabajos de Briz у Albelda (2009), CampiUos (2012), Caballero (2015) о de Solis (2018) ofrecen information relevante sobre diversos corpus que contienen materiales orales en espanol сото LI у сото LE/L2.

 
Source
< Prev   CONTENTS   Source   Next >