Cómo ayudan las tecnologías

Sobre el concepto de corpus

Un corpus lingiiistico es un conjunto de texts informatizados producidos en situaciones reales, que se han seleccionado siguiendo una serie de criterios lingiiis- ticos explicits que garantizan que dicho corpus pueda ser usado сото muestra representativa de la lengua (Alonso Perez-Avila 2007, 19). Esta definition muestra explicitamente que (1) los texts deben ser naturales (no artificiales ni creados expresamente para su incorporation al corpus), (2) han de estar en format elec- tronico porque esa es la linica forma de que podamos recuperar la informacion que precisamos, (3) tienen que ser representatives de la variedad de la que pro- ceden y, por ultimo, (4) deben permitir su estudio cientifico (no exclusivamente lingiiistico), lo cual suele implicar la adicion de informacion gramatical, lexica у pragmatica a la simple secuencia de formas graficas que constituyen el texto en el sentido mas habitual de la palabra (Rojo 2016).

Aparte del termino de “corpus”, tambien se habla de “bases de datos textuales”:

Hablaremos de corpus, simplemente, en el caso de aquellas compilaciones de muestras de habla о de escritura recogidas en su contexto natural de enun- ciacion, у para los materiales extraidos de publicaciones (ensayos, novelas, periodicos, articulos cientlficos, etc.) у agrupados de acuerdo con crite- rios homogeneos reservaremos la categoria de “base de datos textual”. Aun siendo muestras naturales de lengua, llegan al usuario de corpus сото pro- ductos creados originalmente con otros fines (literarios, difusion de la cien- cia, divulgacion de informacion, etc.), у su acceso a ellos podria realizarse tambien por vias distintas a las del corpus.

(Briz Gomez у Albelda Marco 2009, 1)

Globalmente, bajo el termino de “recursos lingiiisticos” en linea (o digitales) se suelen reunir un conjunto heterogeneo de fiientes de informacion en Internet que permiten solucionar problemas lingiiisticos corrientes. Llisterri (2003, 2007) distingue las tecnologias (programas informaticos) de los recursos (bases de datos), у subdivide ambas categorias en base al tipo de datos, a saber: orales о escritos, a los que Cassany (2016, 10) anade la subcategoria de multimodal (es decir, que com- binan distintos tipos de datos: textuales, auditivos, visuales...).

Ventajas y limitaciones del trabajo con corpus textuales de nativos

Por un lado, el uso de una serie de recursos electronicos (on- у offline), сото los corpus у programas de tratamiento de los mismos (de extraccion, anotacion у analisis), conlleva grandes ventajas en terminos de rapidez, volumen у precision en el procesamiento de los datos: сото veremos a continuation, esta revolution tecnologica permite elaborar con una facilidad cada vez mas sorprendente instrumentos de analisis altamente fructiferos сото listas de palabras de un texto, concordancias (es decir: lineas de texto donde en medio figura(n) la(s) palabra(s) buscada(s), о KWIC (Key Words in Context; en espanol PCEC: Palabras Clave En Contexto) para visualizar a la vez una gran cantidad de ejenrplos de uso de una palabra (o un grupo de palabras), у patrones combinatorios gracias a valores сото la MI (Mutual Information, en espanol IM: Informacion Mutua), que indica el grado de dependencia mutua entre dos palabras). Las palabras coocurrentes (o “colocaciones”, es decir: la coaparicion de dos о mas palabras en un segmento de texto en el que la distancia entre los elementos de la colocation no sobrepasa las cuatro о cinco palabras), presentan un alto interes de estudio, entre otros para la construction de diccionarios, gramaticas у manuales (Parodi 2006, 113).

Por lo tanto, estos recursos aportan una base solida para detectar las estructuras lingiiisticas mas frecuentes en las producciones reales de los hablantes nativos de una lengua, у de esta manera encontrar respuestas a una tipologia muy variada de dudas concretas por medio del acceso a amplios contextos reales. Para el investigador, el corpus permite, ademas de ello, basarse no exclusivamente en la intuition у en ejemplos elaborados ad hoc, sino en una fuente amplia у fiable de recursos lingiiis- ticos, para luego seleccionar un input suficiente у de calidad al que enfrentar a sus alumnos de forma que tenga lugar el intake, es decir, la adquisicion de cualquier tipo de contenido (Alonso Perez-Avila 2007, 11).

Por otro lado, el termino de “corpus” у los que se asocian con su uso — сото concordancias, tagging, etc.— suelen inspirar miedo porque se asocian con expertos (Buyse 2020 habla de los “8 expertos”a quienes un profesor de espanol LE/L2 tiene que ensenar a acudir a sus alumnos, a saber: los diccionarios, las gramaticas, los verificadores ortograficos, los corpus, los traductores automati- cos, los profesores, los nativos, у la LI junto con las otras lenguas extranjeras aprendidas anteriormente). No obstante, se podra constatar en los apartados siguientes que existe toda una gama de corpus que son relativamente faciles de manejar. De ahi la necesidad de introducir en las formaciones unas breves explicaciones у practices guiadas para conocer la terminologia у aprender a trabajar con corpus (veanse Aijmer 2009; Aston, Bernardini у Stewart 2004; Buyse 2011a, 2017, 2019; Buyse у Gonzalez Melon 2013; Cruz Pinol 2016; Cruz Pinol et al. 2012; McCullough 2001; Pitkowski у Vasquez Gamarra 2009; Reppen 2010; Sinclair 2004).

 
Source
< Prev   CONTENTS   Source   Next >