Herramientas de extracción, anotación y análisis

En la mayoria de los casos, para una investigacion basada en corpus de nativos, bastaran uno о varios de los corpus que se acaban de presentar. Sin embargo, si hace falta recurrir parcial о totalmente a corpus propios, sera util, en primer lugar, recur- rir a herramientas de lematizacion у de POS Tagging (aunque no sea indispensable en todos los casos: vease, para una definition, el apartado 6.2.2). Dos aplicaciones de este tipo que se pueden descargar у usar para fines academicos, son TreeTagger у PetraTag. TreeTagger es una herramienta desarrollada en la universidad de Stuttgart у que, ademas de para otras lenguas, ya ha demostrado su utilidad para el estudio del espanol. PetraTAG, por su parte, ha sido desarrollado por el grupo de investigacion PETRA (vease 6.3.3 para unos ejemplos у 6.6 para las referencias).

En segundo lugar, puede que sea interesante anadir etiquetas a las ocurrencias del fenomeno estudiado о a ciertos fragmentos del corpus, lo que se puede hacer digitalmente con un programa de anotacion. En muchos casos, estas herramientas incluiran al mismo tiempo ciertas funcionalidades de analisis, сото las que se presentan al principio de este capitulo (vease 7.2.1), es decir: listas у recuentos de palabras (o de ocurrencias clasificadas segiin las etiquetas que uno puede haberles agregado), concordancias, palabras clave en contexto, la Information Mutua, las palabras coocurrentes. En el capitulo 8 se presentaran dos aplicaciones potentes у libres de pago, a saber: los UAM Corpus Tools у AntConc. Una alternativa, pero de pago, es Wordsmith Tools (vease 6.3.3 para unos ejemplos у 6.6 para las referencias). Ademas, para una explication detallada sobre la elaboration de un corpus propio, vease Llisterri у Torruella Casanas (1999, 15-28).

En el siguiente apartado ilustraremos el uso de estas herramientas a partir de unas investigaciones concretas.

Seis casos concretos de investigación en español LE/L2 basados en corpus

En Gimenez Garcia (2012), se describe el funcionamiento pragmatico del mar- cador conversational “;me entiendes?”, un fenomeno dificil de describir у expli- car a los alumnos de espanol LE/L2. Los corpus empleados son el CREA у el Corpus del Espanol. Como este esta lematizado у aquel no, no se devuelven las mismas variantes en ambos casos: ademas de las ocurrencias de ‘;tii entiendes?’, 'jme entiendes?’, ‘^entiendes?’, ‘a ver si tu me entiendes’, ‘no se si me entiendes’, Lentiendes tu?’, ‘,;lo entiendes?’, en el Corpus del Espanol tambien se encuentran con una sola biisqueda otras variantes сото ‘;me entendiste?’ у ‘;mc entendiste tii?’. Los dos corpus permiten buscar en todos los temas у paises, у limitar al codigo oral у al espanol contemporaneo de los ultimos 30 anos.

En Moles-Cases (2016) se describe la compilation у el analisis de un corpus paralelo para el estudio de un componente lexicogramatical en traduction. Las etiquetas del corpus han sido introducidas con TreeTagger (vease 6.3.2 para description у 6.6 para las referencias). Ademas, incluye una breve introduction a la exploration у el analisis de corpus con Corpus Query Processor, la principal herramienta del IMS Open Corpus Workbench, una coleccion de herramientas de fuente abierta para gestionar corpus anotados de gran tamano (vease 6.6 para las referencias). Concretamente se describe сото se traduce la expresion de la manera de desplazamiento del alenran al espanol. El corpus paralelo aleman-espanol se compone de textos de literatura infantil yjuvenil escritos entre 1973 a 2011 у sus respectivas traducciones al espanol. En este sentido es un buen ejemplo para el investigador en espanol LE/L2 que quiera confeccionar un corpus para el estudio contrastivo entre el espanol LE у la(s) lengua(s) materna(s) de sus alumnos.

Contreras Seitz (2006), por su parte, es un estudio lexico(grafico) que presenta la constitution de un corpus diacronico del espanol de Chile, anotado por medio del Text Encoding Initiative (TEI, vease 6.6 para las referencias), que es un consorcio que desarrolla у mantiene un estandar para la representation de los textos en forma digital, con amplia difusion у utilization en bibliotecas у colecciones de texto digitales у en la creation de corpora lingiiisticos (empleado, por ejemplo, por la RAE para la anotacion del CORDE). Se basa en el lenguaje XML, una version simplificada del SGML. El trabajo de Contreras Seitz ha sido concebido en primer lugar para estudiar una variante del espanol en su vertiente diacronica, pero la metodologia empleada se explica de manera clara у detenida para el investigador en espanol LE/L2 que quiera transferirla a un estudio que requiera la confection de un corpus propio.

En el caso de Celayeta Gil (2016) se trata de un corpus linguistico especialmente creado para el analisis gramatical у pragmatico de las perifrasis verbales en el espanol actual de manera contextualizada, a partir de las muestras extraidas de las sec- ciones de opinion у deportes de seis periodicos, cuatro nacionales (El Mundo, El Pais, ABC у La Vanguardia) у dos internacionales (La Nation, de Argentina, у El Informador, de Mexico), correspondientes al mes de enero de 2014. La finalidad de este corpus creado ad hoc para el analisis у la ensenanza-aprendizaje de las perifrasis verbales del espanol actual se puede concretar en tres objetivos: analizar su uso у frecuencia, detectar las perifrasis verbales mas rentables у recopilar ejemplos de uso contextualizado que permitan una futura explotacion didactica. La herramienta de creation у analisis de corpus utilizada es Sketchengine (creado por Adam Kilgarriff у su empresa Lexical Computing, vease 6.6 para las referencias), porque permite realizar biisquedas mas complejas у no es un simple motor de busquedas. El corpus obtenido suma un total de 2.846.963 palabras у esta organizado en subcorpus en funcion del pais de procedencia de los textos у de las secciones.

El objetivo principal del proyecto CorpusRedEs (Pano Alaman у Moya Munoz 2015) es disenar у construir un corpus de generos textuales digitales en los medios sociales, un genero muy dificil de tratar en la clase de espanol LE/L2. Entre los objetivos especificos se lee que el corpus sea representative del tipo de interactions que tienen lugar en los distintos modos sociotecnicos que van surgiendo en la Red у que contemple las principales variedades diatopicas del espanol, ademas de distintos dominios о tematicas. La ultima fase del proyecto comprende la puesta a disposition en linea del corpus anotado у de los modelos de base, para su consulta у mejora рог parte de investigadores interesados en utilizar el corpus о colabo- rar en el proyecto. Los textos se publicaran en una plataforma web, que incluira informacion de caracter bibliografico sobre teorla, metodologla у aplicaciones del analisis del discurso mediado por ordenador en lengua espanola. El etiquetado ha sido realizado con el editor XML Oxygen, frecuentemente utilizado en proyectos de Humanidades Digitales Hispanicas у que incluye las etiquetas у plantillas de TEI P5 (vease 6.6 para las referencias).

Finalmente, en Buyse et aI. (2011) se presenta un estudio lexicogramatical у pragmatico en corpus especificos del ambito de la medicina, que contienen difer- entes variantes del espanol, diferentes registros (lenguaje medico cientificos frente al popular) у provenientes de diferentes zonas del mundo hispanohablante. Los corpus propios se comparan tambien con otros de referencia (articulos en revistas у libros de medicina, tanto de tipo cientifico сото de tipo popular). El corpus propio contiene protocolos anonimizados de hospitales neerlandofonos у franco- fonos, ademas de las versiones espanola, inglesa у francesa de Donde no hay doctor (Mbow 1992) у de varios manuales de medicina. Se anadieron protocolos espanoles e ingleses recogidos de sitios web especializados, у materiales de RSS feeds (Really Simple Syndication о “sindicacion realmente simple”, “sindicacion” aplicandose en ingles a empresas de varios periodicos), un formato XML para distribuir contenido en la web у que se utiliza para difundir informacion actualizada frecuentemente a usuarios que se han suscrito a la fuente de contenidos. Para crear el corpus, se aprovecharon varias aplicaciones caseras, ademas de Unitex у WordSmith, dos herramientas potentes, ampliamente conocidas у frecuentemente utilizadas para lematizar у elaborar listas de palabras, Palabras en Contexto у colocaciones (vease

6.6 para las referencias). El objetivo final es ofrecer a los estudiantes flamencos de medicina un compendio lexicogramatical para sus practicas en varios paises his- panohablantes (Buyse у Saver 2008; para mas estudios basados en el corpus Apre- scrilov, vease Buyse, Fernandez Pereda у Verveckken 2016).

 
Source
< Prev   CONTENTS   Source   Next >