Capítulo 5 Recuperación de información contenida en corpus textuales: fenómenos gramaticales

Resumen

En el capi'tulo anterior ha podido comprobarse la ventaja que supone trabajar con corpus anotados у lematizados para la recuperacion de informacion sobre elementos lexicos. Esa ventaja se convierte en un requisito imprescindible en la mayor parte de los casos cuando las investigaciones se centran en aspectos gramaticales. En este capi'tulo se analiza una amplia variedad de fenomenos relacionados con la variacion gramatical, el cambio gramatical у tambien algunos aspectos sintacticos que se pueden investigar en corpus que no estan anali- zados sintacticamente, sino que incorporan iinicamente anotacion morfosintactica.

Frecuencia de las clases de palabras

Ya en el apartado 1.2.2 he hecho algunas indicaciones acerca de la posibilidad de traba- jar con datos referidos a la frecuencia de las clases de palabras analizando los datos del CORPES у tomando en cuenta iinicamente los relacionados con las clases consideradas habitualmente сото de contenido lexico, es decir, sustantivos, verbos, adjetivos у adver- bios. Naturalmente, el tema es considerablemente mas complejo у plantea, ademas, algunas cuestiones teoricas de gran interes acerca del propio concepto de frecuencia у la rentabilidad de su empleo сото factor de comprension del modo en que se presentan los fenomenos lingiifsticos.

No requiere mucho tiempo llegar a la conclusion de que una pregunta acerca de la fre- cuencia de los verbos (o los sustantivos, los adjetivos, etc.) en una lengua determinada es muy diffcil de responder porque puede entenderse referida a factores у fenomenos conectados entre sf, pero bastante diferentes. Tenemos que dejar a un lado todos los relacionados con las dificultades existentes para fijar el universo de trabajo, es decir, eliminar los valores relacio- nados con la variabilidad lingiifstica (diacronica, diatopica, diastratica у diafasica) que habrfa que concretar. No hay mas que dos procedimientos realmente operativos para tratar de responder a esa pregunta: analizar el contenido de un diccionario general о bien estudiar los datos contenidos en un corpus textual.

La cantidad de tiempo necesaria у lo escasamente gratificante de la tarea nos hara aban- donar enseguida la idea de obtener esos datos utilizando un diccionario impreso, siempre, claro esta, que tengamos otros recursos a nuestra disposicion. Emplear un diccionario inverso (es decir, un diccionario en el que las entradas constan solo de los lemas у estan ordenadas alfabeticamente de derecha a izquierda) puede resultar un procedimiento viable en algun caso. Asf, dado que los lemas verbales terminan forzosamente en -ar, -er о -ir, cabe pensar en hacer un recuento de las entradas correspondientes jugando con el numero de paginas у de lfneas por pagina que ocupa cada bloque.1 Dado que esta via solo es practicable en algun caso concreto у no nos sirve en general, parece claro que el camino esta en la posibilidad de uti- lizar la informacion acerca de la clase de palabras contenida en diccionarios que sea posible manejar en formato electronico.

Sin embargo, en contra de lo que pudiera pensarse inicialmente, la utilizacion de diccio- narios en formato electronico no proporciona siempre todo lo necesario para obtener este tipo de datos estadtsticos. De entrada, aunque todos contienen, lo mismo que en las ediciones impresas, indicacion de la clase de palabras a la que pertenece cada acepcion, solo algunos ofrecen la posibilidad de hacer busquedas о recuentos a partir de la clase de palabras. Esto es, todos indican que correr es un verbo у carrera un sustantivo, pero no todos permiten obtener la relacion de lemas о acepciones caracterizadas сото, рог ejemplo, verbo. En aquellos casos en los que, сото sucede en el DLE,2 se incorpora esa posibilidad a la aplicacion de consulta, hay que tener en cuenta que lo esperable es que devuelva (y cuente) todas las acepciones en las que un lerna es adscrito a una determinada clase de palabras. Retomando el caso de regular mencionado en el apartado 4-2.2, encontramos, distribuidas en dos entradas distintas, once acepciones con la marca adjetivo, dos con la marca sustantivo, una сото adverbio у cinco сото verbo. Para la estadistica de las clases de palabras, la cifra relevante no es la constituida por el lerna sin indicacion de clase (uno), ni el numero de entradas del diccionario (dos) ni el numero de acepciones (diecinueve), sino las cuatro clases de palabras diferentes en las que puede ser usado regular. Por otro lado, hay que tener en cuenta que la caracterizacion gramati- cal aparece no solo en la indicacion inicial de una acepcion, sino tambien bajo menciones del tipo “usado tambien сото sustantivo” en el caso de un adjetivo e indicaciones similares, que deben ser tenidas en cuenta. Por ultimo, los inevitables problemas asociados a la lerna- tizacion incorporada, con respecto a la cual puede haber importantes discrepancies en el momento de su comparacion con los datos obtenidos en otros recursos. Teniendo en cuenta todos estos factores у los que se derivan de ellos, los datos contenidos en el DLE son aproxi- madamente los que figuran en la tabla 5.1.3

Es un lugar comun senalar que los diccionarios contienen muchas palabras que ya no se utilizan4 y, a cambio, no incluyen muchas otras de uso bastante corriente, por lo que es razo- nable mantener ciertas precauciones acerca de la conveniencia de proyectar lo que se encuen- tra en un lemario de diccionario sobre la lengua usada realmente en un momento determinado. Una forma rapida у comoda de comprobar su bondad en este punto consiste en comparar los datos del diccionario con lo que se encuentra en los diccionarios de frecuencias,

Tabla 5.1 Frecuencia у porcentajes de acepciones correspondientes a diferentes clases de palabras en el DLE 23.3

Lemas con clase de palabras

Frecuencia

Porcentaje

Adjetivos

24 838

21,81

Adverbios

1953

1,71

Artlculos

2

0,00

Conjunciones

125

0,11

Interjecciones

569

0,50

Preposiciones

218

0,19

Pronombres

195

0,17

Sustantivos

73 769

64,78

Verbos

12213

10,72

Total

113 882

100,00

Fuente: ENCLAVE RAE. Elaboracion propia sistematicamente basados en el analisis de lo que se encuentra en corpus de mayor о menor extension у diferentes caracterfsticas. Aunque no se puede olvidar que estas obras estan clara- mente orientadas hacia la organizacion estadfstica del lexico, sirven para nuestro proposito actual si incorporan la indicacion de la clase de palabras, de modo que, a veces con algiin trabajo adicional, es posible obtener los datos que nos interesan. En la tabla 5.2 puede verse la distribucion de diferentes clases de palabras en los tres diccionarios de frecuencias lexicas de uso mas generalizado en espanol en comparacion con los obtenidos del DLE.

Los tres diccionarios de frecuencias incorporados a la tabla 5.2 han sido construidos sobre corpus de caracterfsticas у tamanos distintos’ у la lematizacion (manual о automatical se ha realizado de modos diferentes. A pesar de ello, los porcentajes que corresponden a las distintas clases de palabras consideradas aquf son muy semejantes. Por destacar algiin factor diferencial, en Almela Perez eta!. (2005) los adjetivosparecen un poco menos frecuentes у los sustantivos algo mas abundantes que en los otros dos, lo cual podrfa hacernos pensar en diferencias en la categorizacion practicada. En cuanto a la comparacion entre los resultados obtenidos del DLE у los proporcionados por los diccionarios de frecuencias, lo mas llamativo es, sin duda, que el diccionario presenta un porcentaje bastante mas alto en los sustantivos у bastante mas bajo en los verbos.6 Es notable tambien la diferencia que se da en el caso de las acepciones de caracter adverbial (que, сото se ha indicado, no incluyen las locuciones). Aunque no es una explicacion total, no se puede olvidar que en la confeccion del lemario de un diccionario hay que tomar siempre decisiones acerca de, por ejemplo, la inclusion de adverbios en 'mente. Las opciones extremas van de restringir su inclusion a linicamente a aquellos cuyo significado no sea parafraseable mediante expresiones del tipo “de manera x (con el adjetivo correspon- diente)” hasta la incorporacion de todos los que se documenten en los textos con una cierta frecuencia. En el caso de los corpus (y los diccionarios de frecuencias), hay que etiquetar todos los elementos que aparecen, con lo que el numero de adverbios en -mente se incremental Factores de este tipo no se dan solo en los adverbios en -mente. Piensese, por ejemplo, en la

Tabla 5.2 Porcentajes de las clases de palabras en el DLE у tres diccionarios de frecuencias del espanol

Porcentaje de lemas con clase de palabras del DLE 23.3

FDSW (Juilland у Chang-Rodrlguez 1964)

Almela P6rez ef a/. (2005)

Davies

(2006)

Adjetivos

21,81

23,98

17,92

21,58

Adverbios

1,71

3,62

3,48

5,57

Artfculos

0,00

0,10

0,10

0,04

Conjunciones

0,11

0,38

0,30

0,30

Interjecciones

0,50

0,16

0,30

0,10

Numerates

-

0,74

0,00

0,71

Preposiciones

0,19

0,30

0,44

0,37

Pronombres

0,17

1,04

2,20

0,77

Sustantivos

64,78

50,60

53,80

49,42

Verbos

10,72

19,08

21,46

21,15

Totales

100,00 (N = 113 882)

100,00 (N = 5024)

100,00 (N = 5000)

100,01 (N = 5079)

cantidad de derivados con anti-, despre-, -miento, -cion у tantos otros que estan presentes en los diccionarios у los que se pueden identificar en un corpus.

Los diccionarios de frecuencias tradicionales (al menos, los realizados para el espanol) tienen otra caracteristica que condiciona los resultados derivables de ellos. Por razones perfectamente comprensibles para los formatos impresos de estas obras, sus listados no incluyen todos los elementos que aparecen en los textos utilizados сото material para los recuentos, sino unicamente aquellos que alcanzan un determinado grado de utilizacion. El FDSW (Juilland у Chang-Rodriguez 1964) esta basado en el analisis de un corpus de aproxi- madamente medio millon de formas, pero no presenta en realidad el inventario de las formas у lemas contenidos en el corpus estudiado, sino el subconjunto de los 5024 lemas mas “frecuentes” segim el conjunto de factores utilizado por los autores (frecuencia, dispersion у uso) de un total de unos veinte mil obtenidos del corpus.8 En otras palabras, contiene aproximadamente las formas vinculadas al 25 % mas frecuente de los lemas, lo cual produce una situacion peculiar que pesa sobre la distribucion de algunos elementos con respecto a la que se puede detectar cuando se toma en consideracion todo lo que se documenta en un corpus.9 Siguiendo la estela del FDSW, los otros dos diccionarios de frecuencias que estamos utilizando en este apartado trabajan unicamente con los cinco mil lemas mas frecuentes. Esta restriccion produce efectos apreciables no solo en aspectos relacionados con una con- sideracion mas refinada de los elementos, sino en factores del estilo de los que estamos considerando en este apartado. Puede verse con bastante claridad si comparamos la distribucion de las cuatro clases consideradas en diferentes tramos de frecuencia realizados sobre el mismo corpus. En la tabla 5.3 se aprecia el movimiento que experimentan los porcentajes de las clases de palabras si se comparan los resultados proporcionados por la version 0.91 del CORPES (con unos doscientos ochenta millones de elementos gramaticales) desde la totalidad del corpus hasta tinicamente los elementos que tienen una frecuencia igual о superior a un caso por millon.

La tabla deja ver dos aspectos importantes. El primero de ellos consiste en la evidencia de que la distribucion de los elementos de estas cuatro clases cambia en funcion del tramo de frecuencias que se tome en consideracion. Se observa un aumento constante en el peso que supone el inventario de verbos desde la totalidad del corpus (el 7,5 %) hasta los que tienen una frecuencia igual о superior a un caso por millon (el 15,61 %). A ese notable aumento corresponde el esperable descenso en el peso de las otras tres clases. El segundo se refiere a la diferencia entre la distribucion que encontramos en el DLE у la que se manifiesta en los textos: es muy notable en el caso de los verbos у de los adverbios (en este ultimo caso, probablemente por lo apuntado acerca de los adverbios en -mente), pero hay que notar tambien las

Tabla 5.3 Porcentajes de clases de palabras en el DLE у en diferentes codes del CORPES

DLE

(aceps.)

CORPES

total

CORPES

FN>=0,005

CORPES

FN>=0,05

CORPES

FN>=0,1

CORPES

FN>=1

Adjetivos

22,02

25,43

25,14

24,87

23,68

22,94

Adverbios

1,73

4,40

4,38

3,79

3,46

3,41

Sustantivos (comunes)

65,41

62,67

61,71

61,35

58,87

58,05

Verbos

10,83

7,50

8,77

9,99

13,99

15,61

Total

99,99

100,00

100,00

100,00

100,00

100,00

Fuente: Enclave RAE у CORPES (www.rae.es). Reproduce la tabla 3 de Rojo (en prensa a) correspondientes a los sustantivos, especialmente si atendemos al inventario de los lemas mas frecuentes.

Lo que hemos visto hasta ahora se refiere al numero de lemas distintos que podemos iden- tificar en diccionarios, diccionarios de frecuencias, corpus о subcorpus textuales. Corresponden, pues, a lo que se conoce сото frecuencia de inventario, que consiste en el recuento del numero de elementos de un cierto tipo existentes en una variedad lingiifstica en alguno de sus modulos constitutivos, es decir, el numero de fonemas, de elementos morfologicos, sustantivos, verbos transitivos, esquemas sintacticos biargumentales, etc. Todos los elementos que entran en el recuento tienen frecuencia igual a uno у proporcionan, por tanto, una indicacion de la configu- radon general de una lengua, que puede permitir tambien la comparacion con lo que sucede en otras. Por ejemplo, el numero de fonemas vocalicos, el porcentaje de verbos, etc. puede presentar diferencias interesantes entre dos lenguas distintas.

Lo que no se puede obtener de los datos contenidos en un diccionario es lo que corres- ponde a la llamada frecuencia de uso, que consiste en calcular la cantidad de veces que un determinado elemento о conjunto de elementos es utilizado en los textos reales. La diferencia entre frecuencia de inventario у frecuencia de uso que utilizo aquf es relativamente proxima a la propuesta por Bybee (2007) entre type frequency у token frequency, pero no coincide con ella exactamente.10 Como es logico, obtener la frecuencia de uso de un elemento requiere el analisis del contenido de un conjunto mas о menos amplio de textos reales, de modo que se pueda hacer un recuento del numero de casos que esa unidad presenta en el corpus utilizado. Segun hemos visto en el apartado 1.2.2 у el apartado 4-2.1, el contraste mas llamativo es el que se da entre el numero reducido de elementos pertenecientes a clases cerradas, сото los articulos, о las preposiciones у el altfsimo peso que tienen en los usos. Los diccionarios de frecuencias pretenden obtener los datos de uso y, aunque se enfocan fundamentalmente a las frecuencias lexicas, hemos visto ya que nos permiten obtener los datos correspond ientes a las clases de palabras si, сото es habitual, incluyen ese rasgo. Debido precisamente a la organizacion esperable en funcion de los objetivos, conocer las frecuencias de uso de las diferentes clases de palabras exigiria ir sumando las correspond ientes a cada palabra adscrita

Tabla 5.4 Porcentajes de inventario у uso de las clases de palabra segOn el FDSW

Elementos

Porcentaje en el inventario de elementos

Porcentaje de uso en los textos

Adjetivos

1199

23,98

10,25

Adverbios

181

3,62

5,76

Articulos

5

0,10

15,74

Conjunciones

19

0,38

8,44

Interjecciones

8

0,16

0,02

Numeral es

37

0,74

1,00

Preposiciones

15

0,30

18,95

Pronombres

52

1,04

8,89

Sustantivos

2530

50,60

15,28

Verbos

954

19,08

15,66

Totales

5000

100,00

99,99

Fuente: Patterson у Urrutibeheity (1975, tabla 19) a una clase, lo cual es un trabajo largo у escasamente gratificante. Por suerte, disponemos ya de algunos recuentos realizados con los datos del Frequency Dictionary of Spanish Words (FDSW), que, aunque procedan de un corpus muy pequeno у con textos relativamente antiguos, nos permitira contemplar el contraste senalado, сото se aprecia en la tabla 5.4.

Las diferencias son muy claras у se mueven en la lfnea esperada: los elementos con contenido exclusivamente о casi exclusivamente gramatical сото artfculos, preposiciones у conjunciones suponen un porcentaje muy reducido en el inventario de elementos (un 0,78 %), pero tienen un peso enorme en los textos (un 43,13 %), de modo que, segiin este recuento casi una de cada dos palabras de los textos pertenece a una de estas tres clases. Dado que, сото hemos podido comprobar, los elementos de frecuencia mas alta tienen un comportamiento peculiar, sera de interes comprobar los datos procedentes del analisis de un corpus de tamano medio en su totalidad. La aplicacion de consulta del CORPES tiene la posibilidad de obtener la frecuencia general у la normalizada de las clases de palabras reconocidas en su sistema de etiquetacion. El procedimiento es sencillo: consiste simplemente en seleccionar la opcion deseada en la ventana de Clase de palabra, con el resto de las casillas en bianco о bien con el metacaracter * en la de Forma о la de Lema, у pulsar luego la ventana de Estadlsticas. Si se hace para, por ejenv plo, los verbos, la respuesta es que esa clase de palabras presenta un total de 42 039 989 casos en todo el CORPES (version 0.91), lo cual supone una frecuencia normalizada (FN) de 149 463,64 casos por millon. Las estadfsticas totales son las que aparecen en la tabla 5.5."

Tabla 5.5 Frecuencia de uso у porcentajes de diferentes clases de palabras en el CORPES 0.91

Clase de palabras

Frecuencia

Porcentaje

Adjetivos

18 607 604

6,62

Adverbios

13 713 496

4,88

Artfculos

28 018 511

9,96

Conjunciones

17 351 702

6,17

Contracciones

4 873 488

1,73

Cuantificadores

10 409 735

3,70

Demostrativos

2 791 323

0,99

Desconocidos

1 454 386

0,52

Interjecciones

89 509

0,03

Interrogativos

523 079

0,19

Numerates

3 484 159

1,24

Posesivos

3 895 801

1,39

Preposiciones

42 218 005

15,01

Pron. personates

11 047 603

3,93

Relativos

5 435 052

1,93

Sustantivos

75 228 898

26,75

Verbos

42 039 989

14,95

Total

281 182 340

100,00

Dado que los sistemas seguidos en la lematizacion у categorizacion son muy diferentes, no resulta sencillo comparar estos resultados con los que pueden obtenerse de otros corpus. Una forma razonable de tratar de reducir la distancia en las diferentes organizaciones es restringir los recuentos a las clases con contenido lexico, en cuya caracterizacion entran menos factores adicionales que en las demas y, por tanto, son de mas facil comparacion. Los datos correspondientes a la parte escrita del CREA, el CORPES (0.91) у el CdEweb figuran en la tabla 5.6. Resulta un tanto llamativa la diferencia que existe entre el CdEweb у los otros dos corpus en los porcentajes correspondientes a los adverbios у los sustantivos comunes. Es bastante probable que estas diferencias procedan mas del caracter de los tex- tos integrados en cada corpus (solo de la red en el caso del CdEweb) que de los distintos sistemas de anotacion utilizados. A pesar de las divergencies, los datos de la tabla sirven para lograr una caracterizacion general de las frecuencias relativas de uso de estas cuatro clases de palabras.

 
Source
< Prev   CONTENTS   Source   Next >