Frecuencia de categorías y subcategorías gramaticales
Frecuencia de uso y frecuencia de inventario de las tres conjugaciones
Como es bien sabido, los verbos espanoles se distribuyen en tres grandes clases formales, conocidas habitualmente сото “conjugaciones”, que constituyen el estrato mas elevado de la organizacion de los modelos morfologicos de los verbos del espanol actual. Si se dejan a un lado los aspectos morfologicos, tanto sincronicos сото diacronicos, el tema de la distribucion de los verbos entre las tres conjugaciones у sus frecuencias de uso no ha merecido atencion. Sin embargo, se trata de una cuestion de gran interes desde varios puntos de vista у a traves de la cual es posible obtener una vision muy reveladora de las diferencias existentes entre los lemarios extraidos de diccionarios у corpus, entre frecueiv cia de inventario у frecuencia de uso y, por ultimo, entre la consideracion de los datos procedentes de la totalidad de un corpus о los extraidos de los elementos mas frecuentes, que es lo que se puede conseguir normalmente mediante el analisis de los diccionarios de frecuencias.
Tabla 5.6 Frecuencias de uso у porcentajes de algunas clases de palabras en diferentes corpus textuales
CREA |
CORPES 0.91 |
CdEweb |
||||
Frecuencia |
Porcentaje |
Frecuencia |
Porcentaje |
Frecuencia |
Porcentaje |
|
Adjetivos |
7 960 373 |
13,67 |
18 607 604 |
13,35 |
130 438 706 |
14,56 |
Adverbios |
5 990 799 |
10,29 |
13 713 496 |
9,84 |
125 439 884 |
14,00 |
Sustantivos |
26 818 836 |
46,05 |
65 022 613 |
46,65 |
327 835 047 |
36,60 |
Verbos |
17 472 719 |
30,00 |
42 039 989 |
30,16 |
312 072 054 |
34,84 |
Totales |
58 242 727 |
100,00 |
139 383 702 |
100,00 |
895 785 691 |
100,00 |
El primer recuento relevante sobre la distribucion de las conjugaciones es el que hizo Corbella (1987) a partir de los datos publicados en el FDSW, resumidos en la tabla 5.7:
Tabla 5.7 Distribucibn de formas verbales у verbos en el FDSW segbn su pertenencia a las diferentes conjugaciones
Frecuencias de uso |
Frecuencias de inventario |
Media de uso |
|||
Frecuencia |
Porcentaje |
Frecuencia |
Porcentaje |
||
-ar |
27 111 |
37,59 |
656 |
68,55 |
42,34 |
-er |
33 834 |
45,78 |
149 |
15,57 |
227,07 |
-ir |
12 291 |
16,63 |
152 |
15,88 |
80,86 |
Totales |
73 902 |
100,00 |
957 |
100,00 |
72,22 |
Fuente: Corbella (1987, 148 у sigs.). Reproduce la tabla 1 de Rojo (2006), al que ariado la media de uso (Rojo 2006, tabla 2)
Lo primero que salta a la vista es la diferencia existente entre ambos recuentos. Los verbos en -ar, que suponen cerca del 70 % de los verbos registrados en el FDSW, no llegan, sin embargo, al 40 % de los usos. En las otras dos conjugaciones sorprende la diferencia registrada en los usos a partir de un porcentaje muy similar en el inventario: la segunda conjugacion triplica el porcentaje en el uso, mientras que la tercera se mantiene en una cifra muy similar. Como resultado de la conjuncion de ambos factores, resulta que la media de uso de los verbos de la segunda conjugacion es mucho mas alta que la que podemos encontrar en las otras dos, entre las que tambien hay diferencias importantes. Creo que se puede afirmar que la impresion de cualquier hablante de espanol ante los datos de la tabla anterior sera de conformidad con los porcentajes de inventario, pero tambien de sorpresa con relacion a los porcentajes de uso, puesto que no es esperable que la segunda conjugacion tenga una frecuencia de uso superior al que alcanza la primera ni que exista una diferencia tan fuerte en las medias de uso.
La extraneza causada por estos resultados me llevo hace ya algunos anos a contrastarlos con los que se pueden obtener de la Base de datos sintacticos del espanol actual (BDS), que contiene los datos procedentes del analisis manual de un corpus de aproximadamente 1,5 millones de formas procedentes de distintos textos del espanol contemporaneo. Uno de los rasgos anotados es, por supuesto, el verbo que constituye el predicado de cada clausula, de modo que no es complicado obtener listas de verbos, sus frecuencias de utilizacion у agrupar los resultados segun las conjugaciones, tal сото se hace en la tabla 5.8.
El panorama resultante es bastante distinto del anterior. Los porcentajes de inventario de la segunda у tercera conjugaciones siguen siendo similares, pero han bajado considerablemente
Tabla 5.8 Distribucibn de formas verbales у verbos segbn las tres conjugaciones
Frecuencias de uso |
Frecuencias de inventario |
Media de uso |
|||
Frecuencia |
Porcentaje |
Frecuencia |
Porcentaje |
||
-ar |
88 058 |
45,94 |
2800 |
81,46 |
31,45 |
-er |
71 495 |
37,29 |
296 |
8,61 |
241,54 |
-ir |
32 148 |
16,77 |
341 |
9,92 |
94,28 |
Totales |
191 701 |
100,00 |
3437 |
99,99 |
55,78 |
Fuente: BDS. Tornado de Rojo (2006, tabla 3)
Tabla 5.9 Porcentaje de verbos en el inventario у en el corpus segiin los datos del FDSW у la BDS
Porcentaje de verbos en el inventario |
Porcentaje de uso en el corpus |
||||
DLE 23 |
FDSW |
BDS |
FDSW |
BDS |
|
-ar |
88,55 |
68,55 |
81,46 |
37,59 |
45,94 |
-er |
5,54 |
15,57 |
8,61 |
45,78 |
37,29 |
-ir |
6,00 |
15,88 |
9,92 |
16,63 |
16,77 |
Totales |
100,00 (N=12 057) |
100,00 (N = 957) |
99,99 (N = 3437) |
100,00 (N = 73 902) |
|
Fuente: ENCLAVE RAE, Corbella (1987) у Rojo (2011a, tabla 4)
Tabla 5.10 Frecuencia total у porcentajes de las tres conjugaciones en el CORPES
Frecuencia total |
Porcentaje |
|
-ar |
20 779 811 |
49,48 |
-er |
14 702 439 |
35,00 |
-ir |
6518 116 |
15,51 |
42 000 366 |
99,99 |
Fuente: CORPES. Elaboracion propia
con respecto a los que aparecen en el FDSW, con lo que el aumento que experimenta la primera es superior a diez puntos porcentuales. En el otro aspecto, la primera conjugacion es la mas utilizada (casi el 46 %), la segunda baja mucho у la tercera se mantiene en un nivel similar. La comparacion entre los resultados obtenidos a partir de estos dos corpus se aprecia con mayor facilidad en la tabla 5.9.
Lo que se observa de nuevo es que la consideracion de unicamente los lemas mas frecuen- tes, que es lo que habitual en los diccionarios de frecuencias tradicionales, produce un fuerte desajuste en los datos con respecto a lo que se puede observar si se toma la totalidad de lo que se encuentra en un corpus. No es, pues, el tamano del corpus (cf. Rojo 2006, tabla 5, para mas detalles sobre este punto), sino la restriccion al subconjunto de lemas de mayor frecuencia. El modo de comprobar la validez de esta afirmacion es, por supuesto, obtener los datos procedentes de un corpus de mayor tamano, сото puede ser el CORPES. El procedi- miento es sencillo: hay que seleccionar la opcion verbo en la ventana de Clase de palabras у escribir *ar en la ventana de Lema, con lo que el sistema devolvera la frecuencia conjunta de todos los lemas verbales pertenecientes a la primera conjugacion. La reiteracion de este procedimiento para las otras dos produce los resultados que se muestran en la tabla 5.10.
Los porcentajes del CORPES estan bastante proximos a los que arroja la BDS, de modo que parece posible concluir que las discrepancias que hemos observado no se deben al tamano del corpus, sino a la seleccion de los lemas mas frecuentes, que es lo que suele hacerse en los diccionarios de frecuencias.12