La estructura estadística de los corpus

En el apartado 4 2 hemos analizado los aspectos mas importantes de la frecuencia de formas ortograficas, elementos gramaticales, lemas у expresiones complejas desde el punto de vista del peso relativo de esas entidades. Retomaremos aqui algunos de estos temas у los reenfo- caremos desde la perspectiva de los textos (y los corpus), con la intencion de analizar las consecuencias que la estructura estadistica tiene para la valoracion adecuada de los resulta- dos obtenidos en el analisis de corpus.

A lo largo de los siglos se han hecho listas de frecuencias de multiples tipos de elementos linguisticos у con los propositos mas diferentes. En el apartado 6.1.1 se mencionan los recuentos de combinaciones de letras llevados a cabo por Kading у sus colaboradores para tomar decisiones acerca del mejor modo de representarlas en estenografia: a las mas frecuentes deberian corresponder los trazos mas sencillos para poder ganar en velocidad. Es evidente que, con recuentos mas о menos elaborados, la organizacion de los almacenes de tipos en la imprenta tradicional anterior a la linotipia respondia a la frecuencia de letras, de modo que contentan mayor numero de miniisculas que de mayusculas, de la letra a que de la letra m, etc. Al parecer, Samuel Morse [1791-1872] se baso en la organizacion cuantitativa de estos almacenes para tomar decisiones acerca de сото repre- sentar en su alfabeto las diferentes letras, de nuevo con la intencion de asociar las combinaciones mas cortas con las letras mas frecuentes.46 Cuestiones relacionadas con la frecuencia de las letras у sus repercusiones en carga de trabajo para los dedos у las manos existen tambien en la oposicion entre los teclados de tipo QWERTY (o AZERTY) у el teclado Dvorak, que tiene una distribucion mucho mas equilibrada.47 Se han ela- borado listas de frecuencias de los mas variados elementos lingiiisticos, desde fonemas hasta tipos de oracion о esquemas sintacticos, con los mas variados propositos, pero dirigidos con bastante frecuencia hacia la ensenanza de lenguas extranjeras. La difusion de las computadoras ha supuesto sobre todo la descarga de la parte mas tediosa de esos recuentos, con lo que las posibilidades de trabajo se han incrementado de forma notable.

Con independencia del caracter de los elementos sobre los que se hagan los recuentos, se observa siempre que la distribucion general consiste en que hay unos pocos elementos de gran frecuencia у rnuchos elementos que muestran frecuencia baja о muy baja, de acuerdo con lo previsto en las leyes de Zipf у Pareto (с/, supra, 4.2.1). Asf, por situarnos en dos zonas distantes de los elementos lingiiisticos, segtin los recuentos realizados por Rojo (1991), los cinco fonemas vocalicos del espanol suponen en conjunto el 47,13 % de los textos (transcri- tos fonologicamente, сото es logico) у los diecinueve fonemas consonanticos mas los cinco archifonemas alcanzan el 52,88 %. Entre las vocales, /а/ у /в/ suponen cada una de ellas el 13,46 % del total, mientras que /и/ se queda en el 3,15 %. Entre las consonantes, /s/ tiene el 7,55 % у /1/ el 5,12 %, pero /ji/ se queda en un escasisimo 0,19 %. Desde otro punto de vista, los cinco fonemas mas frecuentes (las cuatro vocales diferentes de /и/ у el fonerna /s/) suponen en conjunto el 51,53 %.48 Con los datos de la BDS, analizados en Rojo (2003), el esquema sintactico clausal mas frecuente en espanol es el biargumental formado por predicado, sujeto у complemento directo en voz activa, que supone el 39,06 % de todas las clausulas analizadas en el corpus ARTHUS, seguido por el monoargumental formado por predicado у sujeto en voz activa (con el 12,26 %) у el biargumental predicado, sujeto у predicativo de sujeto, que aparece en el 6,34 %• Estos tres esquemas suponen en conjunto el 57,66 %, lo cual significa que los 153 esquemas clausales restantes documentados en la BDS suman el 42,34 %. Quiza mas llamativo todavia resulte el hecho de que solo 36 de esos 158 esquemas clausales superan el 0,1 % de las clausulas del corpus у que su porcentaje acumulado alcanza el 98,36 % de las clausulas, de rnodo que los algo mas de 120 esquemas restantes se reparten un exiguo 1,64 %. Es evidente que en las cifras anteriores el porcentaje de cada esquema es consecuencia del niimero de verbos que los admiten у de la frecuencia de esos verbos. Es decir, el esquema constituido por predicado, sujeto у complemento directo en voz activa es tan frecuente porque verbos сото tener, decir, etc., que aparecen continuamente en todo tipo de textos, lo tienen сото esquema preferido. Y lo mismo se puede decir del tercero de los esquemas men- cionados (predicado, sujeto у predicativo de sujeto en voz activa), que se documenta en pocos verbos, pero tan omnipresentes сото ser у estar.

En el terreno, mas familiar, de las frecuencias lexicas ocurre algo muy semejante, сото hemos tenido ocasion de observar en el apartado 5.2. Lo mas sencillo es, por supuesto, tra- bajar con las formas ortograficas, puesto que los datos basicos se pueden conseguir con cual- quier programa de produccion de listas у concordancias (сото WordSmith, Monoconc о AntConc) о bien directamente con rutinas сото las que se analizan en el capitulo 7. Tengase en cuenta, de todas formas, que incluso enfrentarse con algo tan aparentemente automati- zable exige tomar algunas decisiones de orden mas tecnico que influyen sobre los resultados: сото se indica en el apartado 5.2.1, se trata del tratamiento que hay que dar a la diferencia entre mayusculas у minusculas, о сото tratar las secuencias que llevan guion. Una de las versiones previas del CORPES (la cerrada en noviembre de 2016) estaba formada por un total de 293 164 137 formas ortograficas (tokens) que se pueden reducir a 945 394 formas

Tabla 6.1 Frecuencia general, frecuencia normalizada у porcentajes de las veinticinco formas ortograficas mas frecuentes de una versidn intermedia del CORPES (noviembre de 2016).

Forma

Frecuencia

Free. norm.

Porcent.

Porcent. acum.

1

de

15 626 968

64 265,13

6,43

6,43

2

la

9 608 132

39 512,96

3,95

10,38

3

que

7 525 142

30 946,77

3,09

13,47

4

el

7 185 612

29 550,47

2,96

16,43

5

У

6 680 745

27 474,23

2,75

19,17

6

en

6 620 031

27 224,55

2,72

21,90

7

a

5 166 430

21 246,69

2,12

24,02

8

los

3 967 779

16 317,29

1,63

25,65

9

se

3132 161

12 880,86

1,29

26,94

10

un

2 749 499

11 307,18

1,13

28,07

11

del

2 709 566

11 142,96

1,11

29,19

12

las

2 576 560

10 595,97

1,06

30,25

13

con

2 436 138

10 018,50

1,00

31,25

14

no

2 385 278

9 809,34

0,98

32,23

15

por

2 338 734

9 617,93

0,96

33,19

16

una

2 157 005

8 870,58

0,89

34,08

17

para

1 838 477

7 560,65

0,76

34,83

18

su

1 751 536

7 203,10

0,72

35,55

19

es

1 623 653

6 677,19

0,67

36,22

20

al

1 469 927

6 045,00

0,60

36,83

21

lo

1 459 010

6 000,11

0,60

37,43

22

сото

1 231 634

5 065,03

0,51

37,93

23

m£s

1 056 003

4 342,76

0,43

38,37

24

О

777 753

3 198,47

0,32

38,69

25

me

765 754

3 149,13

0,31

39,00

Fuente: RAE. ElaboraciOn propia

ortograficas distintas (types).49 Pues bien, сото muestra la tabla 6.1 (que reproduce la tabla 5.1), las veinticinco mas frecuentes son elementos de nulo о muy escaso contenido lexico (basicamente artfculos, preposiciones у conjunciones, aunque hay tambien algunos pronom- bres)’° у la forma verbal es. La columna de los porcentajes acumulados muestra que la surna de las diez pritneras supera el 28 % у las veinticinco mas frecuentes estan a un paso de alcan- zar el 40 %, lo cual significa que cuatro de cada diez formas presentes en un texto pertenece a este reducidi'simo conjunto.

Una distribucion semejante, pero ya con elementos mas proximos al analisis lingihstico, se da cuando tomamos en consideracion los elementos que resultan del pro ceso de anotacion. En la tabla 6.2 figuran los datos correspondientes a los elementos mas

Tabla 6.2 Frecuencias general у normalizada, у porcentajes de los elementos mds frecuencias de la versidn 0.91 del CORPES

Forma

Clase

Frecuencia

Free. norm.

Porcentaje

Porcentaje acumulado

1

,

Y

18 161 940

56 187

5,62

5,62

2

de

P

17 497 204

54 131

5,41

11,03

3

Y

12 299 865

38 052

3,81

14,84

4

la

T

11 027 573

34 116

3,41

18,25

5

el

T

8 392 505

25 964

2,60

20,85

6

У

c

7 914 906

24 486

2,45

23,29

7

en

p

7 760 858

24 010

2,40

25,69

8

a

p

5 491 231

16 988

1,70

27,39

9

que

H

4 929 865

15 251

1,53

28,92

10

los

T

4 595 716

14218

1,42

30,34

11

se

L

4 507 615

13 945

1,39

31,73

12

que

c

3 707 937

11 471

1,15

32,88

13

un

Q

3 225 645

9979

1,00

33,88

14

del

E

3 179 032

9835

0,98

34,86

15

las

T

3 003 209

9291

0,93

35,79

16

con

P

2 803 263

8672

0,87

36,66

17

no

R

2 767 161

8561

0,86

37,52

18

«

Y

2 657 559

8222

0,82

38,34

19

por

P

2 643 229

8177

0,82

39,16

20

una

Q

2 402 790

7433

0,74

39,90

21

para

P

2 192 076

6782

0,68

40,58

22

su

X

2 047 895

6336

0,63

41,21

23

es

V

1 944 346

6015

0,60

41,81

24

al

E

1 692 674

5237

0,52

42,34

25

сото

C

1 401 298

4335

0,43

42,77

26

-

Y

1 261 729

3903

0,39

43,16

27

)

Y

1 168 972

3616

0,36

43,52

28

Y

1 165 968

3607

0,36

43,88

29

(

Y

1 130 352

3497

0,35

44,23

30

m£s

R

1 123 117

3475

0,35

44,58

31

me

L

1 088 303

3367

0,34

44,92

32

le

L

1 059 034

3276

0,33

45,24

Fuente: RAE. Elaboracidn propia

frecuentes, tomando en cuenta tambien los signos ortograficos, que deben ser conside- rados en una primera fase. En el proceso de anotacion se han aislado los elementos gram- aticales у se les ha atribuido la etiqueta correspondiente, que en la tabla ha quedado reducida a la clase de palabras a la que pertenecen.’1 Es facil observar que la presencia de los signos ortograficos, muy frecuentes algunos de ellos, hace que los porcentajes acumu- lados suban ligeramente.

Veamos ahora cual es el resultado de tomar en consideracion los veinticinco elementos mas frecuentes del CORPES, pero eliminando ya los signos ortograficos. Los datos figuran en la tabla 6.3.

Aunque se observa que la acumulacion es ligeramente mas baja que con las formas ortograficas, es evidente que la configuracion general es la misma que hemos venido obser- vando en las tablas anteriores. Los veinticinco primeros elementos gramaticales suponen un porcentaje proximo al 40 % del total de los elementos incluidos en el corpus. Veamos, por ultimo, lo que sucede cuando se trabaja ya con los lernas, que es lo que muestra la tabla 6.4-

Tabla 6.3 Frecuencias general у normalizada, у porcentajes de los elementos mds frecuentes de la versidn 0.91 del CORPES

Forma

Clase

Frecuencia

Free. norm.

Porcentaje

Porcentaje acumulado

1

de

P

17 497 204

62 207

6,22

6,22

2

la

T

11 027 573

39 206

3,92

10,14

3

el

T

8 392 505

29 838

2,98

13,13

4

У

c

7 914 906

28 140

2,81

15,94

5

en

p

7 760 858

27 592

2,76

18,70

6

a

p

5 491 231

19 523

1,95

20,65

7

que

H

4 929 865

17 527

1,75

22,40

8

los

T

4 595 716

16 339

1,63

24,04

9

se

L

4 507 615

16 026

1,60

25,64

10

que

c

3 707 937

13 183

1,32

26,96

11

un

Q

3 225 645

11 468

1,15

28,10

12

del

E

3 179 032

11 302

1,13

29,24

13

las

T

3 003 209

10 677

1,07

30,30

14

con

P

2 803 263

9966

1,00

31,30

15

no

R

2 767 161

9838

0,98

32,28

16

por

P

2 643 229

9397

0,94

33,22

17

una

Q

2 402 790

8543

0,85

34,08

18

para

P

2 192 076

7793

0,78

34,86

19

su

X

2 047 895

7281

0,73

35,58

20

es

V

1 944 346

6913

0,69

36,28

21

al

E

1 692 674

6018

0,60

36,88

22

сото

C

1 401 298

4982

0,50

37,38

23

m£s

R

1 123 117

3993

0,40

37,78

24

me

L

1 088 303

3869

0,39

38,16

25

le

L

1 059 034

3765

0,38

38,54

Fuente: RAE. Elaboracidn propia

Tabla 6.4 Frecuencias totales, normalizadas у porcentajes de los veinticinco lemas m&s frecuentes de la versidn 0.91 del CORPES

Lema

Clase

Frecuencia total

Free. norm, (sin signos ortograficos)

Porcentaje

Pore, acumulado

1

el

T

27 019 003

96 060,17

9,61

9,61

2

de

P

17 497 204

62 207,49

6,22

15,83

3

У

c

8 125 486

28 888,39

2,89

18,72

4

en

p

7 760 858

27 592,04

2,76

21,47

5

uno

Q

5 934 736

21 099,66

2,11

23,58

6

a

P

5 491 231

19 522,87

1,95

25,54

7

que

H

4 929 865

17 527,06

1,75

27,29

8

ser

V

4 693 557

16 686,92

1,67

28,96

9

se

L

4 507 615

16 025,84

1,60

30,56

10

que

C

3 707 937

13 182,76

1,32

31,88

11

del

E

3 179 032

11 302,35

1,13

33,01

12

suyo

X

2 917 281

10 371,76

1,04

34,05

13

con

P

2 803 263

9966,39

1,00

35,04

14

no

R

2 767 161

9838,04

0,98

36,03

15

por

P

2 643 229

9397,42

0,94

36,97

16

para

P

2 192 076

7793,45

0,78

37,75

17

al

E

1 692 674

6017,93

0,60

38,35

18

lo

L

1 686 939

5997,54

0,60

38,95

19

este

D

1 533 323

5451,40

0,55

39,49

20

сото

C

1 401 298

4982,01

0,50

39,99

21

estar

V

1 332 862

4738,70

0,47

40,47

22

le

L

1 278 793

4546,47

0,45

40,92

23

tener

V

1 257 920

4472,26

0,45

41,37

24

mds

R

1 124 334

3997,32

0,40

41,77

25

me

L

1 088 303

3869,22

0,39

42,15

Fuente: RAE. Elaboracidn propia

Como era de esperar, la agrupacion de elementos en lemas produce ciertos efectos sobre la situacion relativa, especialmente visibles en el artfculo determinado, que pasa a ocupar la primera posicion. Tambien se puede observar la presencia de tres verbos (ser, estar у tener) entre los veinticinco lemas mas frecuentes.52 La acumulacion sube ligeramente, de modo que estos veinticinco lemas mas frecuentes suponen el 42,15 % del total del corpus (sin tomar en cuenta los signos ortograficos).

Con los datos de esta misrna version del CORPES, la distribucion general de los lemas segtin su frecuencia normalizada es la que se muestra en la tabla 6.5.

Los veinte lemas mas frecuentes suponen el 40 % del total del CORPES, сото hemos visto ya, pero es importante observar la distribucion general. Los setenta у tres elementos

Tabla 6.5 Distribucibn de lemas segOn su frecuencia normalizada en la versidn 0.91 del CORPES

Free. norm, (por mill6n)

Niim. lemas

Suma FN (%)

>=5000

20

40,01

(>=0,5 %)

>=2500

36

45,97

>=1000

73

51,35

(>=0,1 %)

>=500

156

57,07

>=250

359

64,21

>=100

1042

74,33

(>= 0,01 %)

>=50

1991

81,04

>=25

3352

85,85

>=10

5974

90,00

>=5

9125

92,23

>=1

21 348

95,05

(>= 0,0001 %)

>=0,5

28 560

95,59

>=0,1

50 373

96,11

Fuente: RAE. Elaboracidn propia

que tienen frecuencia igual о superior a mil casos por millon superan el 50 % del corpus у con poco mas de mil lemas se alcanza casi el 75 % del total.

Al otro lado del espectro se encuentran las formas que tienen una frecuencia muy baja y, con relieve especial, las que tienen frecuencia igual a uno, es decir, los conocidos habitualmente сото hapax, con un termino tornado de la tradicion de los estudios clasicos. Su importancia desde la optica de las formas ortograficas distintas о los elementos gramati- cales diferentes precede de varios factores distintos. El primero de ellos radica en la inci- dencia que la gran cantidad de hapax tuvieron en las consideraciones acerca de la conveniencia de construir corpus de referenda. El problema radicaba en la comprobacion de que, en una epoca en la que la construccion de corpus resultaba muy cara por la escasez de textos en formato electronico ya disponibles у la gran cantidad de trabajo que suponia la utilizacion sistematica de escaneres у programas de reconocimiento optico de caracteres, el incremento en el numero total de formas incluidas en un corpus (que es lo que produce el aumento de costes) tenia un reflejo muy palido en el aumento del numero de formas distintas. En efecto, los datos proporcionados por la practice de diferentes cortes en una version intermedia del CORPES publicados en Rojo (2017) у que reproduzco aqui en la tabla 6.6 muestran con claridad la enorme discrepancia que se da entre el aumento del volumen total del corpus у el correspondiente a las formas distintas. El paso de un corpus formado por unos dieciseis millones de formas ortograficas a otro con casi doscientos cuarenta millones (es decir, lo cual supone multiplicar su volumen —у su coste— por quince) se convierte, en cambio, en el aumento de unas 97 000 a 400 000 formas distintas (es decir, multiplicar por 4,12).

La tabla 6.6 muestra otro factor igualmente importante: el porcentaje de formas ortogra- ficas distintas con frecuencia igual a uno sobre el total de formas ortograficas distintas se mantiene relativamente constante con independencia del tamano del corpus (entre un 40 %

Tabla 6.6 Tamano total, nOmero de formas distintas у h&pax correspondientes a la acumulacidn de textos correspondientes a diferentes anos del CORPES.

Frecuencia total

Total formas distintas

1 forma diferente cada

Hcipax

% sobre formas distintas

2001

16 111 269

243 154

66,26

97 102

39,93

+2002

32 939 689

341 001

96,60

137 688

40,38

+2003

48 797 809

418 988

116,47

172 737

41,23

+2004

66 028 066

483 571

136,54

200 758

41,52

+2005

86 290 293

553 808

155,81

232 461

41,98

+2006

107 750 768

616 653

174,73

260 715

42,28

+2007

129 561 527

677 377

191,27

282 451

41,70

+2008

150 680 157

730 953

206,14

312 398

42,74

+2009

172 019 610

780 758

220,32

335 691

43,00

+2010

192 489 302

828 271

232,40

358 402

43,27

+2011

213 219 286

870 729

244,87

378 242

43,44

+2012

231 398 339

907 312

255,04

395 454

43,59

+2013

234 090 866

912 315

256,59

397 713

43,59

+2014

237 347 875

917 988

258,55

400 065

43,58

+2015

239 083 591

920 479

259,74

401 139

43,58

+2016

239 953 968

922 433

260,13

402 070

43,59

Fuente: Rojo (2017, tabla 3)

Nota: Los recuentos no toman en consideration signos de puntuacidn ni cifras у anulan la diferencia entre mayOsculas у minbsculas.

у un 43,5 %). Esto significa que se puede pensar que el aumento de tamano de los corpus de referenda hasta alcanzar los miles de millones de formas no va a significar el estancamiento en el numero de formas distintas documentadas, lo cual tiene, por cierto, otra implicacion que veremos mas abajo.

Podria pensarse que, dadas las caracteristicas morfologicas у ortograficas del espanol, estos porcentajes se refieren a formas ortograficas distintas, de modo que nos enfrentamos a las casi sesenta formas correspondientes al paradigma de un verbo, pero tambien a todas las variacio- nes del tipo decir, decirlo, decirme, decirte, decfrmelo, decfrselo, diciendoselo, dfmelo, etc. Dada toda esta variacion, puede entenderse que la entrada de formas ortograficas distintas no se inte- rrurnpa nunca, aunque ello pueda no implicar la aparicion de elementos gramaticales о lemas no documentados con anterioridad. Ese es un fenomeno que, sin duda, tiene importancia, pero es facil mostrar que algo parecido se da tambien con elementos gramaticales у con lemas.

En efecto, con los datos procedentes de la version 0.91 del CORPES55 se comprueba que contiene un total de 954 551 elementos gramaticales diferentes (sin tener en cuenta signos de puntuacion ni entidades nombradas ni numerales ni cifras). De ellos, 493 155 tienen frecuencia igual a 1 lo cual supone el 43,64 % del total. Es decir, un porcentaje muy similar al que se ha observado para las formas ortograficas.

Mayor interes tienen, sin duda, los datos correspondientes a los lemas, que implican una vision bastante mas general у abstracta de lo que se puede encontrar en los corpus у сото se configuran desde el punto de vista estadistico. A lo que ya hemos visto en la tabla 6.5 se puede anadir ahora lo referente a los hapax. De nuevo con los datos de la version 0.91 del CORPES, este corpus contiene un total de 121 710 lemas (con clase de palabras) sin tener en cuenta entidades nombradas ni numerales ni cifras. De ellos, 28 300 (es decir, el 23,25 %) tienen frecuencia igual a uno, es decir son lemas que se documentan solo una vez en un corpus que se aproxima a los trescientos millones de formas. El porcentaje es, сото era de esperar, bastante inferior al que hemos visto en las formas ortograficas у los elementos grama- ticales, pero sigue siendo realmente impresionante: la cuarta parte de los lemas tienen una documentacion unica en un corpus de este tamano. Es probable que este porcentaje sea el que debemos esperar en corpus de referencia del espanol.54

El peso cuantitativo de los elementos que aparecen solo una vez nos permite defender la necesidad de construir corpus de referencia de grandes dimensiones, puesto que podemos garantizar que la documentacion se enriquecera con el aumento de volumen. Al tiempo, sin embargo, hay otro factor que no podemos olvidar: que un elemento о un lerna se documente una vez implica que solo se encuentra en un texto, de modo que no lo habrfamos documen- tado si, por cualquier componente mas о menos casual en su construccion, ese texto no hubiera entrado a formar parte del corpus. Al tiempo, сото veremos en el apartado siguiente, lo que podemos decir acerca de fenomenos de baja frecuencia con los datos de un corpus esta sometido siempre a lo que puede suceder con la incorporacion de un nuevo texto, que podria, por ejemplo, documentar algo que no ha sido detectado hasta ese momento. Es la idea que se ha presentado сото la teoria del texto n+1 (cf. Barra Jover (2001), Torruella Casanas (2017, 136, 257-258)).

Un ultimo aspecto al que conviene aludir aqui se relaciona con la distincion establecida en Rojo (2011a) entre frecuencia de inventario у frecuencia en el texto.55 La frecuencia de inventario es la que presenta un determinado tipo de elementos en un corpus o, si se trata de lemas, en un diccionario. Por ejemplo, el niimero de sustantivos que figuran en el lemario de un diccionario о de un corpus. La frecuencia en el texto es, en cambio, el numero de total de apariciones de todos los elementos que forman parte de un determinado grupo. Por ejenv plo, la cifra total de apariciones de elementos pertenecientes a la clase de los sustantivos. Naturalmente, la frecuencia en los textos es propia de los corpus, no de los diccionarios. La importancia de la distincion esta, en lo que aqui nos ocupa, en el hecho evidente de que algunos elementos tienen un peso fuerte desde una de estas dos perspectives у una reper- cusion escasa en la otra. Por mencionar unicamente los casos mas claros, articulos, preposi- ciones о conjunciones suponen un porcentaje muy pequeno si los enfocamos desde la frecuencia de inventario, pero tienen en cambio un peso muy fuerte si lo hacemos conside- rando su frecuencia en los textos. Con los datos publicados en Rojo (2017, tabla 5), articulos у preposiciones, clases cerradas con muy pocos elementos, suponen en conjunto el 30 % del total de un corpus.56

Menos conocidos son los datos referidos a las diferencias que presentan las cuatro clases de palabras con mayor carga lexica segiin las consideremos en el inventario у en los textos. La frecuencia de inventario que presentan estas clases en la version 0.91 del CORPES no es muy diferente de la que tienen en la version 23.2 del DLE, pero si hay diferencias notables con lo que se puede obtener al considerar el peso que tiene en los textos cada una de estas clases. Los datos porcentuales son los que aparecen en la tabla 6.7.57

Por supuesto, hay diferencias entre la configuracion que nos encontramos en un die- cionario у la que encuentra en un corpus. Tiene que haberlas porque estos dos tipos de recurso se construyen de forma diferente. Por mencionar tinicamente lo mas llamativo, en

Tabla 6.7 Porcentajes de las clases de palabras centrales en la versidn 23.2 del DLE у la 0.91 del CORPES

Porcentajes en DLE 23.2

CORPES 0.91: Porcentajes en inventario

CORPES 0.91: Porcentajes en texto

Adjetivos

26,85

25,43

13,58

Adverbios

2,37

4,40

9,96

Sustantivos

57,81

62,67

45,91

Verbos

12,97

7,50

30,54

Totales

100,00

100,00

99,99

Fuente: RAE. Elaboracidn propia

la confeccion de cualquier diccionario hay que tomar decisiones acerca de si incluye о no casos de elementos con prefijos о sufijos, adverbios en -mente, etc. En un corpus, en cambio, ese problema no se plantea: es necesario atribuir lema у clase a cualquier elemento que este documentado (cf. Rojo en prensa). Ast, en la version 23.2 del DLE hay 1762 casos de adverbios terminados en -mente™ mientras que la version 0.91 del CORPES tiene 4558 lemas adverbiales en -mente, dos veces у media con respecto a las registradas en el DLE. Para valorar adecuadamente esta diferencia es de interes tener en cuenta que 1154 de esos lemas del CORPES tienen una frecuencia general igual a uno.

Mas diferencias se observan entre las frecuencias de inventario у las frecuencias en los textos. La tabla 6.7 muestra que la lfnea general consiste en que los porcentajes de adjetivos у sustantivos disminuyen en el grado en que son utilizados, mientras que los adverbios y, sobre todo, los verbos pesan rnucho mas: de suponer solo un 7,5 % en el lemario del corpus pasan a un 30,5 % en los usos.’9

 
Source
< Prev   CONTENTS   Source   Next >