Frecuencia de elementos y fenómenos léxicos

Frecuencia de formas ortográficas

Como ya hemos visto en el capitulo 1, “palabra” es un termino que hay que manejar con cierta precaucion, puesto que puede hacer referencia a elementos lingiiisticos de naturaleza diferente. Situados ante un corpus textual, el analisis mas simple consiste en hacer una estadistica de las formas ortograficas (“palabras ortograficas”) contenidas en el. En efecto, сото veremos en el capitulo 7, son faciles de identificar у aislar, de modo que no resulta complicado preparar una rutina que realice este trabajo si no disponemos de una aplicacion que nos permita obtener los datos correspondientes. Por esa razon, en este tipo de recuen- tos (no en otros) utilizare las frecuencias de las formas ortograficas para analizar algunas cuestiones de interes general que pueden luego ser aplicadas a elementos lingiiisticos mas abstractos.

A pesar de su caracter superficial, la obtencion de listas de este tipo requiere familiaridad con ciertos conceptos lingiiisticos, у exige la toma de decisiones en algunos aspectos en los que las convenciones seguidas en el sistema ortografico de la lengua con la que se trabaje tienen repercusion sobre los resultados. En el caso del espanol contemporaneo, el primero de ellos es, sin duda, la alternativa de diferenciar entre mayusculas у miniisculas о no hacerlo. Las dos opciones presentan ciertas ventajas у algunos inconvenientes, сото hemos visto en el apartado 3.5.2 En este caso se ha optado por suprimir las diferencias у reducir todos los caracteres a minusculas. Otro aspecto que hay que tener en cuenta es el referente a los signos de puntuacion. No hay duda de que una coma, un signo de admiracion о un punto, que aparecen pegados a una palabra ortografica, deben ser eliminados porque son externos a la secuencia de caracteres que nos interesa, pero no es tan claro lo que se refiere, por ejemplo, a los guiones, que pueden ser considerados сото separadores de palabras о bien сото ele- mentos internos a ellas. Segun la decision que se tome en este punto, las listas serian distintas en una cantidad importante de casos del tipo hispano-americano, casa-cuartel, etc. En la tabla 4-1 aparecen las veinticinco formas ortograficas mas frecuentes en la version interna del CORPES existente en noviembre de 2016.

Tabla 4.1 Las veinticinco formas ortogr&ficas mds frecuentes del CORPES (versidn interna de noviembre de 2016)

Forma

Frecuencia total

Free. norm.

Porcent.

% acum.

1

de

15 626 968

64 265,13

6,43

6,43

2

la

9 608 132

39 512,96

3,95

10,38

3

que

7 525 142

30 946,77

3,09

13,47

4

el

7 185 612

29 550,47

2,96

16,43

5

У

6 680 745

27 474,23

2,75

19,17

6

en

6 620 031

27 224,55

2,72

21,90

7

a

5 166 430

21 246,69

2,12

24,02

8

los

3 967 779

16 317,29

1,63

25,65

9

se

3 132 161

12 880,86

1,29

26,94

10

un

2 749 499

11 307,18

1,13

28,07

11

del

2 709 566

11 142,96

1,11

29,19

12

las

2 576 560

10 595,97

1,06

30,25

13

con

2 436 138

10 018,50

1,00

31,25

14

no

2 385 278

9 809,34

0,98

32,23

15

por

2 338 734

9 617,93

0,96

33,19

16

una

2 157 005

8 870,58

0,89

34,08

17

para

1 838 477

7 560,65

0,76

34,83

18

su

1 751 536

7 203,10

0,72

35,55

19

es

1 623 653

6 677,19

0,67

36,22

20

al

1 469 927

6 045,00

0,60

36,83

21

lo

1 459 010

6 000,11

0,60

37,43

22

сото

1 231 634

5 065,03

0,51

37,93

23

m£s

1 056 003

4 342,76

0,43

38,37

24

0

777 753

3 198,47

0,32

38,69

25

me

765 754

3 149,13

0,31

39,00

Fuente: RAE. Elaboracidn propia

Como era de esperar, los datos que esta tabla pone de manifiesto tienen una configuracion similar a la que presentan los derivados del CREA analizados en el apartado 1.2.1. La uti- lizacion de la frecuencia normalizada (en esta tabla, casos por millon) nos permite, en caso de que sea necesario hacerla, una comparacion clara у rapida con los datos de la tabla 1.1a pesar de las diferencias de tamano entre los dos corpus. Esa es, precisamente, la funcion de la frecuencia normalizada: lo mismo que sucede con los porcentajes posibilita poner en relacion directa у valorar los recuentos procedentes de conjuntos de tamanos muy diferentes.3 Se aprecia con claridad que no hay divergencies llamativas en las frecuencias normalizadas (ni en los porcentajes) у la dnica diferencia en cuanto a las formas presentes en la lista de formas se da en la ultima de las seleccionadas: en la del CREA aparece pero у en la del COR- PES se encuentra me.

Lo mismo que hemos visto con la del CREA, la lista esta constituida casi exclusivamente por arttculos, otros determinantes, preposiciones, conjunciones, algun pronombre у la forma verbal es, presentada habitualmente сото de contenido lexico mas bien difuminado. Desde el punto de vista cuantitativo, se observa la habitual concentracion de frecuencias en unas pocas formas: las diez primeras suman conjuntamente el 28,07 % (el 28,65 % en el CREA) у las veinticinco de la lista suponen un 39 % (39,57 % en el CREA). Naturalmente, dada la naturaleza de las formas que ocupan los primeros lugares, conocer el significado (gramatical) de las veinticinco palabras de la lista no supone que se comprenda el 40 % del contenido de un texto, puesto que la informacion radica precisamente en palabras de otras clases. Lo que sucede con las frecuencias de los elementos lexicos (y con los demas elementos lingiifsticos) responde a un fenomeno general que a veces se ha presentado сото la ley de Pareto, cono- cida tambien сото ley del 80/20.4 Fue aplicada inicialmente al ambito economico (el 20 % de la poblacion obtiene el 80 % de los ingresos totales de un pats), pero se puede utilizar en terrenos muy diversos. Es evidente que las frecuencias lexicas responden al principio de la acumulacion de la mayorta de los casos en un numero reducido de formas, aunque lo hacen de modo rnucho mas rotundo: para llegar al 80 % del volumen total del CORPES es suficiente con las primeras 4257 formas, lo cual significa solo el 0,45 % de las contenidas en el.

La distribucion de las frecuencias de los elementos lexicos responde a la ley de Zipf (1935, 1949),5 formulada por este investigador en los anos treinta у cuarenta del siglo pasado. Segun esa ley, la relacion entre la frecuencia de un elemento у el rango que le corresponde en una ordenacion decreciente da lugar a una constante (aproximada). Lo esperable es que la fre- cuencia del segundo elemento en la ordenacion sea aproximadamente la mitad de la que tiene el primero, la del tercero sea un tercio, la del cuarto un cuarto, etc., de modo que la frecuencia predecible para un elemento que ocupe la posicion n es la frecuencia del primero partida por n.

Naturalmente, se trata de una tendencia general que, en el caso de las formas ortograficas, que son cientos de miles, no se puede observar con claridad si se trabaja con los elementos individuales. En la lista de la tabla 4.1 se ve que la forma que ocupa la segunda posicion es el 0,61 de la mas frecuente, las dos siguientes estan un poco por debajo del 0,47 de la primera, etc. La proyeccion mas interesante de la ley de Zipf se aplica a la configuracion general de las frecuencias у se manifiesta en tres aspectos diferentes. En primer lugar, hay un numero reducido de formas con frecuencias muy altas: con los datos de la tabla 4.1 se ve que solo trece formas tienen porcentajes iguales о superiores al 1 %. Sin embargo, esas pocas formas alcanzan un volumen conjunto muy grande: en este caso, el 31,25 % del total. Es decir, unicamente trece formas ortograficas suponen casi un tercio de las que se encuentran en el conjunto de los textos espanoles. En segundo termino, hay un numero muy alto de formas que tienen frecuencia baja о muy baja. Logicamente, aquf se da el fenomeno contrario: son rnuchas formas distintas, pero su peso conjunto es muy escaso. Por ultimo, сото un caso especial del anterior, las formas que tienen frecuencia igual a uno (los hapax) son muy abun- dantes (pero tienen un peso muy bajo). Nation (2016) estima que el 50 % de las formas ortograficas distintas del ingles tiene frecuencia igual a uno. Segun Rojo (2008a, 2017), el porcentaje de hapax se situa alrededor del 40 % de las formas ortograficas distintas y, lo que es mas importante, parece independiente del tamano del corpus analizado; el de lemas que se registran solo una vez se estima en torno al 30 %.

Aunque no carecen por completo de interes, las listas de frecuencias de formas ortograficas no tienen un peso teorico importante en lingiifstica. En primer lugar, estas “palabras ortogra- ficas” no son “palabras lexicas” (lemas) ni “palabras gramaticales” (elementos gramaticales), de modo que la conversion de una lista сото la reflejada en la tabla 4.1 en algo proximo a lo que se puede necesitar para, por ejemplo, disenar el vocabulario de un curso de espanol para extranjeros exigiria, de entrada, agrupar todas las formas correspondientes al paradigma de cada lema, es decir, todas las formas del verbo ser, las del artfculo determinado, las de los pronombres personates de primera persona, etc. Y en este punto surge inmediatamente el segundo gran problema de las listas de este tipo: las homograffas, es decir, los casos de palabras diferentes por su significado, la clase a la que pertenecen, etc., pero que se escriben del mismo modo. Muchas de las que ocupan posiciones mas altas en la tabla 4.1 presentan estos rasgos. Por ejemplo, la forma ortografica la puede corresponder al artfculo determinado en su variante femenina у singular, al pronombre personal de tercera persona en su variante femenina, singular у acusativa о bien al sustantivo la (la nota musical). La forma ortografica que puede, cuando menos, ser conjuncion о relativo, у lo mismo sucede con muchas otras de las que figu- ran en la relacion. El peso de este factor puede ser enfocado de, al menos, dos formas distintas. Podemos atender a cuantos casos de homograffa hay en la relacion de formas ortograficas distintas, es decir, a cual es el peso que tienen en el inventario de formas (с/, infra, 5.2.). Mas interesante у mas revelador del trabajo que hay que hacer en este punto es considerar el peso de las formas homografas en los textos. Sin necesidad de hacer una cuantificacion formal de este aspecto (dependiente del sistema de anotacion у su granularidad), la revision de las que se encuentran en la lista de la tabla 4-1 puede dar una idea aproximada. Solo en los primeros diez puestos aparecen la, que, a, los у se, que suponen el conjunto el 12,08 % de los textos. Muy importante, pero de cuantificacion poco menos que imposible, es la valoracion de la dificultad de la desambiguacion automatica у la importancia de los errores que se puedan cometer en ese proceso. Diferenciar entre los casos de la pronombre personal у la artfculo tiene un grado alto de dificultad en muchos casos, pero tiene que ser afrontado en cualquier clase de anotacion morfosintactica. Asignar primera о tercera persona a los casos del tipo llegaba es, dadas las caracterfsticas del espanol en este punto, casi imposible en muchos casos, pero los errores que se puedan producir no afectan a la clase de palabras ni al lema ni al modo ni al tiempo de la forma, que son los mismos. Los posibles errores de asignacion en este punto se reducen, por tanto, a la persona gramatical.

De otra parte, la existencia de contracciones сото al у del nos obligarfa a retocar cualquier recuento que quisieramos aplicar a algun proposito netamente lingiifstico. Por ejemplo, la forma de aparece en la lista con una frecuencia equivalente al 6,43 %, pero en realidad es bastante mas alta, puesto que para conocer la frecuencia real de la preposicion de deberfamos sumarle el porcentaje que corresponde a la contraccion del, con lo que se llega al 7,54 %. Hacer la operacion complementaria, es decir, sumar a la frecuencia de el la que corresponde adelyal implica que esta forma del artfculo determinado tiene una frecuencia equivalente al 4,07 % у se convierte en la segunda forma mas frecuente, por delante de la у que. Las caracterfsticas ortograficas del espanol contemporaneo hacen que el problema de las formas ortograficas que contienen en su interior dos о mas elementos gramaticales se multiplique por un factor muy alto a causa de los pronombres enclfticos que aparecen en formas сото

llevarlo, llevarselo, llevandolo, llevalo, etc. Por ultimo, tambien se da el fenomeno contrario: secuencias de palabras ortograficas que estan'an mejor analizadas сото elementos unitarios. Piensese, por ejemplo, en locuciones, elementos fraseologicos о las cantidades escritas con caracteres alfabeticos. Todo ello, сото se ve, complica considerablemente el trabajo con listas de formas у disminuye su utilidad para obtener datos de interes en los estudios linguisticos.

Lo anterior no significa, sin embargo, que no sea util trabajar con listas de este tipo, al menos сото primera aproximacion. Dada la facilidad con que se pueden producir, consti- tuyen una via de interes para hacer la primera cala en algunos aspectos a los que seria mucho mas costoso acceder con datos mas elaborados (por ejemplo, con textos lematizados у edque- tados morfosintacticamente). Una de las mas cultivadas desde los primeros anos de uso de las computadoras en lingiiistica consiste en el intento de cuandficacion de la variedad de elementos lexicos contenidos en un texto, la llamada type-token ratio (TTR). Cada una de las formas ortograficas que aparecen en un texto es denominada, en ingles, un token. Cada una de las formas diferentes contenidas en un texto es, tambien en ingles, un type.6 Es decir, se trata de la diferencia entre contar el numero de formas ortograficas que tiene un texto (por ejemplo, cuando se dice que un articulo de periodico tiene ochocientas palabras) у el niimero de formas ortograficas distintas que aparecen en el. Por tanto, en una secuencia сото

[1] En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que vivia un hidalgo de los de lanza en astillero, adarga antigua, rocin flaco у galgo corredor.

hay en total treinta у tres formas ortograficas (tokens), pero, dado que algunas de ellas se repiten (en, un, de, no) encontramos solo veintisiete formas distintas (types). Un modo de aproximarse a una vision muy elemental de lo que se ha presentado repetidamente сото la riqueza о densidad lexica de un texto consiste en calcular la razon existente entre las formas totales у las formas distintas, es decir, dividir el numero de formas distintas (types) entre las formas totales (tokens), con lo que el resultado oscila siempre entre сего у uno (en el ultimo caso, todas las formas son diferentes entre si).' En la secuencia [1], por tanto, la TTR es 27/33, es decir, 0,818. Con este indice, se considera que un texto es mas “rico” desde el punto de vista lexico cuanto mas cerca de 1 este su TTR, de modo que [1] es una secuencia muy “rica" desde este punto de vista.

Ciertamente, este modo de calcular la riqueza lexica de un texto es bastante elemental, pero puede servirnos aqui para contrastar resultados de diferentes textos у analizar algunos de los problemas que aparecen en esta zona de trabajo.8 Como ilustracion, veanse en la tabla 4-2 las formas totales, las formas distintas у la TTR de diferentes textos.9

Los textos incluidos en la tabla 4.2 son dos novelas de diferente extension, un ejemplar de un periodico, la transcripcion de una serie de textos orales у las dos partes del Quijote (por separado). Aunque todos ellos presentan una TTR que esta muy lejos de la que hemos obtenido para la secuencia [1], es evidente que el texto periodistico esta muy por encima de todos los demas, lo cual no es sorprendente si pensamos que se trata de un conjunto de nod- das que tratan temas muy distintos, contienen un gran numero de nombres propios (en este analisis reconvertidos a minusculas у tratados palabra a palabra), con lo que es perfectamente esperable la diversificacion del lexico. Los dos textos narrativos presentan razones un tanto distanciadas, hecho que se puede atribuir, al menos en gran parte, al diferente tamano que poseen (cf. infra). Por fin, la coleccion de textos orales tiene la TTR mas baja, seguida de

Tabla 4.2 Formas totales, formas distintas у TTR de diferentes textos

Formas totales (tokens)

Formas distintas (types)

TTR

Crdnica de una muerte anunciada

27 974

4764

0,170

La sonrisa etrusca

82 292

11 470

0,139

La Voz de Galicia (30/10/1991)

59 933

14 850

0,248

El habia de Madrid

137 229

10 095

0,074

El Quijote (primera parte)

184 987

14 850

0,080

El Quijote (segunda parte)

193 482

16 173

0,084

Fuente: BDS. ElaboraciOn propia

cerca por las dos partes del Quijote, muy proximas entre sf tanto en el numero total de formas сото en las formas distintas que contienen. De nuevo es el tamano de los textos lo que explica la mayor parte de estos indices.

En efecto, сото se insinua en el parrafo anterior, uno de los problemas clasicos en la construccion de corpus es el hecho de que el aumento del volumen total no tiene paralelo en el aumento de las formas distintas, que, por supuesto, se incrementan, pero lo hacen en una medida considerablemente menor. El efecto de esta discrepancia en las curvas de creci- miento se observa perfectamente en el experimento descrito en Rojo (2017) con los textos de una version intermedia del CORPES. En la tabla 4.3 se puede observar que, al ir acumu- lando los textos pertenecientes a los diferentes anos, la relacion entre el numero total de formas у el de formas distintas se va reduciendo, сото muestra con claridad la TTR que corresponde a cada uno de los estadios de esta agrupacion.10

En realidad, las cifras que aparecen en la tabla 4-3 no son del todo correctas desde un punto de vista general. La razon entre formas totales у formas distintas (TTR) debe aplicarse a un texto у no a un conjunto heterogeneo de textos, pero sirve para mostrar lo que se busca aqui: este indice resulta muy afectado por el tamano del texto (o conjunto de textos) con que se trabaje, сото muestra con claridad la figura 4.1. Dados los rasgos estadisticos que hemos visto en, por ejemplo, la tabla 4.1, con la altisima frecuencia de articulos, preposicio- nes, conjunciones, etc. у la existencia de las leyes de Pareto у de Zipf, eso es, precisamente, lo esperable.

El interes en obtener una medida mas ajustada de la densidad lexica que no dependa del volumen total del texto produce movimientos en dos direcciones distintas. Por una parte, el refinamiento de las formulas para hacerlas mas adecuadas a lo que se pretende medir, que es un camino que no vamos a explorar aqui.11 Si nos interesa, en cambio, otro procedimiento para tratar de paliar los efectos del tamano del texto sobre la razon entre formas totales у formas distintas. Consiste, sencillamente, en no hacer los calculos sobre la totalidad del texto, sino en obtener la TTR sobre fragmentos del texto del mismo tamano (mil formas, por ejemplo) у hallar luego la media de todos los TTR calculados.12 De esta forma, el efecto de la acumulacion de formas muy frecuentes queda considerablemente reducido, con lo que las cifras resultantes son muy distintas de las que se pueden obtener trabajando con la totali- dad del texto. Por ejemplo, la aplicacion WordSmith (cf. cap. 6) proporciona tanto la TTR сото la que denomina “razon estandarizada entre formas totales у formas distintas” (STTR,

Tabla 4.3 Formas ortogr&ficas totales, formas ortogrdficas distintas у TTR corres- pondientes a una versidn antigua del CORPES.

Formas ortogr£ficas totales

Formas ortogr£ficas distintas

TTR

2001

16 111 269

243 154

0,015

+2002

32 939 689

341 001

0,010

+2003

48 797 809

418 988

0,009

+2004

66 028 066

483 571

0,007

+2005

86 290 293

553 808

0,006

+2006

107 750 768

616 653

0,006

+2007

129 561 527

677 377

0,005

+2008

150 680 157

730 953

0,005

+2009

172 019610

780 758

0,005

+2010

192 489 302

828 271

0,004

+2011

213 219 286

870 729

0,004

+2012

231 398 339

907 312

0,004

+2013

234 090 866

912 315

0,004

+2014

237 347 875

917 988

0,004

+2015

239 083 591

920 479

0,004

+2016

239 953 968

922 433

0,004

Fuente: Rojo (2017, tabla 3) para las dos primeras columnas. Cada fila acumula la cifra correspondiente a la casilla superior (la que reza +2002 tiene el total correspondiente a 2001 mas el de 2002, etc.).

Evolucidn del total general de formas у del total de formas distintas en el CORPES 0.83 Fuente

Figura 4.1 Evolucidn del total general de formas у del total de formas distintas en el CORPES 0.83 Fuente: Tornado de Rojo (2017, grafico 1)

standardized type-token ratio). En el caso de la primera parte del Quijote, la TTR es de 8,1 (oscila entre сего у cien), mientras que la STTR se eleva a 43,63).13

Con independencia de las formulas у procedimientos que se utilicen para hacer estos calculos, trabajar con las formas ortograficas tiene todos los problemas que se derivan de su sometimiento a las caracteristicas ortograficas de la lengua con la que se trabaje, у su mayor о rnenor distancia con respecto a los que podemos considerar elementos lexicos en sentido estricto. Es decir, la densidad lexica de un texto sera mas alta si se consideran сото elementos distintos las formas que integran el paradigma de un verbo у mas baja si, en cambio, todas las formas del paradigma se integran en un elemento tinico. El texto no cambia у su vocabu- lario tampoco, pero si lo hacen las TTR.

Retornando a la cuestion de las formas mas frecuentes, la rotundidad de las cifras que corresponden a las formas que ocupan los puestos mas altos en las listas de frecuencia no implica que ni todos los textos ni todos los corpus textuales presenten exactamente la misma distribucion. Por ejemplo, si comparamos la tabla 1.1, que contiene las formas ortograficas mas frecuentes del CREA, con la 4.1 que proporciona las mas frecuentes del CORPES, podremos comprobar que la uniformidad general de la ordenacion se rompe ya en el quinto puesto (en en el CREA, у en el CORPES) у tambien que, entre las veinticinco mas frecuen- tes, hay una forma que solo esta en el CREA (pero) у otra que solo aparece en el CORPES (me). Mas sorprendente puede resultar el hecho de que cuando se desciende a analizar lo que sucede en textos concretos, las diferencias pueden afectar incluso a la forma mas frecuente. Los que han sido utilizados en la tabla 4.2 muestran la distribucion que refleja la tabla 4 4 en las cinco primeras posiciones.

Como se aprecia en la tabla 4-4, las posiciones relativas de las formas difieren incluso en los dos corpus de referencia considerados: el CREA presenta en la quinta posicion la prepo- sicion en, mientras que en el CORPES ese lugar corresponde a y. Tampoco se da coincidencia total entre los cinco textos considerados aqui ni entre ellos у los dos corpus. Solo la Cronica (el texto de menor longitud entre los considerados) coincide con el CORPES (el de mayor volumen) у —curiosamente— solo los textos periodisticos у la primera parte del Quijote tienen la misma configuracion.14

Las frecuencias de formas, incluso de las ortograficas, pueden ser utilizadas tambien para realizar tareas vinculadas a la caracterizacion de los textos. Por ejemplo, si disponemos de una lista de frecuencias de las incluidas en textos de diferentes tipos (por ejemplo, las areas tematicas del CORPES), podremos intentar adivinar a cual de ellos corresponde un texto todavia no clasificado. Se ha utilizado bastante una prueba estadistica llamada log-likelihood

Tabla 4.4 Posici6n de las cinco formas m&s frecuentes en CREA, CORPES у cinco textos diferentes

CREA

CORPES

Crdnica

Sonrisa

Voz de Galicia

Quijote 1

Quijote 2

1

de

de

de

la

que

que

que

2

la

la

la

el

de

de

У

3

que

que

que

de

У

У

de

4

el

el

el

У

la

la

la

5

en

У

У

a

a

a

a

Fuentes: CREA, CORPES у BDS. ElaboraciOn propia para intentar identificar lo que caracteriza a un texto con respecto a otro о bien a un conjunto de textos (un corpus general, por ejemplo). Esta es la lfnea que se puede seguir para extraer terminos tecnicos: son candidatos a terminos tecnicos aquellos que en ciertos textos presen- tan una frecuencia rnucho mas alta de la que les corresponde en textos de caracter general. Con ciertos refinamientos, se puede intentar identificar al autor de un texto mediante la comparacion de las caracteristicas de los que le pertenecen con seguridad у los que presenta el texto dudoso.

Puede verse, сото muestra del tipo de informacion que se consigue mediante estas tecni- cas, la comparacion de las dos partes del QuijoCe mediante la aplicacion AntConc, que produce los resultados que se muestran en la tabla 4-5. La prueba se ha aplicado tomando la primera parte del Quijote сото texto principal у contrastando las frecuencias de sus formas ortograficas (reducidas a minusculas en todos los casos) con la segunda parte de la obra, tomada aqui сото texto de referenda.15

Como se puede ver, casi todas las formas corresponden a nombres о designaciones de personajes que aparecen en la primera parte у no figuran en la segunda. De todos modos, hay tambien algunas formas de caracter gramatical que, segun esta prueba, se encuentran con una frecuencia significativamente mas alta en la primera parte: mas, habfa, que, Can. La pers- pectiva complementaria es la construida sobre aquellas formas que aparecen en la primera parte un numero de veces mucho mas bajo que en la segunda. Las mas destacadas aparecen en la tabla 4-6.

Tabla 4.5 Formas ortograficas con frecuencia significativamente diferente en las dos partes del Quijote

Orden

Free.

Signo

Valor

Efecto

Forma

1

148

+

212,83

0,0016

camila

2

142

+

204,2

0,0015

lotario

3

138

+

198,45

0,0015

anselmo

4

135

+

194,13

0,0015

femando

5

111

+

159,61

0,0012

dorotea

6

101

+

145,23

0,0011

cardenio

7

99

+

142,35

0,0011

luscinda

8

78

+

112,15

0,0008

zoraida

9

195

+

108,9

0,0021

mas

10

235

+

90,67

0,0025

сига

11

655

+

89,47

0,007

habia

12

10661

+

75,91

0,1033

que

13

135

+

73,69

0,0015

barbero

14

753

+

70,43

0,0081

tan

15

46

+

66,14

0,0005

cabrero

Tabla 4.6 Formas ortograiicas con frecuencia significativamente distinta en las dos partes del Quijote

Orden

Free.

Signo

Valor

Efecto

Forma

1

659

-

290,1

0,007

sancho

2

1

-

258,84

0

vuesa

3

9

-

162,64

0,0001

gobemador

4

23

-

126,9

0,0002

duque

5

1

-

105,45

0

teresa

6

6

-

104,72

0,0001

gobierno

7

9

-

96,17

0,0001

rucio

8

839

-

91,29

0,0089

quijote

9

1

-

89,71

0

sanson

10

9

-

84,45

0,0001

bachiller

11

1066

-

76,96

0,0113

don

12

3

-

62,85

0

antonio

13

1

-

59,71

0

basilio

14

1

-

59,71

0

roque

15

399

-

54,16

0,0043

senor

Fuentes: Elaboracibn propia. Cf. capltulo 7

En este caso, parece que tanto Quijote сото Sanc/ю son significativamente menos utilizadas en la primera parte (839 у 659 veces, respectivamente) que en la segunda (1336 у 1489, respectivamente). Es claro que las menciones a los dos personajes principales ascienden en la segunda parte у que el aumento se da en mayor medida en el caso del escudero. Es intere- sante lo que sucede con la forma vuesa. Con los datos que se pueden obtener con el CORDE, esa forma se encuentra solo una vez en la primera parte (mas dos de imesas у una de vueso) frente a las doscientas seis de vuesa(s) en la segunda.16 Las de la primera parte estan concen- tradas en el soneto de Soliman, de modo que no forman parte del cuerpo central de la obra. Las localizadas en la segunda, casi todas ellas en la expresion vuesa merced estan distribuidas a lo largo de todo el texto. Hay aquf, pues, diferencias en la intencion con que Cervantes utiliza estas formas arcaizantes.

 
Source
< Prev   CONTENTS   Source   Next >