Análisis lingüístico con IA

Evolución del lenguaje en escritores célebres



Comparamos los primeros y últimos libros de 20 autores

Por Julián Yanover
¿Cómo se comparan los primeros libros de escritores consagrados, publicados en su juventud, con sus últimas obras lanzadas 20, 40 o hasta 60 años más tarde?

Quisimos descubrir si el lenguaje de cada autor, con el devenir del tiempo, veía cambios en el léxico desplegado. Para ello, debíamos encontrar la manera de medir la cantidad y variedad de vocabulario con relación a la totalidad del libro.

¿El vocabulario se enriquece producto de la experiencia? ¿O acaso disminuye?

Con estas preguntas iniciales, comenzamos nuestra investigación haciendo uso de inteligencia artificial y software de procesamiento del lenguaje natural, herramientas nuevas que posibilitan esta tarea, antes impensada.

Esto es lo que encontramos.

Qué analizamos

  • 20 autores.
  • 40 libros.

Hicimos una selección de 20 de los más grandes autores en español, y tomamos una de sus primeras obras y una de sus últimas en publicarse.

Así, por ejemplo, tomamos a Borges con «Ficciones» (1944) y «El libro de arena» (1975), Gabriel García Márquez con «Cien años de soledad» (1967) y «Memorias de mis putas tristes» (2004), o Almudena Grandes con «Las edades de Lulú» (1989) y «Todo va a mejorar» (2022).

Siempre buscamos el margen de tiempo entre libros más amplio que pudimos conseguir.

Cómo lo analizamos

  • Base de datos con 3.103.274 palabras.
  • Software de procesamiento del lenguaje natural (PLN) e inteligencia artificial para registrar y unificar palabras similares vía lematización.
  • Sistema de puntaje propio para homogeneizar criterios y evaluar la diversidad léxica.

Los libros fueron guardados, palabra por palabra, en una base de datos.

Realizamos la lematización de cada palabra, que implica llevar todas las variantes que una palabra puede tener a su lema base. Por ejemplo, comió, comerá y comen se agrupan bajo el lema comer. Esta técnica es una herramienta del procesamiento del lenguaje natural que permite que el resultado final sea más fidedigno al contar solo los lemas y no todas las variantes de una misma palabra.

Base de datos

Un vistazo a la base de datos con más de 3 millones de palabras almacenadas y procesadas

El primer problema que enfrentamos fue que, en libros más extensos, generalmente había más cantidad de palabras únicas, pero un menor porcentaje de estas con respecto al total. Es natural: en un libro de 100.000 palabras abordaremos más vocablos, pero al mismo tiempo habrá más repetición que en uno de 5.000.

La manera de resolverlo fue encontrada en colaboración con la inteligencia artificial.

La IA nos presentó algunas metodologías posibles, como dividir la cantidad de lemas distintos por la raíz cuadrada del total de palabras del libro, o de igual manera dividirlo por su logaritmo. Sin embargo, aunque el cálculo era menos influenciado por la extensión del libro, seguía siendo afectado por el número total de palabras de cada publicación.

También contemplamos la opción de comparar solamente muestras de igual tamaño de cada texto, pero esto dejaba en algunos casos el 90% del libro fuera del análisis.

Finalmente, tomamos el camino de ventanas móviles. Lo que hicimos fue desarrollar un código que analizó la diversidad del lenguaje de cada libro en fragmentos de 1.000 palabras, y tomó el promedio total de variedad de lemas como resultado para cada obra. Así, todo el libro quedó dentro del análisis, y se redujeron al máximo los factores que distorsionaban los números finales.

De este modo, obtuvimos un puntaje de diversidad léxica para cada libro, en una escala del 1 al 100, donde mientras más alto el puntaje, representa más amplitud del lenguaje utilizado.

El caso de Agatha Christie

En este estudio nos circunscribimos a revisar obras en español, pero el caso de Agatha Christie merece una mención aparte.

Esta escritora de novelas detectivescas fue noticia en 2009 cuando un grupo de investigadores sugirió, tras analizar varias de sus obras y cómo su vocabulario se acotaba en sus libros a medida que envejecía, que debió haber sufrido Alzheimer.

Esta noticia fue la semilla para realizar este artículo.

También fue una oportunidad para ejecutar el código que creamos en dos de sus libros y ver por nosotros mismos si obteníamos algún resultado llamativo, coincidente o no con lo visto por estos investigadores.

Analizamos «El misterioso caso de Styles«, su primera novela de Hércules Poirot publicada en 1920 con 30 años de edad, y «Los elefantes pueden recordar» de 1972, también con el detective Poirot como protagonista, cuando tenía 82 años.

Mientras que «El misterioso caso de Styles» obtuvo un puntaje de diversidad léxica de 84.9, «Los elefantes pueden recordar» que fue publicada 52 años más tarde solo consiguió un puntaje de 67.4, habiendo una diferencia extremadamente amplia de 17 puntos y medio entre ambas.

Como verán en las conclusiones a continuación, en nuestro estudio de 20 autores, las dos mayores diferencias registradas entre las obras de un mismo escritor es de 13 puntos y en ambos casos se trata de un aumento en la variedad del lenguaje con el correr de los años, y no un descenso como en el caso de Christie.

Conclusiones

  • 13 autores de los 20 analizados, el 65%, usó más vocabulario en sus últimas obras.
  • La extensión de los primeros libros versus los últimos es similar. En 11 autores es más larga su obra más temprana, y en 9 su más reciente.
  • El autor con más variación entre obras es Javier Marías, que con su obra «Los dominios del lobo» tuvo un resultado de 78.1 y con «Tomás Nevinson» se elevó hasta 91.7 puntos de diversidad léxica.
  • Paulo Coelho es otro caso parecido, ya que obtuvo un puntaje de 73.8 con «El alquimista» (el más bajo de todos los libros estudiados) y subió a 86.9 con «La espía«.
  • El autor cuyo puntaje de diversidad léxica más disminuyó con el tiempo fue Carlos Fuentes, en tanto su obra «La región más transparente» superó por casi 10 puntos a «Federico en su balcón«, publicada 54 años más tarde.
  • El libro que mayor puntaje obtuvo con 98.4 fue «Te di la vida entera» de Zoé Valdés.

Fue sorpresivo descubrir que la mayoría de los autores utilizaron un vocabulario más variado al final de sus carreras que cuando comenzaron. De los 20 escritores, 13 tuvieron un puntaje más alto de diversidad léxica en sus últimas obras y 7 lo consiguieron en sus primeras, 65% contra 35%.

Gráfico de diversidad léxica

De todos modos, es conveniente aclarar que no creemos que la mayor cantidad de vocabulario y/o menor repetición de palabras, sea equivalente a mayor calidad literaria. Son distintos estilos a la hora de escribir, y es muy interesante agregar el factor tiempo a la ecuación.

No podemos obviar de igual manera, porque se observa a simple vista en el gráfico de barras que aparece debajo, que las obras más trascendentales de casi todos los autores de este análisis vieron la luz tempranamente en sus vidas. Pero eso es para otro artículo, uno en el cual las subjetividades reinarán, los números no contarán y la inteligencia artificial no nos servirá…

Gráfico comparativo final

Puntaje de diversidad léxica
60
70
80
90
100
Almudena Grandes
(1960 – 2021)
Las edades de Lulú (1989)88
Todo va a mejorar (2022)88.4
Ana María Matute
(1925 – 2014)
Los Abel (1948)88.4
Paraíso inhabitado (2008)83.1
Ángeles Mastretta
(1949 – )
Arráncame la vida (1985)81.4
La emoción de las cosas (2013)83.5
Arturo Pérez-Reverte
(1951 – )
El húsar (1986)93.5
Revolución (2022)96.8
Carlos Fuentes
(1928 – 2012)
La región más transparente (1958)91.5
Federico en su balcón (2012)81.8
Carmen Laforet
(1921 – 2004)
Nada (1945)85.7
La insolación (1963)78.7
Elena Poniatowska
(1932 – )
Lilus Kikus (1954)86
Dos veces única (2015)92.1
Gabriel García Márquez
(1927 – 2014)
Cien años de soledad (1967)90.6
Memorias de mis putas tristes (2004)91.7
Gabriela Mistral
(1889 – 1957)
Desolación (1922)86.6
Lagar (1954)90
Gioconda Belli
(1948 – )
La mujer habitada (1988)89.5
El intenso calor de la luna (2015)89.6
Isabel Allende
(1942 – )
La Casa de los Espíritus (1982)92.5
Largo pétalo de mar (2019)94.2
Javier Marías
(1951 – 2022)
Los dominios del lobo (1971)78.1
Tomás Nevinson (2021)91.7
Jorge Luis Borges
(1899 – 1986)
Ficciones (1944)96.4
El libro de arena (1975)91.8
José Donoso
(1924 – 1996)
Coronación (1957)86.1
El mocho (1997)85.3
Julio Cortázar
(1914 – 1984)
Bestiario (1951)84.8
Deshoras (1982)78.1
Mario Benedetti
(1920 – 2009)
La tregua (1960)84.1
Andamios (1996)92
Mario Vargas Llosa
(1936 – )
La ciudad y los perros (1963)82.5
Tiempos recios (2019)88.7
Miguel Asturias
(1899 – 1974)
Hombres de maíz (1949)85.9
Maladrón (1969)93.2
Paulo Coelho
(1947 – )
El alquimista (1988)73.8
La espía (2016)86.9
Zoé Valdés
(1959 – )
Te di la vida entera (1996)98.4
La mujer que llora (2013)93.4
Total
Primeros libros87.2

Últimos libros88.5
60
70
80
90
100

Tabla de información completa

Autor Libro Publicado Edad Palabras totales Palabras distintas Lemas distintos Diversidad léxica
Almudena Grandes Las edades de Lulú 1989 29 68958 9408 6776 88
Almudena Grandes Todo va a mejorar 2022 Póstumo 152034 15306 10085 88.4
Ana María Matute Los Abel 1948 23 61690 8560 6050 88.4
Ana María Matute Paraíso inhabitado 2008 83 95134 10058 7071 83.1
Ángeles Mastretta Arráncame la vida 1985 36 74750 9040 6326 81.4
Ángeles Mastretta La emoción de las cosas 2013 64 57948 8461 5987 83.5
Arturo Pérez-Reverte El húsar 1986 35 45480 7484 5265 93.5
Arturo Pérez-Reverte Revolución 2022 71 115069 13862 9084 96.8
Carlos Fuentes La región más transparente 1958 30 169786 22351 16032 91.5
Carlos Fuentes Federico en su balcón 2012 84 65451 9461 6564 81.8
Carmen Laforet Nada 1945 24 74637 9632 6877 85.7
Carmen Laforet La insolación 1963 42 96718 10102 6707 78.7
Elena Poniatowska Lilus Kikus 1954 22 7838 2420 1842 86
Elena Poniatowska Dos veces única 2015 83 95235 12861 9762 92.1
Gabriel García Márquez Cien años de soledad 1967 40 137785 15353 10405 90.6
Gabriel García Márquez Memorias de mis putas tristes 2004 77 23990 5172 4044 91.7
Gabriela Mistral Desolación 1922 33 31128 5750 4216 86.6
Gabriela Mistral Lagar 1954 65 8847 2612 2022 90
Gioconda Belli La mujer habitada 1988 40 118590 14464 9692 89.5
Gioconda Belli El intenso calor de la luna 2015 67 67464 10281 7322 89.6
Isabel Allende La Casa de los Espíritus 1982 40 165627 17350 11374 92.5
Isabel Allende Largo pétalo de mar 2019 77 98240 13212 9008 94.2
Javier Marías Los dominios del lobo 1971 20 70494 7978 5680 78.1
Javier Marías Tomás Nevinson 2021 70 177062 20074 13710 91.7
Jorge Luis Borges Ficciones 1944 45 41409 9040 6805 96.4
Jorge Luis Borges El libro de arena 1975 76 25415 5756 4436 91.8
José Donoso Coronación 1957 33 77317 10680 7489 86.1
José Donoso El mocho 1997 Póstumo 43788 7893 5719 85.3
Julio Cortázar Bestiario 1951 37 31988 6249 4562 84.8
Julio Cortázar Deshoras 1982 68 42426 6553 4749 78.1
Mario Benedetti La tregua 1960 40 51090 7673 5631 84.1
Mario Benedetti Andamios 1996 76 71117 12358 9255 92
Mario Vargas Llosa La ciudad y los perros 1963 27 126877 13003 8677 82.5
Mario Vargas Llosa Tiempos recios 2019 83 94211 12112 8309 88.7
Miguel Asturias Hombres de maíz 1949 50 109931 14099 10045 85.9
Miguel Asturias Maladrón 1969 70 67005 11438 8315 93.2
Paulo Coelho El alquimista 1988 41 37957 4795 3099 73.8
Paulo Coelho La espía 2016 69 29889 5568 3881 86.9
Zoé Valdés Te di la vida entera 1996 37 83882 15338 11036 98.4
Zoé Valdés La mujer que llora 2013 54 89017 14079 9752 93.4

Acerca de

Julián Yanover es desarrollador web desde hace más de 20 años y es el director de Definicion.de

Definicion.de es un sitio web de carácter enciclopédico, con un enfoque especial en las palabras de nuestro idioma desde su origen en el año 2008.

Con más de 15 años de trabajo, definicion.de sigue ampliando sus contenidos para brindar a sus usuarios información objetiva y de calidad. Conoce más sobre nosotros.

x