Comparamos los primeros y últimos libros de 20 autores
Por Julián Yanover
¿Cómo se comparan los primeros libros de escritores consagrados, publicados en su juventud, con sus últimas obras lanzadas 20, 40 o hasta 60 años más tarde?
Quisimos descubrir si el lenguaje de cada autor, con el devenir del tiempo, veía cambios en el léxico desplegado. Para ello, debíamos encontrar la manera de medir la cantidad y variedad de vocabulario con relación a la totalidad del libro.
¿El vocabulario se enriquece producto de la experiencia? ¿O acaso disminuye?
Con estas preguntas iniciales, comenzamos nuestra investigación haciendo uso de inteligencia artificial y software de procesamiento del lenguaje natural, herramientas nuevas que posibilitan esta tarea, antes impensada.
Esto es lo que encontramos.
Índice
Qué analizamos
- 20 autores.
- 40 libros.
Hicimos una selección de 20 de los más grandes autores en español, y tomamos una de sus primeras obras y una de sus últimas en publicarse.
Así, por ejemplo, tomamos a Borges con «Ficciones» (1944) y «El libro de arena» (1975), Gabriel García Márquez con «Cien años de soledad» (1967) y «Memorias de mis putas tristes» (2004), o Almudena Grandes con «Las edades de Lulú» (1989) y «Todo va a mejorar» (2022).
Siempre buscamos el margen de tiempo entre libros más amplio que pudimos conseguir.
Cómo lo analizamos
- Base de datos con 3.103.274 palabras.
- Software de procesamiento del lenguaje natural (PLN) e inteligencia artificial para registrar y unificar palabras similares vía lematización.
- Sistema de puntaje propio para homogeneizar criterios y evaluar la diversidad léxica.
Los libros fueron guardados, palabra por palabra, en una base de datos.
Realizamos la lematización de cada palabra, que implica llevar todas las variantes que una palabra puede tener a su lema base. Por ejemplo, comió, comerá y comen se agrupan bajo el lema comer. Esta técnica es una herramienta del procesamiento del lenguaje natural que permite que el resultado final sea más fidedigno al contar solo los lemas y no todas las variantes de una misma palabra.
El primer problema que enfrentamos fue que, en libros más extensos, generalmente había más cantidad de palabras únicas, pero un menor porcentaje de estas con respecto al total. Es natural: en un libro de 100.000 palabras abordaremos más vocablos, pero al mismo tiempo habrá más repetición que en uno de 5.000.
La manera de resolverlo fue encontrada en colaboración con la inteligencia artificial.
La IA nos presentó algunas metodologías posibles, como dividir la cantidad de lemas distintos por la raíz cuadrada del total de palabras del libro, o de igual manera dividirlo por su logaritmo. Sin embargo, aunque el cálculo era menos influenciado por la extensión del libro, seguía siendo afectado por el número total de palabras de cada publicación.
También contemplamos la opción de comparar solamente muestras de igual tamaño de cada texto, pero esto dejaba en algunos casos el 90% del libro fuera del análisis.
Finalmente, tomamos el camino de ventanas móviles. Lo que hicimos fue desarrollar un código que analizó la diversidad del lenguaje de cada libro en fragmentos de 1.000 palabras, y tomó el promedio total de variedad de lemas como resultado para cada obra. Así, todo el libro quedó dentro del análisis, y se redujeron al máximo los factores que distorsionaban los números finales.
De este modo, obtuvimos un puntaje de diversidad léxica para cada libro, en una escala del 1 al 100, donde mientras más alto el puntaje, representa más amplitud del lenguaje utilizado.
El caso de Agatha Christie
En este estudio nos circunscribimos a revisar obras en español, pero el caso de Agatha Christie merece una mención aparte.
Esta escritora de novelas detectivescas fue noticia en 2009 cuando un grupo de investigadores sugirió, tras analizar varias de sus obras y cómo su vocabulario se acotaba en sus libros a medida que envejecía, que debió haber sufrido Alzheimer.
Esta noticia fue la semilla para realizar este artículo.
También fue una oportunidad para ejecutar el código que creamos en dos de sus libros y ver por nosotros mismos si obteníamos algún resultado llamativo, coincidente o no con lo visto por estos investigadores.
Analizamos «El misterioso caso de Styles«, su primera novela de Hércules Poirot publicada en 1920 con 30 años de edad, y «Los elefantes pueden recordar» de 1972, también con el detective Poirot como protagonista, cuando tenía 82 años.
Mientras que «El misterioso caso de Styles» obtuvo un puntaje de diversidad léxica de 84.9, «Los elefantes pueden recordar» que fue publicada 52 años más tarde solo consiguió un puntaje de 67.4, habiendo una diferencia extremadamente amplia de 17 puntos y medio entre ambas.
Como verán en las conclusiones a continuación, en nuestro estudio de 20 autores, las dos mayores diferencias registradas entre las obras de un mismo escritor es de 13 puntos y en ambos casos se trata de un aumento en la variedad del lenguaje con el correr de los años, y no un descenso como en el caso de Christie.
Conclusiones
- 13 autores de los 20 analizados, el 65%, usó más vocabulario en sus últimas obras.
- La extensión de los primeros libros versus los últimos es similar. En 11 autores es más larga su obra más temprana, y en 9 su más reciente.
- El autor con más variación entre obras es Javier Marías, que con su obra «Los dominios del lobo» tuvo un resultado de 78.1 y con «Tomás Nevinson» se elevó hasta 91.7 puntos de diversidad léxica.
- Paulo Coelho es otro caso parecido, ya que obtuvo un puntaje de 73.8 con «El alquimista» (el más bajo de todos los libros estudiados) y subió a 86.9 con «La espía«.
- El autor cuyo puntaje de diversidad léxica más disminuyó con el tiempo fue Carlos Fuentes, en tanto su obra «La región más transparente» superó por casi 10 puntos a «Federico en su balcón«, publicada 54 años más tarde.
- El libro que mayor puntaje obtuvo con 98.4 fue «Te di la vida entera» de Zoé Valdés.
Fue sorpresivo descubrir que la mayoría de los autores utilizaron un vocabulario más variado al final de sus carreras que cuando comenzaron. De los 20 escritores, 13 tuvieron un puntaje más alto de diversidad léxica en sus últimas obras y 7 lo consiguieron en sus primeras, 65% contra 35%.
De todos modos, es conveniente aclarar que no creemos que la mayor cantidad de vocabulario y/o menor repetición de palabras, sea equivalente a mayor calidad literaria. Son distintos estilos a la hora de escribir, y es muy interesante agregar el factor tiempo a la ecuación.
No podemos obviar de igual manera, porque se observa a simple vista en el gráfico de barras que aparece debajo, que las obras más trascendentales de casi todos los autores de este análisis vieron la luz tempranamente en sus vidas. Pero eso es para otro artículo, uno en el cual las subjetividades reinarán, los números no contarán y la inteligencia artificial no nos servirá…
Gráfico comparativo final
(1960 – 2021)
(1925 – 2014)
(1949 – )
(1951 – )
(1928 – 2012)
(1921 – 2004)
(1932 – )
(1927 – 2014)
(1889 – 1957)
(1948 – )
(1942 – )
(1951 – 2022)
(1899 – 1986)
(1924 – 1996)
(1914 – 1984)
(1920 – 2009)
(1936 – )
(1899 – 1974)
(1947 – )
(1959 – )
Tabla de información completa
Autor ▲ | Libro | Publicado | Edad | Palabras totales | Palabras distintas | Lemas distintos | Diversidad léxica |
---|---|---|---|---|---|---|---|
Almudena Grandes | Las edades de Lulú | 1989 | 29 | 68958 | 9408 | 6776 | 88 |
Almudena Grandes | Todo va a mejorar | 2022 | Póstumo | 152034 | 15306 | 10085 | 88.4 |
Ana María Matute | Los Abel | 1948 | 23 | 61690 | 8560 | 6050 | 88.4 |
Ana María Matute | Paraíso inhabitado | 2008 | 83 | 95134 | 10058 | 7071 | 83.1 |
Ángeles Mastretta | Arráncame la vida | 1985 | 36 | 74750 | 9040 | 6326 | 81.4 |
Ángeles Mastretta | La emoción de las cosas | 2013 | 64 | 57948 | 8461 | 5987 | 83.5 |
Arturo Pérez-Reverte | El húsar | 1986 | 35 | 45480 | 7484 | 5265 | 93.5 |
Arturo Pérez-Reverte | Revolución | 2022 | 71 | 115069 | 13862 | 9084 | 96.8 |
Carlos Fuentes | La región más transparente | 1958 | 30 | 169786 | 22351 | 16032 | 91.5 |
Carlos Fuentes | Federico en su balcón | 2012 | 84 | 65451 | 9461 | 6564 | 81.8 |
Carmen Laforet | Nada | 1945 | 24 | 74637 | 9632 | 6877 | 85.7 |
Carmen Laforet | La insolación | 1963 | 42 | 96718 | 10102 | 6707 | 78.7 |
Elena Poniatowska | Lilus Kikus | 1954 | 22 | 7838 | 2420 | 1842 | 86 |
Elena Poniatowska | Dos veces única | 2015 | 83 | 95235 | 12861 | 9762 | 92.1 |
Gabriel García Márquez | Cien años de soledad | 1967 | 40 | 137785 | 15353 | 10405 | 90.6 |
Gabriel García Márquez | Memorias de mis putas tristes | 2004 | 77 | 23990 | 5172 | 4044 | 91.7 |
Gabriela Mistral | Desolación | 1922 | 33 | 31128 | 5750 | 4216 | 86.6 |
Gabriela Mistral | Lagar | 1954 | 65 | 8847 | 2612 | 2022 | 90 |
Gioconda Belli | La mujer habitada | 1988 | 40 | 118590 | 14464 | 9692 | 89.5 |
Gioconda Belli | El intenso calor de la luna | 2015 | 67 | 67464 | 10281 | 7322 | 89.6 |
Isabel Allende | La Casa de los Espíritus | 1982 | 40 | 165627 | 17350 | 11374 | 92.5 |
Isabel Allende | Largo pétalo de mar | 2019 | 77 | 98240 | 13212 | 9008 | 94.2 |
Javier Marías | Los dominios del lobo | 1971 | 20 | 70494 | 7978 | 5680 | 78.1 |
Javier Marías | Tomás Nevinson | 2021 | 70 | 177062 | 20074 | 13710 | 91.7 |
Jorge Luis Borges | Ficciones | 1944 | 45 | 41409 | 9040 | 6805 | 96.4 |
Jorge Luis Borges | El libro de arena | 1975 | 76 | 25415 | 5756 | 4436 | 91.8 |
José Donoso | Coronación | 1957 | 33 | 77317 | 10680 | 7489 | 86.1 |
José Donoso | El mocho | 1997 | Póstumo | 43788 | 7893 | 5719 | 85.3 |
Julio Cortázar | Bestiario | 1951 | 37 | 31988 | 6249 | 4562 | 84.8 |
Julio Cortázar | Deshoras | 1982 | 68 | 42426 | 6553 | 4749 | 78.1 |
Mario Benedetti | La tregua | 1960 | 40 | 51090 | 7673 | 5631 | 84.1 |
Mario Benedetti | Andamios | 1996 | 76 | 71117 | 12358 | 9255 | 92 |
Mario Vargas Llosa | La ciudad y los perros | 1963 | 27 | 126877 | 13003 | 8677 | 82.5 |
Mario Vargas Llosa | Tiempos recios | 2019 | 83 | 94211 | 12112 | 8309 | 88.7 |
Miguel Asturias | Hombres de maíz | 1949 | 50 | 109931 | 14099 | 10045 | 85.9 |
Miguel Asturias | Maladrón | 1969 | 70 | 67005 | 11438 | 8315 | 93.2 |
Paulo Coelho | El alquimista | 1988 | 41 | 37957 | 4795 | 3099 | 73.8 |
Paulo Coelho | La espía | 2016 | 69 | 29889 | 5568 | 3881 | 86.9 |
Zoé Valdés | Te di la vida entera | 1996 | 37 | 83882 | 15338 | 11036 | 98.4 |
Zoé Valdés | La mujer que llora | 2013 | 54 | 89017 | 14079 | 9752 | 93.4 |
Acerca de
Julián Yanover es desarrollador web desde hace más de 20 años y es el director de Definicion.de
Definicion.de es un sitio web de carácter enciclopédico, con un enfoque especial en las palabras de nuestro idioma desde su origen en el año 2008.
Con más de 15 años de trabajo, definicion.de sigue ampliando sus contenidos para brindar a sus usuarios información objetiva y de calidad. Conoce más sobre nosotros.