La inteligencia artificial revela los libros con el vocabulario más rico



Comparamos 35 obras en el Día del Libro y del idioma español

Por Julián Yanover
El 23 de abril, conmemorando la muerte de Miguel de Cervantes, se celebra tanto el día internacional del libro como del idioma español. Unimos estos dos festejos en este análisis que revisa el vocabulario de 35 libros en busca de los textos más complejos y accesibles para los lectores.

Con este objetivo en mente, hicimos uso de inteligencia artificial y software de procesamiento del lenguaje natural para desmenuzar cada obra y obtener respuestas.

Compartimos a continuación la metodología y la clasificación final.

Qué analizamos

Hicimos una selección de 35 de los libros más reconocidos en español. Intentamos que haya cierta diversidad, que sean de distintas épocas, y con estilos diferentes. Estos son los autores analizados, por país:

Argentina: Ernesto Sábato, Jorge Luis Borges y Julio Cortázar.

Brasil: Paulo Coelho.

Chile: Gabriela Mistral, Isabel Allende, José Donoso y Roberto Bolaño.

Colombia: Gabriel García Márquez y Laura Restrepo.

Cuba: Alejo Carpentier y Zoé Valdés.

España: Almudena Grandes, Ana María Matute, Ángeles Mastretta, Antonio Machado, Arturo Pérez-Reverte, Gustavo Adolfo Bécquer, Benito Pérez Galdós, Carlos Ruiz Zafón, Carmen Laforet, Miguel de Cervantes, Federico García Lorca, Javier Marías, María Dueñas y Miguel Delibes.

Guatemala: Miguel Ángel Asturias.

México: Carlos Fuentes, Elena Poniatowska, Juan Rulfo y Rosario Castellanos.

Nicaragua: Gioconda Belli.

Perú: Mario Vargas Llosa.

Uruguay: Cristina Peri Rossi y Mario Benedetti.

Cómo lo analizamos

  • Base de datos con 4.731.006 palabras.
  • Software de procesamiento del lenguaje natural (PLN) e inteligencia artificial para registrar y unificar palabras similares vía lematización.
  • Sistema de puntaje propio para homogeneizar criterios y evaluar la diversidad léxica.

Los libros fueron guardados, palabra por palabra, en una base de datos.

Realizamos la lematización de cada palabra, que implica llevar todas las variantes que una palabra puede tener a su lema base. Por ejemplo, comió, comerá y comen se agrupan bajo el lema comer. Esta técnica es una herramienta del procesamiento del lenguaje natural que permite que el resultado final sea más fidedigno al contar solo los lemas y no todas las variantes de una misma palabra.

Base de datos

Un vistazo a la base de datos con más de 4 millones de palabras almacenadas y procesadas

El primer problema que enfrentamos fue que, en libros más extensos, generalmente había más cantidad de palabras únicas, pero un menor porcentaje de estas con respecto al total. Es natural: en un libro de 100.000 palabras abordaremos más vocablos, pero al mismo tiempo habrá más repetición que en uno de 5.000.

La manera de resolverlo fue encontrada en colaboración con la inteligencia artificial.

La IA nos presentó algunas metodologías posibles, como dividir la cantidad de lemas distintos por la raíz cuadrada del total de palabras del libro, o de igual manera dividirlo por su logaritmo. Sin embargo, aunque el cálculo era menos influenciado por la extensión del libro, seguía siendo afectado por el número total de palabras de cada publicación.

También contemplamos la opción de comparar solamente muestras de igual tamaño de cada texto, pero esto dejaba en algunos casos el 90% del libro fuera del análisis.

Finalmente, tomamos el camino de ventanas móviles. Lo que hicimos fue desarrollar un código que analizó la diversidad del lenguaje de cada libro en fragmentos de 1.000 palabras, y tomó el promedio total de variedad de lemas como resultado para cada obra. Así, todo el libro quedó dentro del análisis, y se redujeron al máximo los factores que distorsionaban los números finales.

De este modo, obtuvimos un puntaje de diversidad léxica para cada libro, en una escala del 1 al 100, donde mientras más alto el puntaje, representa más amplitud del lenguaje utilizado.

Clasificación final

El reino de este mundo -
Alejo Carpentier Puntaje 93
29733 palabras
7461 palabras únicas
5770 lemas únicos
Te di la vida entera -
Zoé Valdés Puntaje 89
83882 palabras
15338 palabras únicas
11036 lemas únicos
Ficciones -
Jorge Luis Borges Puntaje 87
41409 palabras
9040 palabras únicas
6805 lemas únicos
El tiempo entre costuras -
María Dueñas Puntaje 86
205335 palabras
20235 palabras únicas
13948 lemas únicos
El húsar -
Arturo Pérez-Reverte Puntaje 85
45480 palabras
7484 palabras únicas
5265 lemas únicos
La Casa de los Espíritus -
Isabel Allende Puntaje 84
165627 palabras
17350 palabras únicas
11374 lemas únicos
Balún Canán -
Rosario Castellanos Puntaje 83
75492 palabras
11990 palabras únicas
8521 lemas únicos
Soledades -
Antonio Machado Puntaje 83
9901 palabras
2642 palabras únicas
2085 lemas únicos
La región más transparente -
Carlos Fuentes Puntaje 83
169786 palabras
22351 palabras únicas
16032 lemas únicos
La nave de los locos -
Cristina Peri Rossi Puntaje 83
54482 palabras
10125 palabras únicas
7175 lemas únicos
Rimas y leyendas -
Gustavo Adolfo Bécquer Puntaje 83
3740 palabras
1350 palabras únicas
1123 lemas únicos
Paseo de la reforma -
Elena Poniatowska Puntaje 82
38059 palabras
7667 palabras únicas
5793 lemas únicos
Cien años de soledad -
Gabriel García Márquez Puntaje 82
137785 palabras
15353 palabras únicas
10405 lemas únicos
La mujer habitada -
Gioconda Belli Puntaje 81
118590 palabras
14464 palabras únicas
9692 lemas únicos
La sombra del viento -
Carlos Ruiz Zafón Puntaje 80
158121 palabras
16493 palabras únicas
11461 lemas únicos
Los Abel -
Ana María Matute Puntaje 80
61690 palabras
8560 palabras únicas
6050 lemas únicos
Poeta en Nueva York -
Federico García Lorca Puntaje 80
12012 palabras
2976 palabras únicas
2255 lemas únicos
Las edades de Lulú -
Almudena Grandes Puntaje 80
68958 palabras
9408 palabras únicas
6776 lemas únicos
Desolación -
Gabriela Mistral Puntaje 78
31128 palabras
5750 palabras únicas
4216 lemas únicos
Coronación -
José Donoso Puntaje 78
77317 palabras
10680 palabras únicas
7489 lemas únicos
Hombres de maíz -
Miguel Asturias Puntaje 78
109931 palabras
14099 palabras únicas
10045 lemas únicos
Marianela -
Benito Pérez Galdós Puntaje 78
50964 palabras
8125 palabras únicas
5873 lemas únicos
Nada -
Carmen Laforet Puntaje 77
74637 palabras
9632 palabras únicas
6877 lemas únicos
Delirio -
Laura Restrepo Puntaje 77
104812 palabras
13664 palabras únicas
10022 lemas únicos
Bestiario -
Julio Cortázar Puntaje 77
31988 palabras
6249 palabras únicas
4562 lemas únicos
El camino -
Miguel Delibes Puntaje 76
50518 palabras
8223 palabras únicas
6009 lemas únicos
La tregua -
Mario Benedetti Puntaje 76
51090 palabras
7673 palabras únicas
5631 lemas únicos
La ciudad y los perros -
Mario Vargas Llosa Puntaje 75
126877 palabras
13003 palabras únicas
8677 lemas únicos
El túnel -
Ernesto Sábato Puntaje 74
31553 palabras
5096 palabras únicas
3697 lemas únicos
Arráncame la vida -
Ángeles Mastretta Puntaje 74
74750 palabras
9040 palabras únicas
6326 lemas únicos
Pedro Páramo -
Juan Rulfo Puntaje 72
33059 palabras
5166 palabras únicas
3666 lemas únicos
Los detectives salvajes -
Roberto Bolaño Puntaje 71
249326 palabras
20161 palabras únicas
14595 lemas únicos
Los dominios del lobo -
Javier Marías Puntaje 71
70494 palabras
7978 palabras únicas
5680 lemas únicos
Don Quijote de la Mancha -
Miguel de Cervantes Puntaje 70
379455 palabras
22319 palabras únicas
15515 lemas únicos
El alquimista -
Paulo Coelho Puntaje 67
37957 palabras
4795 palabras únicas
3099 lemas únicos

Conclusiones

Top 3 libros

Alejo Carpentier se lleva el puntaje más alto con su obra "El reino de este mundo" de 1949. Probablemente la amplitud de su lenguaje esté relacionado con su formación cultural y musical, así como su interés por la historia y la literatura. Además la novela incluye descripciones detalladas de rituales afrocaribeños, prácticas culturales y términos históricos que requieren un lenguaje específico y a menudo técnico.

Zoé Valdés se encuentra en el segundo puesto con "Te di la vida entera" de 1996. Sorprende que tanto el primer y segundo puesto correspondan a dos personas nacidas en Cuba, siendo que ella y Carpentier son los únicos cubanos del listado de 35 escritores.

Borges aparece tercero con "Ficciones" de 1944. El olvidado por la academia sueca completa el podio, pero cada obra listada merece ser leída y disfrutada para ampliar nuestro propio vocabulario.

No parece haber una correlación entre la extensión de la obra, y el puntaje recibido por su variedad de lenguaje. Hay obras muy largas y muy breves, tanto entre las mejores clasificados como las peores.

Lo mismo ocurre con la fecha de publicación, no encontrándose patrones que indiquen que los libros más antiguos o recientes se clasifiquen mejor.

Para un lector novato, probablemente sea una buena opción comenzar con los libros del fondo de la tabla de clasificación e ir paulatinamente hacia arriba, complejizando de a poco la lectura.

 

Tabla interactiva

Clickea en cualquier encabezado de columna y ordena los datos como desees.

Libro Autor Publicado Edad Palabras totales Palabras distintas Lemas distintos Puntaje de vocabulario
Arráncame la vida Ángeles Mastretta 1985 36 74750 9040 6326 74
Balún Canán Rosario Castellanos 1957 32 75492 11990 8521 83
Bestiario Julio Cortázar 1951 37 31988 6249 4562 77
Cien años de soledad Gabriel García Márquez 1967 40 137785 15353 10405 82
Coronación José Donoso 1957 33 77317 10680 7489 78
Delirio Laura Restrepo 2004 54 104812 13664 10022 77
Desolación Gabriela Mistral 1922 33 31128 5750 4216 78
Don Quijote de la Mancha Miguel de Cervantes 1605 58 379455 22319 15515 70
El alquimista Paulo Coelho 1988 41 37957 4795 3099 67
El camino Miguel Delibes 1950 30 50518 8223 6009 76
El húsar Arturo Pérez-Reverte 1986 35 45480 7484 5265 85
El reino de este mundo Alejo Carpentier 1949 45 29733 7461 5770 93
El tiempo entre costuras María Dueñas 2009 45 205335 20235 13948 86
El túnel Ernesto Sábato 1948 37 31553 5096 3697 74
Ficciones Jorge Luis Borges 1944 45 41409 9040 6805 87
Hombres de maíz Miguel Asturias 1949 50 109931 14099 10045 78
La Casa de los Espíritus Isabel Allende 1982 40 165627 17350 11374 84
La ciudad y los perros Mario Vargas Llosa 1963 27 126877 13003 8677 75
La mujer habitada Gioconda Belli 1988 40 118590 14464 9692 81
La nave de los locos Cristina Peri Rossi 1984 43 54482 10125 7175 83
La región más transparente Carlos Fuentes 1958 30 169786 22351 16032 83
La sombra del viento Carlos Ruiz Zafón 2001 37 158121 16493 11461 80
La tregua Mario Benedetti 1960 40 51090 7673 5631 76
Las edades de Lulú Almudena Grandes 1989 29 68958 9408 6776 80
Los Abel Ana María Matute 1948 23 61690 8560 6050 80
Los detectives salvajes Roberto Bolaño 1998 45 249326 20161 14595 71
Los dominios del lobo Javier Marías 1971 20 70494 7978 5680 71
Marianela Benito Pérez Galdós 1878 35 50964 8125 5873 78
Nada Carmen Laforet 1945 24 74637 9632 6877 77
Paseo de la reforma Elena Poniatowska 1996 64 38059 7667 5793 82
Pedro Páramo Juan Rulfo 1955 38 33059 5166 3666 72
Poeta en Nueva York Federico García Lorca 1940 Póstumo 12012 2976 2255 80
Rimas y leyendas Gustavo Adolfo Bécquer 1858 22 3740 1350 1123 83
Soledades Antonio Machado 1903 28 9901 2642 2085 83
Te di la vida entera Zoé Valdés 1996 37 83882 15338 11036 89

Acerca de

Julián Yanover es desarrollador web desde hace más de 20 años y es el director de Definicion.de

Definicion.de es un sitio web de carácter enciclopédico, con un enfoque especial en las palabras de nuestro idioma desde su origen en el año 2008.

Con más de 15 años de trabajo, definicion.de sigue ampliando sus contenidos para brindar a sus usuarios información objetiva y de calidad. Conoce más sobre nosotros.

x