Comparamos 35 obras en el Día del Libro y del idioma español
Por Julián Yanover
El 23 de abril, conmemorando la muerte de Miguel de Cervantes, se celebra tanto el día internacional del libro como del idioma español. Unimos estos dos festejos en este análisis que revisa el vocabulario de 35 libros en busca de los textos más complejos y accesibles para los lectores.
Con este objetivo en mente, hicimos uso de inteligencia artificial y software de procesamiento del lenguaje natural para desmenuzar cada obra y obtener respuestas.
Compartimos a continuación la metodología y la clasificación final.
Qué analizamos
Hicimos una selección de 35 de los libros más reconocidos en español. Intentamos que haya cierta diversidad, que sean de distintas épocas, y con estilos diferentes. Estos son los autores analizados, por país:
Argentina: Ernesto Sábato, Jorge Luis Borges y Julio Cortázar.
Brasil: Paulo Coelho.
Chile: Gabriela Mistral, Isabel Allende, José Donoso y Roberto Bolaño.
Colombia: Gabriel García Márquez y Laura Restrepo.
Cuba: Alejo Carpentier y Zoé Valdés.
España: Almudena Grandes, Ana María Matute, Ángeles Mastretta, Antonio Machado, Arturo Pérez-Reverte, Gustavo Adolfo Bécquer, Benito Pérez Galdós, Carlos Ruiz Zafón, Carmen Laforet, Miguel de Cervantes, Federico García Lorca, Javier Marías, María Dueñas y Miguel Delibes.
Guatemala: Miguel Ángel Asturias.
México: Carlos Fuentes, Elena Poniatowska, Juan Rulfo y Rosario Castellanos.
Nicaragua: Gioconda Belli.
Perú: Mario Vargas Llosa.
Uruguay: Cristina Peri Rossi y Mario Benedetti.
Cómo lo analizamos
- Base de datos con 4.731.006 palabras.
- Software de procesamiento del lenguaje natural (PLN) e inteligencia artificial para registrar y unificar palabras similares vía lematización.
- Sistema de puntaje propio para homogeneizar criterios y evaluar la diversidad léxica.
Los libros fueron guardados, palabra por palabra, en una base de datos.
Realizamos la lematización de cada palabra, que implica llevar todas las variantes que una palabra puede tener a su lema base. Por ejemplo, comió, comerá y comen se agrupan bajo el lema comer. Esta técnica es una herramienta del procesamiento del lenguaje natural que permite que el resultado final sea más fidedigno al contar solo los lemas y no todas las variantes de una misma palabra.
El primer problema que enfrentamos fue que, en libros más extensos, generalmente había más cantidad de palabras únicas, pero un menor porcentaje de estas con respecto al total. Es natural: en un libro de 100.000 palabras abordaremos más vocablos, pero al mismo tiempo habrá más repetición que en uno de 5.000.
La manera de resolverlo fue encontrada en colaboración con la inteligencia artificial.
La IA nos presentó algunas metodologías posibles, como dividir la cantidad de lemas distintos por la raíz cuadrada del total de palabras del libro, o de igual manera dividirlo por su logaritmo. Sin embargo, aunque el cálculo era menos influenciado por la extensión del libro, seguía siendo afectado por el número total de palabras de cada publicación.
También contemplamos la opción de comparar solamente muestras de igual tamaño de cada texto, pero esto dejaba en algunos casos el 90% del libro fuera del análisis.
Finalmente, tomamos el camino de ventanas móviles. Lo que hicimos fue desarrollar un código que analizó la diversidad del lenguaje de cada libro en fragmentos de 1.000 palabras, y tomó el promedio total de variedad de lemas como resultado para cada obra. Así, todo el libro quedó dentro del análisis, y se redujeron al máximo los factores que distorsionaban los números finales.
De este modo, obtuvimos un puntaje de diversidad léxica para cada libro, en una escala del 1 al 100, donde mientras más alto el puntaje, representa más amplitud del lenguaje utilizado.
Clasificación final
Conclusiones
Alejo Carpentier se lleva el puntaje más alto con su obra "El reino de este mundo" de 1949. Probablemente la amplitud de su lenguaje esté relacionado con su formación cultural y musical, así como su interés por la historia y la literatura. Además la novela incluye descripciones detalladas de rituales afrocaribeños, prácticas culturales y términos históricos que requieren un lenguaje específico y a menudo técnico.
Zoé Valdés se encuentra en el segundo puesto con "Te di la vida entera" de 1996. Sorprende que tanto el primer y segundo puesto correspondan a dos personas nacidas en Cuba, siendo que ella y Carpentier son los únicos cubanos del listado de 35 escritores.
Borges aparece tercero con "Ficciones" de 1944. El olvidado por la academia sueca completa el podio, pero cada obra listada merece ser leída y disfrutada para ampliar nuestro propio vocabulario.
No parece haber una correlación entre la extensión de la obra, y el puntaje recibido por su variedad de lenguaje. Hay obras muy largas y muy breves, tanto entre las mejores clasificados como las peores.
Lo mismo ocurre con la fecha de publicación, no encontrándose patrones que indiquen que los libros más antiguos o recientes se clasifiquen mejor.
Para un lector novato, probablemente sea una buena opción comenzar con los libros del fondo de la tabla de clasificación e ir paulatinamente hacia arriba, complejizando de a poco la lectura.
Tabla interactiva
Clickea en cualquier encabezado de columna y ordena los datos como desees.
Libro ▲ | Autor | Publicado | Edad | Palabras totales | Palabras distintas | Lemas distintos | Puntaje de vocabulario |
---|---|---|---|---|---|---|---|
Arráncame la vida | Ángeles Mastretta | 1985 | 36 | 74750 | 9040 | 6326 | 74 |
Balún Canán | Rosario Castellanos | 1957 | 32 | 75492 | 11990 | 8521 | 83 |
Bestiario | Julio Cortázar | 1951 | 37 | 31988 | 6249 | 4562 | 77 |
Cien años de soledad | Gabriel García Márquez | 1967 | 40 | 137785 | 15353 | 10405 | 82 |
Coronación | José Donoso | 1957 | 33 | 77317 | 10680 | 7489 | 78 |
Delirio | Laura Restrepo | 2004 | 54 | 104812 | 13664 | 10022 | 77 |
Desolación | Gabriela Mistral | 1922 | 33 | 31128 | 5750 | 4216 | 78 |
Don Quijote de la Mancha | Miguel de Cervantes | 1605 | 58 | 379455 | 22319 | 15515 | 70 |
El alquimista | Paulo Coelho | 1988 | 41 | 37957 | 4795 | 3099 | 67 |
El camino | Miguel Delibes | 1950 | 30 | 50518 | 8223 | 6009 | 76 |
El húsar | Arturo Pérez-Reverte | 1986 | 35 | 45480 | 7484 | 5265 | 85 |
El reino de este mundo | Alejo Carpentier | 1949 | 45 | 29733 | 7461 | 5770 | 93 |
El tiempo entre costuras | María Dueñas | 2009 | 45 | 205335 | 20235 | 13948 | 86 |
El túnel | Ernesto Sábato | 1948 | 37 | 31553 | 5096 | 3697 | 74 |
Ficciones | Jorge Luis Borges | 1944 | 45 | 41409 | 9040 | 6805 | 87 |
Hombres de maíz | Miguel Asturias | 1949 | 50 | 109931 | 14099 | 10045 | 78 |
La Casa de los Espíritus | Isabel Allende | 1982 | 40 | 165627 | 17350 | 11374 | 84 |
La ciudad y los perros | Mario Vargas Llosa | 1963 | 27 | 126877 | 13003 | 8677 | 75 |
La mujer habitada | Gioconda Belli | 1988 | 40 | 118590 | 14464 | 9692 | 81 |
La nave de los locos | Cristina Peri Rossi | 1984 | 43 | 54482 | 10125 | 7175 | 83 |
La región más transparente | Carlos Fuentes | 1958 | 30 | 169786 | 22351 | 16032 | 83 |
La sombra del viento | Carlos Ruiz Zafón | 2001 | 37 | 158121 | 16493 | 11461 | 80 |
La tregua | Mario Benedetti | 1960 | 40 | 51090 | 7673 | 5631 | 76 |
Las edades de Lulú | Almudena Grandes | 1989 | 29 | 68958 | 9408 | 6776 | 80 |
Los Abel | Ana María Matute | 1948 | 23 | 61690 | 8560 | 6050 | 80 |
Los detectives salvajes | Roberto Bolaño | 1998 | 45 | 249326 | 20161 | 14595 | 71 |
Los dominios del lobo | Javier Marías | 1971 | 20 | 70494 | 7978 | 5680 | 71 |
Marianela | Benito Pérez Galdós | 1878 | 35 | 50964 | 8125 | 5873 | 78 |
Nada | Carmen Laforet | 1945 | 24 | 74637 | 9632 | 6877 | 77 |
Paseo de la reforma | Elena Poniatowska | 1996 | 64 | 38059 | 7667 | 5793 | 82 |
Pedro Páramo | Juan Rulfo | 1955 | 38 | 33059 | 5166 | 3666 | 72 |
Poeta en Nueva York | Federico García Lorca | 1940 | Póstumo | 12012 | 2976 | 2255 | 80 |
Rimas y leyendas | Gustavo Adolfo Bécquer | 1858 | 22 | 3740 | 1350 | 1123 | 83 |
Soledades | Antonio Machado | 1903 | 28 | 9901 | 2642 | 2085 | 83 |
Te di la vida entera | Zoé Valdés | 1996 | 37 | 83882 | 15338 | 11036 | 89 |
Acerca de
Julián Yanover es desarrollador web desde hace más de 20 años y es el director de Definicion.de
Definicion.de es un sitio web de carácter enciclopédico, con un enfoque especial en las palabras de nuestro idioma desde su origen en el año 2008.
Con más de 15 años de trabajo, definicion.de sigue ampliando sus contenidos para brindar a sus usuarios información objetiva y de calidad. Conoce más sobre nosotros.