El vocablo extractio, del latín medieval, derivó en nuestro idioma en extracción. Este término alude al acto y la consecuencia de extraer: quitar, extirpar, eliminar.
Por ejemplo: «El odontólogo me dijo que, dos horas antes de la extracción de la muela, debo tomar un antibiótico para evitar infecciones», «La extracción de almejas está prohibida ya que se trata de un animal en peligro de extinción», «Los ambientalistas aseguran que la extracción de oro destruirá la montaña y causará daños irreversibles al ecosistema«.
Podemos encontrar distintas clases de extracción en múltiples ámbitos. Cuando una persona se acerca a un cajero automático (ATM), puede realizar una extracción y sacar dinero de su cuenta bancaria, llevándose los billetes que le entrega la máquina.
La extracción de sangre, por otra parte, es un procedimiento que se lleva a cabo en el terreno de la enfermería. Al sacarle sangre a un paciente, se puede analizar la muestra y obtener información valiosa sobre la salud del individuo.
En el contexto de la odontología, la extracción es una cirugía que consiste en la extirpación de una pieza dental o de una parte de ella. En este marco, el odontólogo recurre a cierto instrumental y aplica sus conocimientos y destrezas para lograr el objetivo.
Centrándonos en la informática, la extracción de información es una operación que se desarrolla para recuperar contenidos de una base de datos. El proceso puede concretarse de manera automática si la información se encuentra estructurada.
La extracción de información estructurada o semiestructurada forma parte de las tareas de recuperación, y se lleva a cabo haciendo uso de documentos que puedan ser leídos por el ordenador. Por ejemplo, este proceso tiene lugar cuando se escanean ciertos documentos redactados a mano para interpretar sus datos y llevarlos a una base digital; es decir, debe existir una aplicación que reconozca el texto y lo convierta a información que pueda ser almacenada y editada, en lugar de dejarlo simplemente en formato gráfico.
La forma de los textos varía según el proyecto y las intenciones de quienes llevan a cabo la extracción de información: en algunos casos, se trata de formularios estructurados, que suelen haber sido creados por la propia empresa que intenta extraer la información en ellos presente tras haber sido rellenados por terceros; pero también puede tratarse de textos desestructurados, tales como artículos periodísticos o libros de ficción.
Aquí entra en juego el concepto de lengua natural, el cual hace referencia a una variedad lingüística propia del ser humano que se crea con el objetivo de comunicarse y que se apoya en una sintaxis determinada y cumple con los principios de optimidad y economía del lenguaje. Las fuentes de texto que pueden ser usadas para la extracción de información deben contener mensajes escritos en una lengua de este tipo.
Entre las tareas más comunes de la extracción de información se encuentran las siguientes:
* reconocimiento de nombres: ya sea el nombre de una persona, de una empresa o de un lugar, o incluso de valores monetarios u otras expresiones pertenecientes a categorías predefinidas, la extracción de información sirve para buscarlas y clasificarlas;
* resolución de la correferencia: se trata de la detección de la correferencia entre las entidades de un documento dado, como puede ser la que existe entre el nombre completo de una compañía y su sigla;
* extracción de terminología: en este caso, el proceso consiste en el análisis de un texto para identificar los argumentos semánticos que se vinculan a los verbos, para establecer una clasificación según sus roles. Por ejemplo, en la oración «Marisa compró un PDA a Valeria», se reconoce a «Marisa» como el agente comprador, el «PDA» es el objeto, «compró» es el verbo y «Valeria», el agente vendedor.
En la minería, por último, la extracción es la actividad que permite obtener minerales de un yacimiento para luego explotarlos comercialmente: extracción de cobre, extracción de litio, etc.