martes, 7 de agosto de 2007

Text Mining, la próxima frontera

Se calcula que un 80% de la información disponible en Internet se encuentra en formato no estructurado, es decir, en textos del tipo relato.
Cientos de miles de artículos, resúmenes, notas, etc. están disponibles en la web, pero el acceso a ellos se produce de manera bastante básica a partir de la búsqueda de palabras en sus contenidos.
Pero que sucede si yo quiero realizar una búsqueda en función de un concepto o idea? Por ejemplo digamos que quiero buscar un artículo en las noticias que hable sobre los “disturbios en el senado”.
Si utilizo un buscador dentro de un sitio de un diario, el mismo responderá con los links a toda información que contenga las palabras “disturbios” y “senado”, pero dejará de lado aquellos artículos que contengan frases del tipo “gresca en la cámara alta” que claramente representa un sinónimo de mi búsqueda.
El futuro de las búsquedas inteligentes se basará en la resolución de “conceptos” y no solo palabras. “Senado” además de una palabra, es un concepto que puede ser nombrado de diferentes maneras (por ej. “Cámara alta”). “Data Mining” es un concepto que va más allá de las palabras “data” y “mining” por separado.
El text mining, es un conjunto de técnicas que permite la realización de dos aplicaciones sumamente interesantes:
(1) Extracción de conceptos a partir de documentos no estructurados
(2) Descubrimiento de patrones en esos conceptos
En la primer aplicación se utilizan técnicas, que de acuerdo al idioma del documento original, harán un análisis lingüístico (sintáctico y semántico) a fin de extraer partes de las frases, rescatando los conceptos principales tratados.
El análisis lingüístico permite distinguir entre conceptos que refieran a nombres, fechas, lugares, acciones, etc.
En la segunda aplicación se utilizan técnicas de data mining más tradicionales como ser, entre otros, el link analysis, donde se buscan patrones que correlacionen los distintos conceptos encontrados.
Veamos un ejemplo de clasificación: supongamos que tenemos ante nosotros un conjunto de artículos y nuestra intención es categorizarlos de manera automática como noticias políticas, policiales, deportivas, relacionadas con el tiempo, etc.
Un modelo de Text Mining será capaz de extraer los conceptos principales de esas noticias y de acuerdo a la correlación (establecida en la fase de entrenamiento del modelo) que haya de esos conceptos con las distintas categorías, definir la categoría que mejor aplica.
Otro ejemplo, de los muchos posibles, es el autotagging, es decir, la generación automática de keywords a partir de un texto no estructurado.
80% es una cantidad muy importante de información. El text mining tiene mucho para decirnos en como explotarla.

Daniel Ferro.