Our results have proven that we have advanced on the state-of-the-art regarding web information extraction proposals, which may help researchers and practitioners extract information from web pages effectively and efficiently. Also, we have advanced the state-of-the-art regarding how to evaluate and compare information extraction proposals so that researchers and practitioners can make informed decisions on which proposal is the most suitable for a particular problem.
En esta investigación se presenta TrLab, una metodología para la extracción de patrones de comportamiento de grandes volúmenes de datos biológicos dependientes del tiempo. Esta metodología incluye el algoritmo TriGen, un algoritmo genético para la búsqueda de triclusters, teniendo en cuenta de forma simultánea, los genes, condiciones experimentales y puntos temporales que lo componen, además de tres medidas de evaluación que conforman el núcleo de dicho algoritmo así como una medida de calidad para los triclusters encontrados.
Todas estas aportaciones estarán integradas en una aplicación con interfaz gráfica que permita su fácil utilización por parte de expertos en el campo de la biología.
Las tres medidas de evaluación desarrolladas son: MSR3D basada en la adaptación a las tres dimensiones del Residuo Cuadrático Medio, LSL basada en el cálculo de la recta de mínimos cuadrados que mejor ajusta la representación gráfica del tricluster y MSL basada en el cálculo de los ángulos que forman el patrón de comportamiento del tricluster. La medida de calidad se denomina TRIQ y aglutina todos los aspectos que determinan el valor de un tricluster: calidad de correlación, gráfica y biológica.
Al abordar este nuevo tipo de contenido, hay que comprender que las redes sociales nos otorgan la oportunidad de combinar dos aspectos fundamentales que los mensajes contienen: información estructurada con la no estructurada en forma, fundamentalmente, de textos cortos. La información estructurada nos proporciona conocimiento adicional que permite analizar el mensaje y al usuario dentro de un contexto específico de carácter social, temporal y/o espacial. Combinar significativamente ambos tipos de información puede resultar fundamental para un tratamiento efectivo de los mensajes.
En esta memoria de tesis, se explora la hipótesis consistente en que, al integrar el conocimiento proveniente de dos tipos de información de distinta naturaleza (estructurada y no estructurada) existentes en los mensajes de las redes sociales, se pueden resolver, de forma más efectiva y significativa, ciertas tareas relacionadas con el procesamiento de este tipo de contenidos. Para validar dicha hipótesis, se proponen una serie de tareas a resolver, siempre bajo el paradigma de la integración de ambos tipos de información: la recuperación temática de mensajes en redes de microblogging, la normalización de mensajes cortos provenientes de redes sociales, clasificación de opinión sobre los mensajes de éstas redes y la caracterización de grupos de usuarios dentro de un contexto específico.
Cada tarea es tratada de forma individual, proporcionando una formalización para la misma, caracterizando los fenómenos más relevantes, proponiendo uno o varios métodos para abordarla, realizando una evaluación sobre ellos y explorando los resultados de forma consecuente. Las principales aportaciones se resumen en las siguientes propuestas: un método dinámico y adaptativo para generar consultas que son consumibles por un sistema de microblogging como Twitter, un sistema de normalización léxica altamente modular, un esquema de integración para combinar modelos de características provenientes de información estructurada y no estructurada, y una aproximación indicada para la caracterización de grupos de usuarios de las redes dentro de un contexto específico.
La presente tesis presenta un nuevo algoritmo de biclustering que permite el estudio de distintos criterios de búsqueda. Dicho algoritmo utilize esquema de búsqueda dispersa, o scatter search, que independiza el mecanismo de búsqueda del criterio empleado.
Se han estudiado tres criterios de búsqueda diferentes que motivan las tres principales aportaciones de la tesis. En primer lugar se estudia la correlación lineal entre los genes, que se integra como parte de la función objetivo empleada por el algoritmo de biclustering. La correlación lineal permite encontrar biclusters con patrones de desplazamiento y escalado, lo que mejora propuestas anteriores. En segundo lugar, y motivado por el significado biológico de los patrones de activación-inhibición entre genes, se modifica la correlación lineal de manera que se contemplen estos patrones. Por último, se ha tenido en cuenta la información disponible sobre genes en repositorios públicos, como la ontología de genes GO, y se incorpora dicha información como parte del criterio de búsqueda. Se añade un término extra que refleja, por cada bicluster que se evalúe, la calidad de ese grupo de genes según su información almacenada en GO. Se estudian dos posibilidades para dicho término de integración de información biológica, se comparan entre sí y se comprueba que los resultados son mejores cuando se usa información biológica en el algoritmo de biclustering.
En esta tesis, partimos de la conjetura de que las técnicas de modelado y análisis de la variabilidad pueden ayudar a asistir el proceso de configuración de estos servicios altamente configurables. Estas técnicas ya han sido empleadas previamente con éxito para configurar sistemas software. Sin embargo, dichas técnicas tienen limitaciones en ciertos aspectos. Por un lado, las técnicas de modelado no son capaces de describir de forma precisa ni el servicio ni las preferencias de los usuarios sobre él. Por otro lado, las técnicas de análisis presentan algunas carencias a la hora de buscar la mejor configuración, especialmente en escenarios donde existen múltiples usuarios.
En este trabajo presentamos dos contribuciones principales. En primer lugar, proponemos un nuevo tipo de modelo, llamado Configurable Service Model, que está basado en los modelos de variabilidad actuales, con el objetivo de paliar sus carencias a la hora de asistir el proceso de configuración. Para ello, dotamos a estos modelos de mecanismos para describir de una forma rigurosa y sucinta servicios altamente configurables. Adicionalmente, incorporamos mecanismos para que los usuarios puedan definir sus necesidades en términos de requisitos y preferencias. En segundo lugar, presentamos un soporte automático para evaluar las distintas alternativas de configuración de un servicio. Para ellos, describimos un catalogo de operaciones inspirado en las técnicas de análisis automatizado de la variabilidad, que permite al proveedor detectar anomalías en su oferta, y al usuario identificar cuál es la configuración m´as adecuada a sus necesidades. En este punto, cobran especial relevancia los procesos de configuración donde intervienen múltiples usuarios, puesto que a ´un son un desaf´ıo a resolver por las técnicas actuales. En este sentido, proponemos interpretar este tipo de configuración mediante la teoría de juegos, dando lugar a una nueva operación para identificar configuraciones que satisfagan las necesidades de múltiples usuarios.
Los resultados de nuestra propuesta son esperanzadores. Por un lado, nuestra propuesta de modelado cuenta con la expresividad y sucintez suficiente como para describir espacios de configuración reales, como el de Amazon EC2. Por otro lado, demostramos que las operaciones de an´alisis propuestas son capaces encontrar configuraciones satisfactorias con un tiempo de ejecución insignificante. Incluso en determinados casos, las configuraciones resultantes mejoran los resultados ofrecidos por aplicaciones comerciales.
© 2024 ETSII