Proyectos

DAMASCO – Big Data Mining Using Social Content

Big Data (Datos Enormes) es el término para referirse al contexto de integración de información móvil, web, social, en la nube y contextualizada. Esta es información semiestructurada o no estructurada, profundamente heterogénea, proveniente de fuentes diversas usualmente autónomas, creciente de forma exponencial y no manipulable de forma efectiva con herramientas tradicionales de gestión de bases de datos.

La tecnología que la maneja deja de ser transaccional y se crean nuevas tecnologías que permiten su modelaje, almacenamiento, procesamiento, indexación y consulta de datos en gran escala. A nivel de almacenamiento, dicha tecnología se denomina NoSQL de manera general. Se acompaña del uso de infraestructuras de cómputo y almacenamiento en contextos de alta escalabilidad y procesamiento paralelo, estudiados en los contextos de Grid y Cloud Computing. Así mismo, integra técnicas de análisis de contenidos (texto, imágenes, video, documentos, páginas Web, …).

El proyecto busca la comprensión de la tecnología, evaluación de herramientas, planteamiento metodológico de modelaje de las arquitecturas subyacentes y estudio de técnicas de procesamiento bajo criterios de calidad de servicio propias a la gestión de Big Data y de contenidos.

Objetivos:

  • Estudio y divulgación de la tecnología asociada con Big Data
  • Desarrollo de técnicas de análisis de contenidos y generación de valor a través de la gestión de información semiestructurada y no estructurada
  • Aplicación de técnicas de Text Mining, Web Mining, Content Mining para el descubrimiento, recopilación y análisis de información
  • Aplicación de técnicas de aprendizaje automático (Machine Learning, Deep Learning) para la clasificación y comprensión de Big Data.
  • Modelaje de aplicaciones y soluciones basadas en análisis de contenidos
  • Sistemas de recomendación basados en Big Data.

Resultados:

El proyecto ha enmarcado múltiples proyectos de grado, tesis de maestría y de doctorado. Los resultados más importantes se sitúan en los siguientes dominios:

  • Análisis de publicaciones de noticias para realizar enriquecimiento contextual automático.
  • Análisis de información Web para el enriquecimiento semántico y consulta efectiva para público no experto.
  • Framework para la arquitectura de soluciones de Big Data en el ecosistema Hadoop, a partir de los atributos de calidad esperados en una solución altamente escalable.

Participantes:

En el proyecto han participado más de 10 estudiantes. En las últimas etapas, los participantes destacados son:

  • Christian Ariza
  • Julio Mario Sosa
  • Camilo Restrepo
  • Valentina Grajales
  • Daniel Sarmiento