Tesis de maestría

Estrategia para Extracción de Datos de Múltiples Fuentes Semi-Estructuradas-Edición Única

Loading...
Thumbnail Image

Citation

View formats

Share

Bibliographic managers

Abstract

En la época actual, se vive una época donde una de las fuentes de información más importante es el World Wide Web, donde el formato primordial para documentos de información es el lenguaje HTML, que despliega información, que en ocasiones se requiere almacenar en un medio digital como una base de datos. De esta fuente de información en ocasiones se desea extraer información de los documentos HTML existentes en el World Wide Web, para almacenar esa información en una base de datos para usarla en explotación de datos para distintas aplicaciones futuras, pero en los documentos no se encuentra esa estructura. Es por ello que el presente trabajo de tesis, presenta una serie de pasos para extraer datos de documentos HTML referentes a un área de conocimiento, donde estos pasos pueden aplicarse en distintos documentos que traten la misma área de conocimiento. Para ello, se analizó la forma de detectar elementos de datos en documentos HTML, y distinguirlos de aquellos que describen la forma de presentarlos, para alimentar una base de datos, reduciendo el tiempo de alimentación de la misma. La información extraída puede utilizarse para aplicaciones de minería de datos para detectar o predecir tendencias. Tomando lo anterior como base para la elaboración del producto final, una estrategia para extracción de datos expuesta en esta tesis.

Collections

Loading...

Document viewer

Select a file to preview:
Reload

logo

El usuario tiene la obligación de utilizar los servicios y contenidos proporcionados por la Universidad, en particular, los impresos y recursos electrónicos, de conformidad con la legislación vigente y los principios de buena fe y en general usos aceptados, sin contravenir con su realización el orden público, especialmente, en el caso en que, para el adecuado desempeño de su actividad, necesita reproducir, distribuir, comunicar y/o poner a disposición, fragmentos de obras impresas o susceptibles de estar en formato analógico o digital, ya sea en soporte papel o electrónico. Ley 23/2006, de 7 de julio, por la que se modifica el texto revisado de la Ley de Propiedad Intelectual, aprobado

Licencia