Estrategia para Extracción de Datos de Múltiples Fuentes Semi-Estructuradas-Edición Única

Rivera Pernía, Juan Fernando

Estrategia para Extracción de Datos de Múltiples Fuentes Semi-Estructuradas-Edición Única

dc.contributor.advisor	Lavariega Jarquín, Juan Carlos
dc.contributor.committeemember	Jiménez Pérez, Guillermo
dc.contributor.committeemember	Gómez Martínez, Lorena Guadalupe
dc.contributor.department	ITESM-Campus Monterrey	en
dc.contributor.mentor	Dieck Assad, Graciano
dc.creator	Rivera Pernía, Juan Fernando
dc.date.accessioned	2015-08-17T09:42:12Z	en
dc.date.available	2015-08-17T09:42:12Z	en
dc.date.issued	2006-12-01
dc.description.abstract	En la época actual, se vive una época donde una de las fuentes de información más importante es el World Wide Web, donde el formato primordial para documentos de información es el lenguaje HTML, que despliega información, que en ocasiones se requiere almacenar en un medio digital como una base de datos. De esta fuente de información en ocasiones se desea extraer información de los documentos HTML existentes en el World Wide Web, para almacenar esa información en una base de datos para usarla en explotación de datos para distintas aplicaciones futuras, pero en los documentos no se encuentra esa estructura. Es por ello que el presente trabajo de tesis, presenta una serie de pasos para extraer datos de documentos HTML referentes a un área de conocimiento, donde estos pasos pueden aplicarse en distintos documentos que traten la misma área de conocimiento. Para ello, se analizó la forma de detectar elementos de datos en documentos HTML, y distinguirlos de aquellos que describen la forma de presentarlos, para alimentar una base de datos, reduciendo el tiempo de alimentación de la misma. La información extraída puede utilizarse para aplicaciones de minería de datos para detectar o predecir tendencias. Tomando lo anterior como base para la elaboración del producto final, una estrategia para extracción de datos expuesta en esta tesis.
dc.identificator	Campo\|\|7\|\|33\|\|3304\|\|120317
dc.identifier.uri	http://hdl.handle.net/11285/567656	en
dc.language	spa
dc.publisher	Instituto Tecnológico y de Estudios Superiores de Monterrey
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0	*
dc.subject.classification	Area::INGENIERÍA Y TECNOLOGÍA::CIENCIAS TECNOLÓGICAS::TECNOLOGÍA DE LOS ORDENADORES::INFORMÁTICA	es_MX
dc.title	Estrategia para Extracción de Datos de Múltiples Fuentes Semi-Estructuradas-Edición Única	en
dc.type	Tesis de maestría
refterms.dateFOA	2018-03-24T18:20:58Z
refterms.dateFOA	2018-03-24T18:20:58Z

Files

Original bundle

Now showing 1 - 2 of 2

Name:: DocsTec_4922.pdf
Size:: 8.38 MB
Format:: Adobe Portable Document Format

Download

Name:: DocsTec_4922_1.pdf
Size:: 76.91 KB
Format:: Adobe Portable Document Format

Request a copy

Collections

Ciencias Exactas y Ciencias de la Salud