Estrategia para Extracción de Datos de Múltiples Fuentes Semi-Estructuradas-Edición Única

dc.contributor.advisorLavariega Jarquín, Juan Carlos
dc.contributor.committeememberJiménez Pérez, Guillermo
dc.contributor.committeememberGómez Martínez, Lorena Guadalupe
dc.contributor.departmentITESM-Campus Monterreyen
dc.contributor.mentorDieck Assad, Graciano
dc.creatorRivera Pernía, Juan Fernando
dc.date.accessioned2015-08-17T09:42:12Zen
dc.date.available2015-08-17T09:42:12Zen
dc.date.issued2006-12-01
dc.description.abstractEn la época actual, se vive una época donde una de las fuentes de información más importante es el World Wide Web, donde el formato primordial para documentos de información es el lenguaje HTML, que despliega información, que en ocasiones se requiere almacenar en un medio digital como una base de datos. De esta fuente de información en ocasiones se desea extraer información de los documentos HTML existentes en el World Wide Web, para almacenar esa información en una base de datos para usarla en explotación de datos para distintas aplicaciones futuras, pero en los documentos no se encuentra esa estructura. Es por ello que el presente trabajo de tesis, presenta una serie de pasos para extraer datos de documentos HTML referentes a un área de conocimiento, donde estos pasos pueden aplicarse en distintos documentos que traten la misma área de conocimiento. Para ello, se analizó la forma de detectar elementos de datos en documentos HTML, y distinguirlos de aquellos que describen la forma de presentarlos, para alimentar una base de datos, reduciendo el tiempo de alimentación de la misma. La información extraída puede utilizarse para aplicaciones de minería de datos para detectar o predecir tendencias. Tomando lo anterior como base para la elaboración del producto final, una estrategia para extracción de datos expuesta en esta tesis.
dc.identificatorCampo||7||33||3304||120317
dc.identifier.urihttp://hdl.handle.net/11285/567656en
dc.languagespa
dc.publisherInstituto Tecnológico y de Estudios Superiores de Monterrey
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0*
dc.subject.classificationArea::INGENIERÍA Y TECNOLOGÍA::CIENCIAS TECNOLÓGICAS::TECNOLOGÍA DE LOS ORDENADORES::INFORMÁTICAes_MX
dc.titleEstrategia para Extracción de Datos de Múltiples Fuentes Semi-Estructuradas-Edición Únicaen
dc.typeTesis de maestría
refterms.dateFOA2018-03-24T18:20:58Z
refterms.dateFOA2018-03-24T18:20:58Z

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
DocsTec_4922.pdf
Size:
8.38 MB
Format:
Adobe Portable Document Format
Loading...
Thumbnail Image
Name:
DocsTec_4922_1.pdf
Size:
76.91 KB
Format:
Adobe Portable Document Format
logo

El usuario tiene la obligación de utilizar los servicios y contenidos proporcionados por la Universidad, en particular, los impresos y recursos electrónicos, de conformidad con la legislación vigente y los principios de buena fe y en general usos aceptados, sin contravenir con su realización el orden público, especialmente, en el caso en que, para el adecuado desempeño de su actividad, necesita reproducir, distribuir, comunicar y/o poner a disposición, fragmentos de obras impresas o susceptibles de estar en formato analógico o digital, ya sea en soporte papel o electrónico. Ley 23/2006, de 7 de julio, por la que se modifica el texto revisado de la Ley de Propiedad Intelectual, aprobado

DSpace software copyright © 2002-2025

Licencia