Estrategia para Extracción de Datos de Múltiples Fuentes Semi-Estructuradas-Edición Única
dc.contributor.advisor | Lavariega Jarquín, Juan Carlos | |
dc.contributor.committeemember | Jiménez Pérez, Guillermo | |
dc.contributor.committeemember | Gómez Martínez, Lorena Guadalupe | |
dc.contributor.department | ITESM-Campus Monterrey | en |
dc.contributor.mentor | Dieck Assad, Graciano | |
dc.creator | Rivera Pernía, Juan Fernando | |
dc.date.accessioned | 2015-08-17T09:42:12Z | en |
dc.date.available | 2015-08-17T09:42:12Z | en |
dc.date.issued | 2006-12-01 | |
dc.description.abstract | En la época actual, se vive una época donde una de las fuentes de información más importante es el World Wide Web, donde el formato primordial para documentos de información es el lenguaje HTML, que despliega información, que en ocasiones se requiere almacenar en un medio digital como una base de datos. De esta fuente de información en ocasiones se desea extraer información de los documentos HTML existentes en el World Wide Web, para almacenar esa información en una base de datos para usarla en explotación de datos para distintas aplicaciones futuras, pero en los documentos no se encuentra esa estructura. Es por ello que el presente trabajo de tesis, presenta una serie de pasos para extraer datos de documentos HTML referentes a un área de conocimiento, donde estos pasos pueden aplicarse en distintos documentos que traten la misma área de conocimiento. Para ello, se analizó la forma de detectar elementos de datos en documentos HTML, y distinguirlos de aquellos que describen la forma de presentarlos, para alimentar una base de datos, reduciendo el tiempo de alimentación de la misma. La información extraída puede utilizarse para aplicaciones de minería de datos para detectar o predecir tendencias. Tomando lo anterior como base para la elaboración del producto final, una estrategia para extracción de datos expuesta en esta tesis. | |
dc.identificator | Campo||7||33||3304||120317 | |
dc.identifier.uri | http://hdl.handle.net/11285/567656 | en |
dc.language | spa | |
dc.publisher | Instituto Tecnológico y de Estudios Superiores de Monterrey | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0 | * |
dc.subject.classification | Area::INGENIERÍA Y TECNOLOGÍA::CIENCIAS TECNOLÓGICAS::TECNOLOGÍA DE LOS ORDENADORES::INFORMÁTICA | es_MX |
dc.title | Estrategia para Extracción de Datos de Múltiples Fuentes Semi-Estructuradas-Edición Única | en |
dc.type | Tesis de maestría | |
refterms.dateFOA | 2018-03-24T18:20:58Z | |
refterms.dateFOA | 2018-03-24T18:20:58Z |
Files
Original bundle
1 - 2 of 2