Guardado en:
Detalles Bibliográficos
Autor principal: Sergio G. Jiménez V.
Formato: Artículo científico
Lenguaje:es
Publicado: Universidad Nacional de Colombia 2008
Materias:
Acceso en línea:https://www.redalyc.org/articulo.oa?id=133114993021
Etiquetas: Agregar Etiqueta
Sin Etiquetas, Sea el primero en etiquetar este registro!
_version_ 1866815778296168448
author Sergio G. Jiménez V.
author_facet Sergio G. Jiménez V.
contents Un Sistema de Extracción de Información Basado en Ontologías para Documentos en el Dominio de las Tecnologías de Información Sergio G. Jiménez V. Fabio A. González O. Computación Ontologías Afinidad semántica Gestión del conocimiento Extracción de Información Búsqueda Aproximada de Cadenas Este artículo se presenta un método de extracción de información adaptado a documentos ricos en datos, basado en el conocimiento representado en una ontología de dominio. El extractor combina un buscador aproximado de cadenas de caracteres y un algoritmo para desambiguación automática de sentidos de palabras (WSD). El buscador aproximado de cadenas de caracteres encuentra menciones a los términos combinando medidas de similitud a nivel de carácter y de palabra soportando acrónimos no estandarizados y estilos inconsistentes de abreviación. Proponemos una distancia de edición a nivel de caracteres con sensibilidad a prefijos llamada root distance y un nuevo algoritmo de similitud de cadenas a nivel de palabras para detección automática de acrónimos. Adicionalmente se utilizó una estrategia de WSD usando una medida de afinidad semántica basada en ontologías para resolver la ambigüedad inherente de algunos términos. El modulo de WSD encuentra combinaciones de sentidos para todo el documento optimizando la coherencia semántica del discurso. Nuestro enfoque resulta apropiado para la extracción de información en documentos ricos en datos que describen un solo objeto (i.e. producto) por documento. Los experimentos alcanzaron una precisión del 78,9% con una cobertura del 99.5% utilizando documentos y una ontología relacionada con el dominio de las computadoras portátiles. 2008 artículo científico 1657-7663 https://www.redalyc.org/articulo.oa?id=133114993021 es http://www.redalyc.org/revista.oa?id=1331 Revista Avances en Sistemas e Informática application/pdf Universidad Nacional de Colombia Revista Avances en Sistemas e Informática (Colombia) Num.1 Vol.5
format Artículo científico
id redalyc_133114993021
language es
publishDate 2008
publisher Universidad Nacional de Colombia
spellingShingle Un Sistema de Extracción de Información Basado en Ontologías para Documentos en el Dominio de las Tecnologías de Información
Sergio G. Jiménez V.
Computación
Ontologías
Afinidad semántica
Gestión del conocimiento
Extracción de Información
Búsqueda Aproximada de Cadenas
Un Sistema de Extracción de Información Basado en Ontologías para Documentos en el Dominio de las Tecnologías de Información Sergio G. Jiménez V. Fabio A. González O. Computación Ontologías Afinidad semántica Gestión del conocimiento Extracción de Información Búsqueda Aproximada de Cadenas Este artículo se presenta un método de extracción de información adaptado a documentos ricos en datos, basado en el conocimiento representado en una ontología de dominio. El extractor combina un buscador aproximado de cadenas de caracteres y un algoritmo para desambiguación automática de sentidos de palabras (WSD). El buscador aproximado de cadenas de caracteres encuentra menciones a los términos combinando medidas de similitud a nivel de carácter y de palabra soportando acrónimos no estandarizados y estilos inconsistentes de abreviación. Proponemos una distancia de edición a nivel de caracteres con sensibilidad a prefijos llamada root distance y un nuevo algoritmo de similitud de cadenas a nivel de palabras para detección automática de acrónimos. Adicionalmente se utilizó una estrategia de WSD usando una medida de afinidad semántica basada en ontologías para resolver la ambigüedad inherente de algunos términos. El modulo de WSD encuentra combinaciones de sentidos para todo el documento optimizando la coherencia semántica del discurso. Nuestro enfoque resulta apropiado para la extracción de información en documentos ricos en datos que describen un solo objeto (i.e. producto) por documento. Los experimentos alcanzaron una precisión del 78,9% con una cobertura del 99.5% utilizando documentos y una ontología relacionada con el dominio de las computadoras portátiles. 2008 artículo científico 1657-7663 https://www.redalyc.org/articulo.oa?id=133114993021 es http://www.redalyc.org/revista.oa?id=1331 Revista Avances en Sistemas e Informática application/pdf Universidad Nacional de Colombia Revista Avances en Sistemas e Informática (Colombia) Num.1 Vol.5
title Un Sistema de Extracción de Información Basado en Ontologías para Documentos en el Dominio de las Tecnologías de Información
topic Computación
Ontologías
Afinidad semántica
Gestión del conocimiento
Extracción de Información
Búsqueda Aproximada de Cadenas
url https://www.redalyc.org/articulo.oa?id=133114993021