Sobre el comportamiento complejo de las palabras relevantes en textos: heterogeneidad espacial y correlaciones de largo alcance.
Loading...
Identifiers
Publication date
Reading date
2024-11-29
Authors
Collaborators
Tutors
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
UMA Editorial
Share
Center
Department/Institute
Abstract
La física estadística de sistemas complejos es un área con múltiples aplicaciones entre las que se encuentra el estudio de las dinámicas del lenguaje escrito. Se conoce que las palabras relevantes de un texto presentan una distribución espacial heterogénea y se concentran en determinadas regiones formando agrupamientos o clusters. La conexión entre clustering y relevancia ha sido usada satisfactoriamente para extraer automáticamente palabras clave sin información previa ni un corpus de referencia
Hemos realizado comparaciones con una medida basada en el cálculo de entropía definiendo métricas adecuadas para la evaluación de detectores de palabras clave, y hemos definido una nueva medida de clustering consecuencia de haber obtenido analíticamente la distribución exacta para las distancias entre apariciones sucesivas de una palabra esperada por azar, válida independientemente de la frecuencia de aparición y de la longitud del texto. En aproximaciones anteriores, se usaba como referencia la distribución geométrica, lo que es cierto sólo asintóticamente. La nueva medida mejora la detección en textos cortos y el estudio de los valores de clustering extremos permite diferenciar entre palabras clave genéricas y específicas
Se conoce que los textos presentan una distribución espacial compleja que da lugar a la existencia de correlaciones de largo alcance. La fuerte auto-atracción de las palabras relevantes hace pensar que las correlaciones se deben a sus palabras clave. Hemos obtenido un vínculo claro entre ambas pudiéndose usar el grado de correlaciones como medida de relevancia. Realizamos un estudio numérico sistemático de las distribuciones de los tiempos de paso de procesos con correlaciones en ley de potencias y proponemos un modelo que reproduce la distribución espacial de una palabra a todas las escalas, su exponente de correlación y su valor de clustering basado en las correlaciones de largo alcance observadas e incorporando un factor de repulsión a escala corta
Description
Bibliographic citation
Collections
Endorsement
Review
Supplemented By
Referenced by
Creative Commons license
Except where otherwised noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 Internacional










