Sobre el comportamiento complejo de las palabras relevantes en textos: heterogeneidad espacial y correlaciones de largo alcance.

Carretero-Campos, Concepción

Sobre el comportamiento complejo de las palabras relevantes en textos: heterogeneidad espacial y correlaciones de largo alcance.

Files

TD_CARRETERO_CAMPOS, Concepción.pdf (4.86 MB)

Identifiers

URI: https://hdl.handle.net/10630/37711

Publication date

2025

Reading date

2024-11-29

Authors

Carretero-Campos, Concepción

Advisors

Carpena-Sánchez, Pedro Juan

Coronado-Jiménez, Ana Victoria

Publisher

UMA Editorial

Metrics

Share

Export

Center

E.T.S.I. Informática

Department/Institute

Física Aplicada II

Keywords

Tratamiento de textos - Tesis doctorales

Abstract

La física estadística de sistemas complejos es un área con múltiples aplicaciones entre las que se encuentra el estudio de las dinámicas del lenguaje escrito. Se conoce que las palabras relevantes de un texto presentan una distribución espacial heterogénea y se concentran en determinadas regiones formando agrupamientos o clusters. La conexión entre clustering y relevancia ha sido usada satisfactoriamente para extraer automáticamente palabras clave sin información previa ni un corpus de referencia Hemos realizado comparaciones con una medida basada en el cálculo de entropía definiendo métricas adecuadas para la evaluación de detectores de palabras clave, y hemos definido una nueva medida de clustering consecuencia de haber obtenido analíticamente la distribución exacta para las distancias entre apariciones sucesivas de una palabra esperada por azar, válida independientemente de la frecuencia de aparición y de la longitud del texto. En aproximaciones anteriores, se usaba como referencia la distribución geométrica, lo que es cierto sólo asintóticamente. La nueva medida mejora la detección en textos cortos y el estudio de los valores de clustering extremos permite diferenciar entre palabras clave genéricas y específicas Se conoce que los textos presentan una distribución espacial compleja que da lugar a la existencia de correlaciones de largo alcance. La fuerte auto-atracción de las palabras relevantes hace pensar que las correlaciones se deben a sus palabras clave. Hemos obtenido un vínculo claro entre ambas pudiéndose usar el grado de correlaciones como medida de relevancia. Realizamos un estudio numérico sistemático de las distribuciones de los tiempos de paso de procesos con correlaciones en ley de potencias y proponemos un modelo que reproduce la distribución espacial de una palabra a todas las escalas, su exponente de correlación y su valor de clustering basado en las correlaciones de largo alcance observadas e incorporando un factor de repulsión a escala corta

Collections

Tesis doctorales

Creative Commons license

Except where otherwised noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 Internacional

Full item page

Sobre el comportamiento complejo de las palabras relevantes en textos: heterogeneidad espacial y correlaciones de largo alcance.

Files

Identifiers

Publication date

Reading date

Authors

Collaborators

Advisors

Tutors

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Metrics

Share

Export

Research Projects

Organizational Units

Journal Issue

Center

Department/Institute

Keywords

Abstract

Description

Bibliographic citation

Collections

Endorsement

Review

Supplemented By

Referenced by

Creative Commons license