Sobre el comportamiento complejo de las palabras relevantes en textos: heterogeneidad espacial y correlaciones de largo alcance.

dc.centroE.T.S.I. Informáticaes_ES
dc.contributor.advisorCarpena-Sánchez, Pedro Juan
dc.contributor.advisorCoronado-Jiménez, Ana Victoria
dc.contributor.authorCarretero-Campos, Concepción
dc.date.accessioned2025-02-05T10:02:36Z
dc.date.available2025-02-05T10:02:36Z
dc.date.created2024
dc.date.issued2025
dc.date.submitted2024-11-29
dc.departamentoFísica Aplicada II
dc.description.abstractLa física estadística de sistemas complejos es un área con múltiples aplicaciones entre las que se encuentra el estudio de las dinámicas del lenguaje escrito. Se conoce que las palabras relevantes de un texto presentan una distribución espacial heterogénea y se concentran en determinadas regiones formando agrupamientos o clusters. La conexión entre clustering y relevancia ha sido usada satisfactoriamente para extraer automáticamente palabras clave sin información previa ni un corpus de referencia Hemos realizado comparaciones con una medida basada en el cálculo de entropía definiendo métricas adecuadas para la evaluación de detectores de palabras clave, y hemos definido una nueva medida de clustering consecuencia de haber obtenido analíticamente la distribución exacta para las distancias entre apariciones sucesivas de una palabra esperada por azar, válida independientemente de la frecuencia de aparición y de la longitud del texto. En aproximaciones anteriores, se usaba como referencia la distribución geométrica, lo que es cierto sólo asintóticamente. La nueva medida mejora la detección en textos cortos y el estudio de los valores de clustering extremos permite diferenciar entre palabras clave genéricas y específicas Se conoce que los textos presentan una distribución espacial compleja que da lugar a la existencia de correlaciones de largo alcance. La fuerte auto-atracción de las palabras relevantes hace pensar que las correlaciones se deben a sus palabras clave. Hemos obtenido un vínculo claro entre ambas pudiéndose usar el grado de correlaciones como medida de relevancia. Realizamos un estudio numérico sistemático de las distribuciones de los tiempos de paso de procesos con correlaciones en ley de potencias y proponemos un modelo que reproduce la distribución espacial de una palabra a todas las escalas, su exponente de correlación y su valor de clustering basado en las correlaciones de largo alcance observadas e incorporando un factor de repulsión a escala cortaes_ES
dc.identifier.urihttps://hdl.handle.net/10630/37711
dc.language.isospaes_ES
dc.publisherUMA Editoriales_ES
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internacional*
dc.rights.accessRightsopen accesses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectTratamiento de textos - Tesis doctoraleses_ES
dc.subject.otherAplicaciones interdisciplinares de la física estadísticaes_ES
dc.subject.otherDetección de palabras clavees_ES
dc.subject.otherCorrelaciones de largo alcancees_ES
dc.subject.otherLingüística cuantitativaes_ES
dc.titleSobre el comportamiento complejo de las palabras relevantes en textos: heterogeneidad espacial y correlaciones de largo alcance.es_ES
dc.typedoctoral thesises_ES
dspace.entity.typePublication
relation.isAdvisorOfPublicationfc66b6b1-80c9-4370-9948-c7066152db7f
relation.isAdvisorOfPublication9ca98553-6549-41ea-9754-de5370241670
relation.isAdvisorOfPublication.latestForDiscoveryfc66b6b1-80c9-4370-9948-c7066152db7f
relation.isAuthorOfPublicationc9182455-7b8b-4157-80fc-61b173d6b228
relation.isAuthorOfPublication.latestForDiscoveryc9182455-7b8b-4157-80fc-61b173d6b228

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
TD_CARRETERO_CAMPOS, Concepción.pdf
Size:
4.86 MB
Format:
Adobe Portable Document Format
Description:

Collections