JavaScript is disabled for your browser. Some features of this site may not work without it.

    Listar

    Todo RIUMAComunidades & ColeccionesPor fecha de publicaciónAutoresTítulosMateriasTipo de publicaciónCentrosEsta colecciónPor fecha de publicaciónAutoresTítulosMateriasTipo de publicaciónCentros

    Mi cuenta

    AccederRegistro

    Estadísticas

    Ver Estadísticas de uso

    DE INTERÉS

    Datos de investigaciónReglamento de ciencia abierta de la UMAPolítica de RIUMAPolitica de datos de investigación en RIUMASHERPA/RoMEODulcinea
    Preguntas frecuentesManual de usoDerechos de autorContacto/Sugerencias
    Ver ítem 
    •   RIUMA Principal
    • Investigación
    • Economía Aplicada ( Estadística y Econometría) - (EAEEC)
    • EAEEC - Tesis
    • Ver ítem
    •   RIUMA Principal
    • Investigación
    • Economía Aplicada ( Estadística y Econometría) - (EAEEC)
    • EAEEC - Tesis
    • Ver ítem

    Un Método de Text Mining para la categorización Fuzzy de documentos

    • Autor
      Pavone, Pasquale
    • Director/es
      Bolasco, Sergio; Jiménez-Berrocal, ManuelAutoridad Universidad de Málaga
    • Fecha
      2015
    • Editorial/Editor
      Servicio de Publicaciones y Divulgación Científica
    • Departamento
      Economía Aplicada ( Estadística y Econometría Dept. 15 )
    • Palabras clave
      Minería de datos - Tesis doctorales
    • Resumen
      La creciente cantidad de datos textuales que se producen, almacenan y se difunden, debido al uso masivo e intensivo de los medios informáticos, muy especialmente en la actividad económica e institucional, hace necesario la utilización de métodos y algoritmos con capacidad para tratar y analizar datos lingüísticos que comportan imprecisiones, vaguedad y, en parte, incertidumbre. Consecuentemente, el método que desarrollo en mi tesis se implementa mediante la conjunción de procedimientos de lingüística computacional, análisis estadístico de datos textuales, text mining y conjuntos difusos (fuzzy sets). El lenguaje natural es un fenómeno complejo y en constante evolución. El enorme potencial que ofrece la informática ha posibilitado el desarrollo de metodologías, que utilizan herramientas de lingüística computacional y estadística, permiten analizar datos cualitativos de tipo textual. El uso de técnicas automáticas de análisis del texto es por lo tanto necesario en los casos en que la cantidad de información disponible es tal como para no permitir la resolución manual de los problemas de clasificación y de agrupamiento de los datos. De hecho, los Corpus de documentos disponibles para el análisis de los contenidos son siempre más grandes y a menudo uno de los problemas esenciales suele ser la correcta atribución de uno o más de los temas que identifican el contenido de los diversos textos en análisis. En general, en la ausencia de categorías predefinidas por el investigador, se procede a una agrupación de documentos basados en su similitud máxima, lo que permite identificar a posteriori las tematizaciones prevalentes. En la mayoría de los procedimientos de análisis de datos textuales, una clasificación de este tipo conduce a clases disjuntas de documentos, mientras que los temas a menudo tienen elementos o rasgos semánticos comunes. La primera circunstancia conduce a clasificaciones unívocas, el segundo a las clasificaciones del tipo difuso. La idea perseguida en este trabajo experimental es hacer una clasificación disjunta de documentos, utilizando la terminología extraída del corpus, para producir, en una segunda etapa, una categorización difusa. Por ello se propone de pasar de una clasificaciòn no supervisado a una multi-clase supervisada. El corpus elegido para la aplicación del método consta de 3.285 documentos constituidos por los informes de las dos principales guías de restaurantes de Italia: la Guida dei Ristoranti del Gambero Rosso y la Guida delle Osteried’Italia di Slow Food. Los informes consisten en breves descripciones de los restaurantes en los que se enumeran las propuestas de platos y vinos, las particularidades del lugar y de la hospitalidad, así como el tipo de servicio ofrecido. La elección del corpus de análisis se basa en el creciente interés hacia la Gastronomía, convertida en los últimos años en un fenómeno social creciente. En ámbito turistico la gastronomía ha perdido el simple valor complementario, dentro de un viaje, desempeñando un papel determinante en la elección de los destinos turísticos. El turismo, el arte y la cultura se entrelazan cada vez más con la gastronomía, y en los últimos años, el turismo gastronómico ha aumentado en importancia superando las características de elite y convirtirtiéndose en un atractivo del viaje turístico, llegando a ser en muchos casos un recurso fundamental para el desarrollo socio-económico de un territorio. La Gastronomía como pasión elemento de interès, se observa en una variedad de fuentes: desde las investigaciones publicadas sobre el fenómeno de los "Foodies", a los canales temáticos y los programas de televisión específicos cada vez más populares, en revistas como la americana Gastronómica, o desde columnas regulares en los periódicos a las famosas guías de restaurantes (Michelin, Espresso, Gambero Rosso, Slow Food) y desde libros de cocina regional a libros de recetas a menudo bestsellers durante meses en la cima de las listas de ventas. Por lo tanto, tiene un gran interés el estudio del fenómeno social que representa la Gastronomía, tanto desde un punto de vista histórico, sociológico o antropológico, como también desde el punto de vista lingüístico, y léxico-textual por su características de léxico técnico especializado. Las propuestas formuladas en la tesis son el resultado de la investigación llevada a cabo por mí en los últimos siete años en el Departamento MEMOTEF (Metodi e Modelli per l’Economia, il Territorio e la Finanza) de la Facultad de Economía de la Universidad "La Sapienza" de Roma y en la Scuola Superiore di Studi Universitari Sant'Anna de Pisa en Estadísticas Sociales. Durante este tiempo, algunas de las cuestiones planteadas en la tesis han sido objeto de publicaciones cientificas presentadas en varias conferencias y congresos internacionales sobre los temas de análisis del contenido. El mètodo expuesto en esta tesis consta de tres etapas: - Lexical Analysis; - Cluster Analysis; - Fuzzy Text Categorization. Las tres etapas del procedimiento se aplican al corpus analizado, mediante el uso de los programas: TaLTaC2 y SPAD 5.0.
    • URI
      http://hdl.handle.net/10630/9756
    • Compartir
      RefworksMendeley
    Mostrar el registro completo del ítem
    Ficheros
    TD_Pavone_Pasquale.pdf (10.47Mb)
    Colecciones
    • EAEEC - Tesis

    Estadísticas

    Ver Estadísticas de uso
    Buscar en Dimension
    REPOSITORIO INSTITUCIONAL UNIVERSIDAD DE MÁLAGA
    REPOSITORIO INSTITUCIONAL UNIVERSIDAD DE MÁLAGA
     

     

    REPOSITORIO INSTITUCIONAL UNIVERSIDAD DE MÁLAGA
    REPOSITORIO INSTITUCIONAL UNIVERSIDAD DE MÁLAGA