Un Método de Text Mining para la categorización Fuzzy de documentos

Pavone, Pasquale

Preguntas frecuentes Manual de uso Derechos de autor Contacto/Sugerencias

dc.contributor.advisor	Bolasco, Sergio
dc.contributor.advisor	Jiménez-Berrocal, Manuel
dc.contributor.author	Pavone, Pasquale
dc.contributor.other	Economía Aplicada ( Estadística y Econometría Dept. 15 )	es_ES
dc.date.accessioned	2015-05-11T12:53:29Z
dc.date.available	2015-05-11T12:53:29Z
dc.date.issued	2015
dc.identifier.uri	http://hdl.handle.net/10630/9756
dc.description.abstract	La creciente cantidad de datos textuales que se producen, almacenan y se difunden, debido al uso masivo e intensivo de los medios informáticos, muy especialmente en la actividad económica e institucional, hace necesario la utilización de métodos y algoritmos con capacidad para tratar y analizar datos lingüísticos que comportan imprecisiones, vaguedad y, en parte, incertidumbre. Consecuentemente, el método que desarrollo en mi tesis se implementa mediante la conjunción de procedimientos de lingüística computacional, análisis estadístico de datos textuales, text mining y conjuntos difusos (fuzzy sets). El lenguaje natural es un fenómeno complejo y en constante evolución. El enorme potencial que ofrece la informática ha posibilitado el desarrollo de metodologías, que utilizan herramientas de lingüística computacional y estadística, permiten analizar datos cualitativos de tipo textual. El uso de técnicas automáticas de análisis del texto es por lo tanto necesario en los casos en que la cantidad de información disponible es tal como para no permitir la resolución manual de los problemas de clasificación y de agrupamiento de los datos. De hecho, los Corpus de documentos disponibles para el análisis de los contenidos son siempre más grandes y a menudo uno de los problemas esenciales suele ser la correcta atribución de uno o más de los temas que identifican el contenido de los diversos textos en análisis. En general, en la ausencia de categorías predefinidas por el investigador, se procede a una agrupación de documentos basados en su similitud máxima, lo que permite identificar a posteriori las tematizaciones prevalentes. En la mayoría de los procedimientos de análisis de datos textuales, una clasificación de este tipo conduce a clases disjuntas de documentos, mientras que los temas a menudo tienen elementos o rasgos semánticos comunes. La primera circunstancia conduce a clasificaciones unívocas, el segundo a las clasificaciones del tipo difuso. La idea perseguida en este trabajo experimental es hacer una clasificación disjunta de documentos, utilizando la terminología extraída del corpus, para producir, en una segunda etapa, una categorización difusa. Por ello se propone de pasar de una clasificaciòn no supervisado a una multi-clase supervisada. El corpus elegido para la aplicación del método consta de 3.285 documentos constituidos por los informes de las dos principales guías de restaurantes de Italia: la Guida dei Ristoranti del Gambero Rosso y la Guida delle Osteried’Italia di Slow Food. Los informes consisten en breves descripciones de los restaurantes en los que se enumeran las propuestas de platos y vinos, las particularidades del lugar y de la hospitalidad, así como el tipo de servicio ofrecido. La elección del corpus de análisis se basa en el creciente interés hacia la Gastronomía, convertida en los últimos años en un fenómeno social creciente. En ámbito turistico la gastronomía ha perdido el simple valor complementario, dentro de un viaje, desempeñando un papel determinante en la elección de los destinos turísticos. El turismo, el arte y la cultura se entrelazan cada vez más con la gastronomía, y en los últimos años, el turismo gastronómico ha aumentado en importancia superando las características de elite y convirtirtiéndose en un atractivo del viaje turístico, llegando a ser en muchos casos un recurso fundamental para el desarrollo socio-económico de un territorio. La Gastronomía como pasión elemento de interès, se observa en una variedad de fuentes: desde las investigaciones publicadas sobre el fenómeno de los "Foodies", a los canales temáticos y los programas de televisión específicos cada vez más populares, en revistas como la americana Gastronómica, o desde columnas regulares en los periódicos a las famosas guías de restaurantes (Michelin, Espresso, Gambero Rosso, Slow Food) y desde libros de cocina regional a libros de recetas a menudo bestsellers durante meses en la cima de las listas de ventas. Por lo tanto, tiene un gran interés el estudio del fenómeno social que representa la Gastronomía, tanto desde un punto de vista histórico, sociológico o antropológico, como también desde el punto de vista lingüístico, y léxico-textual por su características de léxico técnico especializado. Las propuestas formuladas en la tesis son el resultado de la investigación llevada a cabo por mí en los últimos siete años en el Departamento MEMOTEF (Metodi e Modelli per l’Economia, il Territorio e la Finanza) de la Facultad de Economía de la Universidad "La Sapienza" de Roma y en la Scuola Superiore di Studi Universitari Sant'Anna de Pisa en Estadísticas Sociales. Durante este tiempo, algunas de las cuestiones planteadas en la tesis han sido objeto de publicaciones cientificas presentadas en varias conferencias y congresos internacionales sobre los temas de análisis del contenido. El mètodo expuesto en esta tesis consta de tres etapas: - Lexical Analysis; - Cluster Analysis; - Fuzzy Text Categorization. Las tres etapas del procedimiento se aplican al corpus analizado, mediante el uso de los programas: TaLTaC2 y SPAD 5.0.	es_ES
dc.language.iso	spa	es_ES
dc.publisher	Servicio de Publicaciones y Divulgación Científica	es_ES
dc.rights	info:eu-repo/semantics/openAccess	es_ES
dc.subject	Minería de datos - Tesis doctorales	es_ES
dc.subject.other	Texto Mining	es_ES
dc.subject.other	Categorización Fuzzy De Documentos	es_ES
dc.subject.other	Sintagmas nominales	es_ES
dc.subject.other	Cluster Analysis	es_ES
dc.subject.other	Léxico gastronómico	es_ES
dc.title	Un Método de Text Mining para la categorización Fuzzy de documentos	es_ES
dc.type	info:eu-repo/semantics/doctoralThesis	es_ES
dc.centro	Facultad de Ciencias Económicas y Empresariales	es_ES

Ficheros en el ítem

Nombre:: TD_Pavone_Pasquale.pdf
Tamaño:: 10.47Mb
Formato:: PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

EAEEC - Tesis

Mostrar el registro sencillo del ítem