Se considera que la prensa desempeña un papel social fundamental, ya que modela la
opinión pública reproduciendo o resistiendo discursos de desigualdad (van Dijk 1991). El
análisis de ideologías en el discurso de noticias periodísticas cuenta de una larga tradición,
sin embargo, solo recientemente los lingüistas han empezado a utilizar corpus de gran
tamaño y metodologías de lingüística de corpus para el estudio de estas. Ejemplos de ello
son Baker et al. (2008, 2013) sobre la representación del islam y los musulmanes en el
Reino Unido, Potts et al. (2015) sobre el huracán Katrina, y en España Fuster-Márquez y
Gregori-Signes (2019) sobre el turismo y la turismofobia en la prensa española, o
Santaemilia-Ruiz y Maruenda-Bataller (2011, 2013, 2014) sobre la violencia de género.
Este trabajo describe el proceso llevado a cabo para desarrollar un corpus de noticias
periodísticas de gran tamaño en inglés, español y catalán en torno a género y desigualdad
social en la prensa digital, que cuenta (por ahora) con 80.000 textos y 70 millones de
palabras. Forma parte del proyecto NEWSGEN de la Universidad de València que tiene
el objetivo de documentar e investigar la evolución histórica y el impacto político,
cultural, social e ideológico de los discursos en torno a género y desigualdad social.
Metodológicamente se van a describir las tres fases para la creación de este corpus:
diseño, compilación y anotación. En la fase de diseño se han definido las seed words en
torno a violencia de género y desigualdad social. Para la compilación del corpus se ha
utilizado la base de datos Factiva y posteriormente se han limpiado los textos de datos
irrelevantes y eliminados duplicados. Por último, se han anotado los textos con metadatos
como por ejemplo la fecha, el título y cuerpo del artículo. Se llevará a cabo un análisis
estadístico del corpus y se presentaran casos de estudio que muestran su potencial y
posibles aplicaciones.