El desarrollo de las plataformas de secuenciación de alto rendimiento han supuesto una extraordinaria disminución en tiempo y costes, lo que ha permitido a los expertos disponer fácilmente de las secuencias genómicas de los organismos con que trabajan. El campo de la fitobacteriología no es una excepción, y en la actualidad existe una colección prominente de genomas de bacterias asociadas a plantas en repositorios públicos. En lo que respecta al complejo Pseudomonas syringae, se dispone de más de 50 genomas correspondientes a sendas cepas, aunque sólo de 3 de ellos se conoce la secuencia completa: P. syringae pv. tomato DC3000, patógena de tomate, P. syringae pv. syringae B728a y P. syringae pv. phaseolicola 1448A, patógenas de judía. Recientemente se ha determinado el genoma completo de la cepa P. syringae pv. syringae UMAF0158, agente causal de la necrosis apical del mango (Cazorla et al., 1998). Dado que distintas cepas de P. syringae provocan distintas enfermedades en un amplio rango de huéspedes, el primer objetivo de esta Tesis Doctoral ha sido el análisis bioinformático del genoma de UMAF0158, haciendo énfasis en factores bacterianos potencialmente implicados en su capacidad para infectar plantas de mango. El genoma consta de un cromosoma de 5.8 Mb y un plásmido de 63 Kb, y presenta una alta similitud (91% de las secuencias codificantes predichas) respecto al genoma de B728a. De entre los determinantes genéticos diferenciales que podrían explicar su interacción con mango, destacan el operon mbo de síntesis de mangotoxina (Carrión et al., 2012), un clúster potencialmente implicado en la producción de celulosa, dos sistemas de secreción diferentes de tipos III y VI (T3SS y T6SS, respectivamente) y un repertorio particular de efectores del T3SS. El genoma de UMAF0158 constituye el primero completo que se obtiene de una P. syringae que afecta a plantas leñosas, y este estudio sienta las bases para posteriores análisis experimentales, que permitirán esclarecer los mecanismos bacterianos que explican la capacidad de este patógeno para infectar mango.
Por otro lado, recientemente se ha obtenido el genoma completo de la cepa endofita de olivo Pseudomonas fluorescens PICF7, probada como agente de biocontrol contra la verticilosis, una enfermedad vegetal provocada por el hongo Verticillium dahliae Kleb. (Mercado-Blanco et al., 2004; Prieto y Mercado-Blanco, 2008). El genoma de PICF7 está formado por un cromosoma circular de 6.1 Mb, cuyo análisis bioinformático reveló genes potencialmente implicados en la asociación de dicha cepa con plantas de olivo, como los codificantes de un T3SS y dos T6SS, sideróforos, enzimas detoxificadoras y compuestos volátiles. La identificación de estos factores ayudará a direccionar posteriores estudios funcionales que permitan describir los mecanismos moleculares implicados en el estilo de vida endofítico de PICF7, así como su capacidad de biocontrol.
En paralelo, se han desarrollado dos herramientas bioinformáticas para el análisis de genomas bacterianos en el contexto de las interacciones planta-bacteria. La primera de ellas, llamada T346Hunter, es una aplicación web que permite, dado un genoma bacteriano, identificar genes implicados en la síntesis de los componentes estructurales de los sistemas de secreción T3SS, T4SS y T6SS. La herramienta presenta los resultados mediante un documento HTML intuitivo y fácilmente interpretable, mediante el que el usuario puede “navegar” por las diferentes regiones detectadas y visualizar la localización genómica de los distintos componentes que éstas contienen. Se implementó a su vez una segunda aplicación web, llamada PIFAR (Plant-bacteria Interaction FActors Resource), consistente en un repositorio público de determinantes genéticos bacterianos implicados en interacciones planta-bacteria. Para ello, se realizó una búsqueda pormenorizada en la bibliografía científica con objeto de identificar aquellos productos génicos descritos experimentalmente como implicados en asociaciones bacterianas con plantas huésped. A través de la interfaz de PIFAR, el usuario puede consultar la base de datos, así como descargarla en diferentes formatos. También se incluye un formulario que permite subir nuevos factores para su eventual inclusión en la base de datos, y dispone de una herramienta de anotación para genomas bacterianos de entrada. Dicha herremienta se ejecutó sobre el conjunto de genomas bacterianos completos disponible en el NCBI en Diciembre de 2014, correspondiente a 3.042 cromosomas y 2.200 plásmidos. Los resultados obtenidos son también accesibles desde la interfaz de PIFAR.
Por último, se abarcó el problema de la clasificación de genoma bacterianos. Combinando T346Hunter y PIFAR con el método de aprendizaje automático Random forests (Breiman, 2001), se generó un modelo probabilístico basado en las anotaciones de ambas herramientas sobre una selección de 420 genomas bacterianos. Dicho modelo permite asignar probabilidades de asociación con planta a secuencias de entrada. Su aplicación sobre el conjunto de aproximadamente 9.500 genomas bacterianos almacenados en el NCBI en Diciembre de 2014 ha revelado potenciales asociaciones con plantas de una serie de patógenos bacterianos comúnmente asociados a mamíferos. De entre ellos destacan un conjunto amplio de enterobacterias cuya capacidad para inducir enfermedades en humanos ha sido probada en los últimos años.