Esta tesis presenta una nueva técnica de segmentación espacio-temporal de imágenes para entornos reales. Los meétodos existentes funcionan sólo bajo unas condiciones muy restrictivas que impiden su aplicación a un amplio conjunto de situaciones reales. El objetivo es conseguir un sistema tan resistente como sea posible que funcione para un conjunto amplio de diferentes entornos, sin imponer excesivas restricciones a priori. Además, el sistema debe funcionar en un ordenador personal sin necesidad de hardware específico, por lo que resulta deseable desarrollar un método cuya carga computacional asociada esté acotada por un valor razonable. Desafortunadamente, la mayor parte de las técnicas de segmentación existentes presentaron importantes dificientes al ser aplicadas sobre secuencias capturadas en condiciones de trabajo reales no controladas. Esto ocurría por la complejidad de las escenas o porque dichos metodos partian de una serie de limitaciones que no se suelen cumplir bajo estas condiciones. Algunos algoritmos ofrecieron resultados aceptables a pesar de todo, pero su complejidad, traducida en un elevado tiempo de proceso, resultó excesiva para aplicaciones en tiempo real. El método propuesto se ha desarrollado para evitar estos problemas. Para empezar, no depende de ninguna restricción y trabaja de forma jerárquica para mantener acotado el tiempo de proceso. Consiste en estabilizar adaptativamente estructuras piramidales construidas sobre fotogramas consecutivos de una secuencia para conseguir una segmentación consistente a lo largo de ésta. Cuando la estabilización ha concluido, cada nodo de una estructura cualquiera esta enlazando a una región homogénea de píxeles pertenecientes al fotograma empleado para construirla, pero también a la misma región en fotogramas precedentes. Así, las regiones no solo son consistentes en el espacio, sino también en el tiempo.