JavaScript is disabled for your browser. Some features of this site may not work without it.

    Listar

    Todo RIUMAComunidades & ColeccionesPor fecha de publicaciónAutoresTítulosMateriasTipo de publicaciónCentrosEsta colecciónPor fecha de publicaciónAutoresTítulosMateriasTipo de publicaciónCentros

    Mi cuenta

    AccederRegistro

    Estadísticas

    Ver Estadísticas de uso

    DE INTERÉS

    Datos de investigaciónReglamento de ciencia abierta de la UMAPolítica de RIUMAPolitica de datos de investigación en RIUMASHERPA/RoMEODulcinea
    Preguntas frecuentesManual de usoDerechos de autorContacto/Sugerencias
    Ver ítem 
    •   RIUMA Principal
    • Investigación
    • Arquitectura de Computadores - (AC)
    • AC - Conferencias Científicas
    • Ver ítem
    •   RIUMA Principal
    • Investigación
    • Arquitectura de Computadores - (AC)
    • AC - Conferencias Científicas
    • Ver ítem

    Efficient OpenCL-based concurrent tasks offloading on accelerators

    • Autor
      Lázaro-Muñoz, Antonio J.; Gonzalez-Linares, Jose MariaAutoridad Universidad de Málaga; Gómez-Luna, Juan; Guil-Mata, NicolasAutoridad Universidad de Málaga
    • Fecha
      2017
    • Editorial/Editor
      Procedia Computer Science
    • Palabras clave
      Computación heterogénea
    • Resumen
      Current heterogeneous platforms with CPUs and accelerators have the ability to launch several independent tasks simultaneously, in order to exploit concurrency among them. These tasks typically consist of data transfer commands and kernel computation commands. In this paper we develop a runtime approach to optimize the concurrency between data transfers and kernel computation commands in a multithreaded scenario where each CPU thread offloads tasks to the accelerator. It deploys a heuristic based on a temporal execution model for concurrent tasks. It is able to establish a near-optimal task execution order that significantly reduces the total execution time, including data transfers. Our approach has been evaluated employing five different benchmarks composed of dominant kernel and dominant transfer real tasks. In these experiments our heuristic achieves speedups up to 1.5x in AMD R9 and NVIDIA K20c accelerators and 1.3x in an Intel Xeon Phi (KNC) device.
    • URI
      http://hdl.handle.net/10630/13908
    • Compartir
      RefworksMendeley
    Mostrar el registro completo del ítem
    Ficheros
    ICCS2017.pdf (781.5Kb)
    Colecciones
    • AC - Conferencias Científicas

    Estadísticas

    Ver Estadísticas de uso
    Buscar en Dimension
    REPOSITORIO INSTITUCIONAL UNIVERSIDAD DE MÁLAGA
    REPOSITORIO INSTITUCIONAL UNIVERSIDAD DE MÁLAGA
     

     

    REPOSITORIO INSTITUCIONAL UNIVERSIDAD DE MÁLAGA
    REPOSITORIO INSTITUCIONAL UNIVERSIDAD DE MÁLAGA