PARS-Mitteilungen 2014
Nutzen Sie die Buttons unter "Auflistung nach", um die Beiträge z.B. nach Beitragsart oder Session zu sortieren oder starten Sie direkt mit der Titelübersicht.
Sie können aber auch die komplette PARS-Mitteilungen 2014 als PDF-Datei laden.
Auflistung PARS-Mitteilungen 2014 nach Titel
1 - 10 von 19
Treffer pro Seite
Sortieroptionen
- ZeitschriftenartikelAn Architecture Framework for Porting Applications to FPGAs(PARS-Mitteilungen: Vol. 31, Nr. 1, 2014) Nowak, Fabian; Bromberger, Michael; Karl, WolfgangHigh-level language converters help creating FPGAbased accelerators and allow to rapidly come up with a working prototype. But the generated state machines do often not perform as optimal as hand-designed control units, and they require much area. Also, the created deep pipelines are not very efficient for small amounts of data. Our approach is an architecture framework of hand-coded building blocks (BBs). A microprogrammable control unit allows programming the BBs to perform computations in a data-flow style. We accelerate applications further by executing independent tasks in parallel on different BBs. Our microprogram implementation for the Conjugate-Gradient method on our data-driven, microprogrammable, task-parallel architecture framework on the Convey HC-1 is competitive with a 24-thread Intel Westmere system. It is 1.2× faster using only one out of four available FPGAs, thereby proving its potential for accelerating numerical applications. Moreover, we show that hardware developers can change the BBs and thereby reduce iteration count of a numerical algorithm like the ConjugateGradient method to less than 0.5× due to more precise operations inside the BBs, speeding up execution time 2.47×.
- ZeitschriftenartikelAutomatisierte Ressourcenbedarfsschätzung für Simulationsexperimente in der Cloud(PARS-Mitteilungen: Vol. 31, Nr. 1, 2014) Schneider, AndréMit Hilfe von Grid und Cloud Computing eröffnen sich heute vollkommen neue Möglichkeiten, komplexe, ressourcenintensive Berechnungen auszuführen. Skalierbarkeit und Elastizität spielen hierbei eine Schlüsselrolle. Die mit den Grids und Clouds gewonnene Flexibilität hat jedoch auch einen Preis. Während sich ein Anwender bei der Nutzung der eigenen, lokal installierten Infrastruktur keine oder wenige Gedanken über die Kosten für eine CPU-Stunde machen musste, wird bei kommerziellen Cloud-Anbietern jede in Anspruch genommene Ressource wie CPU, Speicher und Netzwerkbandbreite für den Zeitraum der Nutzung konsequent abgerechnet. Im vorliegenden Beitrag wird ein Ansatz vorgestellt, der für Simulationsexperimente auf Cluster-, Gridund Cloud-Infrastrukturen den Ressourcenbedarf vorab automatisiert abschätzt. Der Anwender bekommt auf diese Weise beispielsweise eine Vorstellung von den zu erwartenden Bearbeitungszeiten und den dafür anfallenden Kosten. Die Ressourcenabschätzung wurde für das Framework GridWorker implementiert und mit Anwendungsbeispielen aus dem Systementwurf evaluiert.
- ZeitschriftenartikelEin Cloud-basierter Workflow für die effektive Fehlerdiagnose von Loop-Back-Strukturen(PARS-Mitteilungen: Vol. 31, Nr. 1, 2014) Gulbins, Matthias; Schneider, André; Rülke, SteffenEine hochkomplexe und zeitaufwändige Aufgabe beim Entwurf integrierter Mixed-Signal-Schaltkreise ist die Fehlerdiagnose. Der vorliegende Beitrag stellt einen auf Cloud-Technologien basierenden Lösungsansatz vor, der Fehler in für solche Schaltkreise typischen Strukturen aus Analog-Digitalund Digital-Analog-Wandlern lokalisiert. Das Diagnoseverfahren (Ergebnis des BMBF-Projektes DIANA) beruht auf dem sogenannten Loop-Back-Test, der zwar die Generierung von Testdaten vereinfacht, aber eine Vielzahl von Variantensimulationen mit verschiedenen Simulationsprinzipien und erheblichen Datenmengen erfordert. Diese sollen nunmehr problemangepasst und damit effizient in der Cloud realisiert werden. Für die entsprechende Informationsverarbeitung in der Cloud wurde das in dem Projekte OptiNum-Grid entwickelte Framework GridWorker adaptiert. Experimente mit ersten Anwendungsbeispielen bestätigen die Leistungsfähigkeit und Praktikabilität des Ansatzes für datenund verarbeitungsintensive Schaltkreisentwurfsaufgaben.
- ZeitschriftenartikelCloud4health – On effective ways to deal with sensitive patient data in a secure Cloud environment(PARS-Mitteilungen: Vol. 31, Nr. 1, 2014) Claus, Steffen; Schwichtenberg, Horst; Laufer, Julian; Berger, FlorianThe cloud4health project researches secondary analysis of clinical patient data, such as surgeryand discharge-reports in a secure and trusted Cloud infrastructure. Given the data’s sensitive nature, a main emphasis rests on guaranteeing its confidentiality during the course of the analysis. The paper outlines infrastructure developments of the first year of the cloud4health project and highlights requirements towards a secure Cloud environment. The first solution architecture is sketched and the lifecycle of data processing is presented.
- ZeitschriftenartikelA comparison of CUDA and OpenACC: Accelerating the Tsunami Simulation EasyWave(PARS-Mitteilungen: Vol. 31, Nr. 1, 2014) Christgau, Steffen; Spazier, Johannes; Schnor, Bettina; Hammitzsch, Martin; Babeyko, Andrey; Wächter, JoachimThis paper presents an GPU accelerated version of the tsunami simulation EasyWave. Using two different GPU generations (Nvidia Tesla and Fermi) different optimization techniques were applied to the application following the principle of locality. Their performance impact was analyzed for both hardware generations. The Fermi GPU not only has more cores, but also possesses a L2 cache shared by all streaming multiprocessors. It is revealed that even the most tuned code on the Tesla does not reach the performance of the unoptimized code on the Fermi GPU. Further, a comparison between CUDA and OpenACC shows that the platform independent approach does not reach the speed of the native CUDA code. A deeper analysis shows that memory access patterns have a critical impact on the compute kernels’ performance, although this seems to be caused by the compiler in use.
- ZeitschriftenartikelEvaluating the Energy Efficiency of Reconfigurable Computing Toward Heterogeneous Multi-Core Computing(PARS-Mitteilungen: Vol. 31, Nr. 1, 2014) Nowak, FabianFuture exascale systems need to have a much better performance-to-power ratio than today’s systems. Accelerators are a promising approach to pave this path by more energy-efficient computing. We show some early results of our investigations toward energy efficiency of reconfigurable and heterogeneous computing against multi-core processors for special applications. The results are supported by a general framework and toolchain for early evaluation of potential benefits of reconfigurable hardware. As a result, heterogeneous systems based on reconfigurable hardware, efficient data exchange mechanisms, data-driven and component-based programming, and task-parallel execution can help achieve power-efficient exascale systems in future.
- ZeitschriftenartikelEvaluation of Adaptive Memory Management Techniques on the Tilera TILE-Gx Platform(PARS-Mitteilungen: Vol. 31, Nr. 1, 2014) Fleig, Tobias; Mattes, Oliver; Karl, WolfgangManycore processor systems are likely to be the future system structure, and even within range for usage in desktop or mobile systems. Up to now, manycore processors like Intel SCC, Tilera TILE or KALRAY’s MPPA are primarily intended to use for high performance applications, utilizing several cores with direct inter-core communication to avoid access to external memory. The spreading of these manycore systems brings up new application scenarios with multiple concurrently running high-dynamic applications, changing I/O characteristics and a not predictable memory usage. Highly dynamic workloads with varying memory usage have to be utilized. In this paper the memory management of various manycore platforms is addressed. In more detail the Tilera TILE-Gx platform will be explained, presenting results of own evaluations accessing its memory system. Based on that, the concept of the autonomous self-optimizing memory architecture Self-aware Memory (SaM) exemplarily was implemented as a software layer on the Tilera platform. The results show that adaptive memory management techniques can be realized without much management overhead, in return achieving higher flexibility and and simple usage of memory in future system architectures.
- ZeitschriftenartikelExperimental Generation of Configurable Circuits for Rotationally Symmetric Functions(PARS-Mitteilungen: Vol. 31, Nr. 1, 2014) Doering, Andreas C.With increasing one-time costs for the production of integrated circuits, the drive to integration of configurable circuits together with standard processor cores and interface will increase. So far, either established FPGA fabrics (e.g. Xilinx ZYNQ family) have been used or the configurable units were custom designed for a very specific function (e.g. PowerEN EFSM – TBD). It is therefore of interest to investigate the structures and algorithms for configurable circuits for a well-defined set of functions. As a first step, this paper investigates the class of functions which are invariant under cyclic shifts of their input vectors.
- ZeitschriftenartikelFPGAs in der Cloud: Integration und Bereitstellung von rekonfigurierbaren Hardware-Ressourcen in einer Cloud-Infrastruktur(PARS-Mitteilungen: Vol. 31, Nr. 1, 2014) Knodel, Oliver; Spallek, Rainer G.Cloud-Computing findet eine immer weitere Verbreitung und hat mittlerweile eine große wirtschaftliche Bedeutung. Durch die flexible Bereitstellung von Ressourcen und Diensten kann eine deutliche Kostenersparnis auf Nutzerseite erreicht werden. Die Einsatzgebiete reichen hierbei von einfachen Web-Technologien und Datenspeichern über komplexe Geschäftsprozesse bis hin zu datenintensiven wissenschaftlichen Anwendungen. Auch im Bereich von Systementwurf und -analyse gewinnt die Auslagerung komplexer Syntheseund Simulationsprozesse in eine Cloud zunehmend an Bedeutung. Insbesondere beim Entwurf von Anwendungen für die immer größer werdenden programmierbaren Schaltkreise werden leistungsfähige Syntheseund Simulationssysteme benötigt. Neben der einfachen Auslagerung von Synthese und Simulation ist in vielen Fällen auch der Test auf einer realen Hardware, wie einem FPGA, von großer Bedeutung. Die Investitionskosten für FPGAs als Plattform für Prototypen, welche zum Teil nur über einen kurzen Zeitraum genutzt werden, werden durch eine Integration dieser Komponenten in eine Cloud vermieden. Dieser Beitrag erläutert, wie rekonfigurierbare Schaltkreise in eine Cloud-Infrastruktur eingebettet werden können, um die Ressource FPGA als Service bereitstellen zu können und somit den gesamten zum Test auf der realen Hardware als on-demand Dienst den FPGA als Hardwarebeschleuniger einzusetzen. Eine wesentlicher Bestandteil dieses Beitrages.
- ZeitschriftenartikelHybrid parallelization of a seeded region growing segmentation of brain images for a GPU cluster(PARS-Mitteilungen: Vol. 31, Nr. 1, 2014) Westhoff, Anna M.The introduction of novel imaging technologies always carries new challenges regarding the processing of the captured images. Polarized Light Imaging (PLI) is such a new technique. It enables the mapping of single nerve fibers in postmortem human brains in unprecedented detail. Due to the very high resolution at sub-millimeter scale, an immense amount of image data has to be reconstructed three-dimensionally before it can be analyzed. Some of the steps in the reconstruction pipeline require a previous segmentation of the large images. This task of image processing creates black-and-white masks indicating the object and background pixels of the original images. It has turned out that a seeded region growing approach achieves segmentation masks of the desired quality. To be able to process the immense number of images acquired with PLI, the region growing has to be parallelized for a supercomputer. However, the choice of the seeds has to be automated in order to enable a parallel execution. A hybrid parallelization has been applied to the automated seeded region growing to exploit the architecture of a GPU cluster. The hybridity consists of an MPI parallelization and the execution of some well-chosen, data-parallel subtasks on GPUs. This approach achieves a linear speedup behavior so that the runtime can be reduced to a reasonable amount.