Auflistung nach Schlagwort "MapReduce"
1 - 7 von 7
Treffer pro Seite
Sortieroptionen
- KonferenzbeitragComputational Social Choice in the Clouds(Datenbanksysteme für Business, Technologie und Web (BTW 2017) - Workshopband, 2017) Csar, Theresa; Lackner, Martin; Pichler, Reinhard; Sallinger, EmanuelIn the era of big data we are concerned with solving computational problems on huge datasets. To handle huge datasets in cloud systems dedicated programming frameworks are used, among which MapReduce is the most widely employed. It is an important issue in many application areas to design parallel algorithms which can be executed efficiently on cloud systems and can cope with big data. In computational social choice we are concerned with computational questions of joint decision making based on preference data. The question of how to handle huge preference datasets has not yet received much attention. In this report we summarize our recent work on designing and evaluating algorithms for winner determination in huge elections using the MapReduce framework.
- ZeitschriftenartikelDie neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co(HMD Praxis der Wirtschaftsinformatik: Vol. 51, No. 4, 2014) Müller, StefanDurch die immer starker wachsenden Datenberge stößt der klassische Data Warehouse-Ansatz an seine Grenzen, weil er in Punkto Schnelligkeit, Datenvolumen und Auswertungsmöglichkeiten nicht mehr mithalten kann. Neue Big Data-Technologien wie analytische Datenbanken, NoSQL-Datenbanken oder Hadoop versprechen Abhilfe, haben aber einige Nachteile: Während sich analytische Datenbanken nur unzureichend mit anderen Datenquellen integrieren lassen, reichen die Abfragesprachen von NoSQL-Datenbanken nicht an die Möglichkeiten von SQL heran. Die Einführung von Hadoop erfordert wiederum den aufwändigen Aufbau von Knowhow im Unternehmen. Durch eine geschickte Kombination des Data Warehouse-Konzepts mit modernen Big Data-Technologien lassen sich diese Schwierigkeiten überwinden: Die Data Marts, auf die analytische Datenbanken zugreifen, können aus dem Data Warehouse gespeist werden. Die Vorteile von NoSQL lassen sich in den Applikationsdatenbanken nutzen, während die Daten für die Analysen in das Data Warehouse geladen werden, wo die relationalen Datenbanken ihre Stärken ausspielen. Die Ergebnisse von Hadoop-Transaktionen schließlich lassen sich sehr gut in einem Data Warehouse oder in Data Marts ablegen, wo sie einfach über eine Data-Warehouse-Plattform ausgewertet werden können, während die Rohdaten weiterhin bei Hadoop verbleiben. Zudem unterstützt Hadoop auch Werkzeuge fur einen performanten SQL-Zugriff. Der Artikel beschreibt, wie aus altem Data Warehouse-Konzept und modernen Technologien die „neue Realität“ entsteht und illustriert dies an verschiedenen Einsatzszenarien.
- ZeitschriftenartikelEfficient OR Hadoop: Why Not Both?(Datenbank-Spektrum: Vol. 13, No. 1, 2013) Dittrich, Jens; Richter, Stefan; Schuh, StefanIn this article, we give an overview of research related to Big Data processing in Hadoop going on at the Information Systems Group at Saarland University. We discuss how to make Hadoop efficient. We briefly survey three of our projects in this context: Hadoop++, Trojan Layouts, and HAIL.
- ZeitschriftenartikelInkrementelle Neuberechnungen in MapReduce(Datenbank-Spektrum: Vol. 13, No. 1, 2013) Schildgen, Johannes; Jörg, Thomas; Deßloch, StefanDas MapReduce-Programmiermodell ermöglicht die skalierbare Analyse und Transformation großer Datenmengen. Wir stellen das auf MapReduce basierende Marimba-Framework zur einfachen Entwicklung von inkrementellen, selbstwartbaren Programmen vor, welche bei Änderung von Quelldaten eine vollständige Wiederholung des MapReduce-Jobs vermeiden. Marimba wird anhand mehrerer Anwendungen illustriert und durch Leistungsmessungen evaluiert.
- ZeitschriftenartikelIterative Computation of Connected Graph Components with MapReduce(Datenbank-Spektrum: Vol. 14, No. 2, 2014) Kolb, Lars; Sehili, Ziad; Rahm, ErhardThe use of the MapReduce framework for iterative graph algorithms is challenging. To achieve high performance it is critical to limit the amount of intermediate results as well as the number of necessary iterations. We address these issues for the important problem of finding connected components in large graphs. We analyze an existing MapReduce algorithm, CC-MR, and present techniques to improve its performance including a memory-based connection of subgraphs in the map phase. Our evaluation with several large graph datasets shows that the improvements can substantially reduce the amount of generated data by up to a factor of 8.8 and runtime by up to factor of 3.5.
- ZeitschriftenartikelKlassisches Multi-threading versus MapReduce zur Parallelisierung rechenintensiver Tasks in der Amazon Cloud(HMD Praxis der Wirtschaftsinformatik: Vol. 55, No. 2, 2018) Mandl, Peter; Döschl, AlexanderDer vorliegende Beitrag befasst sich mit dem Vergleich von rechenintensiven multi-threaded und MapReduce-Lösungen in einer Amazon Cloud unter Nutzung der Amazon AWS-Dienste EC2 und EMR. Als Fallbeispiel für unsere Experimente wurde ein einfaches, aber rechenintensives Geduldsspiel verwendet. Zur Ermittlung aller Lösungen mit der Brute-Force-Methode mussten 15! Permutationen ermittelt und jeweils auf die Lösungsregeln hin getestet werden. Die Implementierung unserer Experimentierlösung erfolgte in der Programmiersprache Java mit einem einfachen multi-threaded Algorithmus und alternativ mit einem MapReduce-Algorithmus. Die Lösungen wurden in Amazon-EC2/EMR-Clustern auf ihre Leistungsfähigkeit und Skalierbarkeit hin verglichen. Die Hadoop-Verarbeitungszeit skalierte annähernd linear (leicht sublinear). Für die Beurteilung der Skalierbarkeit sollten aber unseren Experimenten zufolge auch die Anzahl an Inputsplits, die Auslastung der Hardware und weitere Aspekte herangezogen werden. Der Vergleich der multi-threaded mit der MapReduce-Lösung unter Amazon EMR (Apache Hadoop) ergab, dass die Verarbeitungszeit gemessen in CPU-Minuten bei MapReduce um mehr als 30 % höher war. This article compares CPU-intensive multi-threaded with MapReduce solutions running in the Amazon Cloud using the AWS services EC2 and EMR. As a case study for our experiments a simple, but compute-intensive puzzle was used. In order to compute all solutions of the puzzle with a brute-force method, 15! permutations had to be calculated and tested against the rules of the puzzle. Java was used to implement our experimental solutions. We used a simple multi-threaded algorithm and a MapReduce algorithm alternatively. We compared our solutions concerning performance and scalability by using an Amazon ECR/EMR cluster. The processing time with Hadoop behaves approximately linear (slightly sublinear). In the assessment of scalability according to our experiments also the number of input splits, the hardware utilization and other aspects should be taken into account. The comparison based on Amazon EMR (Apache Hadoop) shows a 30 percent higher processing time of the MapReduce solution.
- ZeitschriftenartikelParallel Entity Resolution with Dedoop(Datenbank-Spektrum: Vol. 13, No. 1, 2013) Kolb, Lars; Rahm, ErhardWe provide an overview of Dedoop (Deduplication with Hadoop), a new tool for parallel entity resolution (ER) on cloud infrastructures. Dedoop supports a browser-based specification of complex ER strategies and provides a large library of blocking and matching approaches. To simplify the configuration of ER strategies with several similarity metrics, training-based machine learning approaches can be employed with Dedoop. Specified ER strategies are automatically translated into MapReduce jobs for parallel execution on different Hadoop clusters. For improved performance, Dedoop supports redundancy-free multi-pass blocking as well as advanced load balancing approaches. To illustrate the usefulness of Dedoop, we present the results of a comparative evaluation of different ER strategies on a challenging real-world dataset.