Sunday 1 January 2017

Moving Average Funken

Gleitender Durchschnitt ist ein heikles Problem für Spark und jedes verteilte System. Wenn die Daten über mehrere Computer verteilt werden, gibt es einige Zeitfenster, die Partitionen kreuzen. Wir müssen die Daten zu Beginn der Partitionen duplizieren, sodass die Berechnung des gleitenden Durchschnitts pro Partition eine vollständige Abdeckung ergibt. Hier ist ein Weg, dies zu tun in Spark. Die Beispieldaten: Ein einfacher Partitionierer, der jede Zeile in die Partition einfügt, die wir durch den Schlüssel spezifizieren: Erstellen Sie die Daten mit dem ersten Fenster - 1 Zeilen, die auf die vorherige Partition kopiert wurden: Berechnen Sie den gleitenden Durchschnitt auf jeder Partition: Wegen der doppelten Segmente Wird dies keine Lücken in der Berichterstattung. Ich habe Echtzeit-Streaming-Daten kommen in Funken und ich möchte eine gleitende durchschnittliche Prognose auf diese Zeitreihe Daten zu tun. Gibt es eine Möglichkeit, dies zu implementieren mit Funken in Java Ive bereits erwähnt. Gist. github samklr 27411098f04fc46dcd05 Revisionen und Apache Spark Moving Average, aber beide diese Codes sind in Scala geschrieben. Da bin ich nicht vertraut mit Scala, Im nicht in der Lage zu beurteilen, wenn Ill finde es nützlich oder sogar konvertieren den Code in Java. Gibt es eine direkte Umsetzung der Prognose in Spark Java am 12. August 15 um 12:44 gefragt


No comments:

Post a Comment