In der Aggregation können Daten auf verschiedene Arten zusammengefasst werden. Dieses Zusammenziehen findet innerhalb der Tabelle statt. Um die Aggregation zu konfigurieren, stehen 6 Tabs zur Verfügung, Basis und ID decken die grundsätzlichen Einstellungen ab, mit den weiteren 4 können Einstellungen für einzelne Attribute (Spalten) überschrieben werden. Damit sind verschiedene Arten der Aggregation innerhalb einer Tabelle möglich.

Zunächst die 3 grundlegenden Arten der Aggregation (Listen, Eindeutige Listen, Häufigkeiten) an einem Beispiel:

Die Ausgangstabelle: CSV herunterladen

ID	Kategorie	Name	Farbe	Alter
1	hund	Bello	schwarz	2
2	hund	Wasti	braun	8
3	katze	Miez	gefleckt	4
4	katze	Mason	schwarz	5
5	esel	Benno	grau	11

Auf dem Tab Basis wird in Default Strategy Listen gewählt, sonst keine weiteren Einstellungen:

ID	Kategorie	Name	Farbe	Alter
1,2,3,4,5	hund,hund,katze,katze,esel	Bello,Wasti,Miez,Mason,Benno	schwarz,braun,gefleckt,schwarz,grau	2,8,4,5,11

Es gibt nur noch einen Datensatz, in den einzelnen Feldern sind die Werte aggregiert/aufeinandergestapelt.

Auf dem Tab Basis wird in Default Strategy Eindeutige Listen gewählt, sonst keine weiteren Einstellungen:

ID	Kategorie	Name	Farbe	Alter
1,2,3,4,5	hund,katze,esel	Bello,Wasti,Miez,Mason,Benno	schwarz,braun,gefleckt,grau	2,8,4,5,11

Wieder gibt es nur noch einen Datensatz, in den einzelnen Feldern sind die Werte aggregiert/aufeinandergestapelt, doppelte Einträge werden entfernt.

Auf dem Tab Basis wird in Default Strategy Häufigkeiten gewählt, sonst keine weiteren Einstellungen:

ID	Kategorie	Name	Farbe	Alter
1:1,2:1,3:1,4:1,5:1	hund:2,katze:2,esel:1	Bello:1,Wasti:1,Miez:1,Mason:1,Benno:1	schwarz:2,braun:1,gefleckt:1,grau:1	2:1,8:1,4:1,5:1,11:1

Es gibt einen Datensatz, doppelte Einträge werden entfernt, den gefundenen Werten wird die Häufigkeit des Auftretens hinzugefügt.

Alles in einen Datensatz zu aggregieren ist zum Veranschaulichen der Strategien geeignet, zwei weitere Beispiele zeigen den Einsatz des Tabs ID und die Verwendung des Tabs Bereiche.

Auf dem Tab Basis wird in Default Strategy Listen gewählt, auf dem Tab ID das Attribut Kategorie nach rechts geschoben:

ID	Kategorie	Name	Farbe	Alter
1,2	hund	Bello,Wasti	schwarz,braun	2,8
3,4	katze	Miez,Mason	gefleckt,schwarz	4,5
5	esel	Benno	grau	11

Diesmal sind 3 Datensätze entstanden, pro Kategorie ein Datensatz mit den aggregierten Werten. Wenn noch zusätzlich auf dem Tab Bereiche das Alter nach rechts geschoben wird, entsteht folgende Tabelle:

ID	Kategorie	Name	Farbe	Alter
1,2	hund	Bello,Wasti	schwarz,braun	max:8,min:2
3,4	katze	Miez,Mason	gefleckt,schwarz	max:5,min:4
5	esel	Benno	grau	max:11,min:11

Wie zu erwarten die 3 Datensätze von vorher, geändert hat sich das Attribut Alter, nun wird jeweils das minimale und maximale ALter innerhalb des Datensatzes angezeigt. Der Tab Bereiche bringt natürlich nur bei numerischen Werten ein sinnvolles Ergebnis.

Nach den Beispielen zur allgemeinen Verwendung einer Aggregation:

Wie gewohnt lässt sich die Operation aus der linken Spalte auf die Arbeitsfläche ziehen.
Danach wird die Aggregation mit den gewünschten Flowelementen verbunden.

Um die Aggregation zu konfigurieren sind folgende Tabs vorhanden:

Basis

Ein aussagekräftiger Name für die Aggregation sollte vergeben werden
Bei ‘Default Strategy’ sind folgende Einstellungen möglich: ⋅⋅* Listen, hier werden alle Daten ohne Änderung zusammengefasst ⋅⋅* Eindeutige Listen, hier werden die Daten einmalig übernommen, doppelte nicht berücksichtigt ⋅⋅* Häufigkeiten verhalten sich wie eindeutige Listen, zusätzlich wird die Häufigkeit des Vorkommens hinzugefügt Die Einstellungen in diesem Tab gelten für die ganze Operation.

ID

Damit wird ein Attribut zur ID erklärt. Es muss mindestens ein ID-Attribut vorhanden sein

Listen

Die Daten werden ohne Änderung zusammengefasst.

Eindeutige Listen

Hier werden die Daten einmalig übernommen, und doppelte nicht berücksichtigt. Um die Anzahl der Dopplungen zu ermitteln wird der Tab Häufigkeiten verwendet.

Häufigkeiten

Im Beispiel werden die Häufigkeiten der Attribute RAM, 4G und Typ zurückgegeben, d.h. die Daten werden einmalig übernommen, bei einem weiteren Auftreten die Häufigkeit hochgezählt.

Bereiche

In diesem Beispiel wird die Spalte Höhe ausgewertet. Als Ergebnis werden die minimale und maximale Höhe zurückgegeben. Der Tab Bereiche lässt sich nur auf numerische Daten verwenden, alle anderen Werte führen zum Fehler.

Operationen ‣ Aggregation

#Basis

#ID

#Listen

#Eindeutige Listen

#Häufigkeiten

#Bereiche

Basis

ID

Listen

Eindeutige Listen

Häufigkeiten

Bereiche