Standardabweichung vs. Varianz

Standardabweichung und Varianz sind statistische Maße für die Streuung von Daten, dh sie geben an, wie stark der Durchschnitt abweicht oder inwieweit die Werte typischerweise vom Mittelwert (Durchschnitt) "abweichen". Eine Varianz oder Standardabweichung von Null zeigt an, dass alle Werte identisch sind.

Die Varianz ist der Mittelwert der Quadrate der Abweichungen (dh die Differenz der Werte vom Mittelwert), und die Standardabweichung ist die Quadratwurzel dieser Varianz. Die Standardabweichung wird verwendet, um Ausreißer in den Daten zu identifizieren.

Vergleichstabelle

Vergleichstabelle Standardabweichung versus Varianz
Standardabweichung Varianz
Mathematische FormelQuadratwurzel der VarianzDurchschnitt der Abweichungsquadrate jedes Werts vom Mittelwert in einer Stichprobe.
SymbolGriechischer Buchstabe Sigma - σKein spezielles Symbol; ausgedrückt als Standardabweichung oder andere Werte.
Werte in Bezug auf den angegebenen DatensatzGleiche Skala wie die Werte im angegebenen Datensatz; daher in den gleichen Einheiten ausgedrückt.Skalieren Sie größer als die Werte im angegebenen Datensatz. nicht in der gleichen Einheit wie die Werte selbst ausgedrückt.
Sind Werte negativ oder positiv?Immer nicht negativImmer nicht negativ
Anwendung in der realen WeltBevölkerungsstichprobe; Ausreißer identifizierenStatistische Formeln, Finanzen.

Wichtige Konzepte

  • Mittelwert: Der Durchschnitt aller Werte in einem Datensatz (addiere alle Werte und dividiere ihre Summe durch die Anzahl der Werte).
  • Abweichung: Der Abstand jedes Wertes vom Mittelwert. Wenn der Mittelwert 3 ist, hat ein Wert von 5 eine Abweichung von 2 (subtrahieren Sie den Mittelwert vom Wert). Die Abweichung kann positiv oder negativ sein.

Symbole

Die Formel für Standardabweichung und Varianz wird häufig ausgedrückt mit:

  • x̅ = der Mittelwert oder Durchschnitt aller Datenpunkte im Problem
  • X = ein einzelner Datenpunkt
  • N = Anzahl der Punkte im Datensatz
  • ∑ = die Summe von [den Quadraten der Abweichungen]

Formeln

Die Varianz einer Menge von n gleich wahrscheinlichen Werten kann wie folgt geschrieben werden:

Die Standardabweichung ist die Quadratwurzel der Varianz:

Formeln mit griechischen Buchstaben wirken entmutigend, aber weniger kompliziert, als es scheint. Um es in einfachen Schritten auszudrücken:

  1. Finden Sie den Durchschnitt aller Datenpunkte
  2. Finden Sie heraus, wie weit jeder Punkt vom Durchschnitt entfernt ist (dies ist die Abweichung).
  3. Quadrieren Sie jede Abweichung (dh die Differenz jedes Wertes vom Mittelwert).
  4. Teilen Sie die Summe der Quadrate durch die Anzahl der Punkte.

Das gibt die Varianz. Nehmen Sie die Quadratwurzel der Varianz, um die Standardabweichung zu ermitteln.

Dieses hervorragende Video der Khan Academy erklärt die Konzepte von Varianz und Standardabweichung:

Beispiel

Angenommen, ein Datensatz enthält die Höhe von sechs Löwenzahn: 3 Zoll, 4 Zoll, 5 Zoll, 4 Zoll, 11 Zoll und 6 Zoll.

Ermitteln Sie zunächst den Mittelwert der Datenpunkte: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5, 5

Die mittlere Höhe beträgt also 5, 5 Zoll. Jetzt brauchen wir die Abweichungen, also finden wir die Differenz jeder Pflanze vom Mittelwert: -2, 5, -1, 5, -.5, -1, 5, 5, 5, 1, 5

Quadrieren Sie nun jede Abweichung und finden Sie ihre Summe: 6, 25 + 2, 25 + 0, 25 + 2, 25 + 30, 25 + 2, 25 = 43, 5

Teilen Sie nun die Summe der Quadrate durch die Anzahl der Datenpunkte, in diesem Fall Pflanzen: 43, 5 / 6 = 7, 25

Die Varianz dieses Datensatzes beträgt also 7, 25, was eine ziemlich willkürliche Zahl ist. Um es in eine reale Messung umzuwandeln, nehmen Sie die Quadratwurzel von 7, 25, um die Standardabweichung in Zoll zu ermitteln.

Die Standardabweichung beträgt ca. 2, 69 Zoll. Das bedeutet, dass für die Probe jeder Löwenzahn innerhalb von 2, 69 Zoll des Mittelwerts (5, 5 Zoll) "normal" ist.

Warum die Abweichungen ausgleichen?

Abweichungen werden quadriert, um zu verhindern, dass negative Werte (Abweichungen unter dem Mittelwert) die positiven Werte aufheben. Dies funktioniert, weil eine negative Zahl im Quadrat zu einem positiven Wert wird. Wenn Sie einen einfachen Datensatz mit Abweichungen vom Mittelwert von +5, +2, -1 und -6 hatten, wird die Summe der Abweichungen als Null ausgegeben, wenn die Werte nicht quadriert sind (dh 5 + 2 - 1) - 6 = 0).

Anwendungen in der realen Welt

Varianz wird als mathematische Dispersion ausgedrückt. Da es sich um eine willkürliche Zahl im Verhältnis zu den ursprünglichen Messungen des Datensatzes handelt, ist es schwierig, sie im realen Sinne zu visualisieren und anzuwenden. Das Ermitteln der Varianz ist normalerweise nur der letzte Schritt vor dem Ermitteln der Standardabweichung. Varianzwerte werden manchmal in Finanzformeln und statistischen Formeln verwendet.

Die Standardabweichung, die in den ursprünglichen Einheiten des Datensatzes ausgedrückt wird, ist viel intuitiver und näher an den Werten des ursprünglichen Datensatzes. Es wird am häufigsten verwendet, um demografische Daten oder Bevölkerungsstichproben zu analysieren, um ein Gefühl dafür zu bekommen, was in der Bevölkerung normal ist.

Ausreißer finden

Eine Normalverteilung (Glockenkurve) mit Banden entsprechend 1σ

In einer Normalverteilung liegen ungefähr 68% der Bevölkerung (oder Werte) innerhalb von 1 Standardabweichung (1σ) des Mittelwerts und ungefähr 94% innerhalb von 2σ. Werte, die um 1, 7σ oder mehr vom Mittelwert abweichen, werden normalerweise als Ausreißer betrachtet.

In der Praxis versuchen Qualitätssysteme wie Six Sigma, die Fehlerrate so zu reduzieren, dass Fehler zu Ausreißern werden. Der Begriff "Six Sigma-Prozess" stammt aus der Vorstellung, dass praktisch sechs Elemente die Spezifikationen nicht erfüllen, wenn sechs Standardabweichungen zwischen dem Prozessmittelwert und der nächstgelegenen Spezifikationsgrenze vorliegen. [1]

Beispiel für eine Standardabweichung

In realen Anwendungen repräsentieren die verwendeten Datensätze normalerweise Bevölkerungsstichproben und nicht ganze Populationen. Eine leicht modifizierte Formel wird verwendet, wenn bevölkerungsweite Schlussfolgerungen aus einer Teilstichprobe gezogen werden sollen.

Eine 'Stichprobenstandardabweichung' wird verwendet, wenn Sie nur eine Stichprobe haben, aber eine Aussage über die Populationsstandardabweichung machen möchten, aus der die Stichprobe gezogen wird

Die einzige Möglichkeit, wie sich die Standardabweichungsformel der Stichprobe von der Standardabweichungsformel unterscheidet, ist das „-1“ im Nenner.

Am Beispiel des Löwenzahns wäre diese Formel erforderlich, wenn wir nur 6 Löwenzahnproben nehmen würden, diese Stichprobe jedoch verwenden wollten, um die Standardabweichung für das gesamte Feld mit Hunderten von Löwenzahn anzugeben.

Die Summe der Quadrate würde nun durch 5 anstelle von 6 (n - 1) geteilt, was eine Varianz von 8, 7 (anstelle von 7, 25) und eine Standardabweichung der Stichprobe von 2, 95 Zoll anstelle von 2, 69 Zoll für die ursprüngliche Standardabweichung ergibt. Diese Änderung wird verwendet, um eine Fehlerquote in einer Stichprobe zu ermitteln (in diesem Fall 9%).

Ähnlicher Artikel