Deskriptive Statistik
> Korrelation u. Regressionsanalyse
14.90 EUR
Streuungsdiagramm
Text zum Video
Streuungsdiagramm.
Wir betrachten ein neues Beispiel aus unserem Restaurant, in dem wir 9 Gäste nicht nur nach ihrem Rechnungsbetrag, sondern zusätzlich auch nach ihrem Lebensalter befragen. Heraus kommt diese Datenliste. Was ist neu? Sie enthält nicht - wie gewohnt ein Merkmal mit seinen Merkmalswerten, sondern 2 Merkmale, nämlich den Rechnungsbetrag und das Lebensalter der 9 Gäste.
Auf den ersten Blick fällt uns kein logischer Zusammenhang zwischen dem Lebensalter und dem Rechnungsbetrag der Gäste auf.
Daher werden wir die Merkmalswerte unserer 9 Gäste in ein sogenanntes "Streuungsdiagramm" einzeichnen.
Eine Achse bezeichnen wir mit "Lebensalter", die andere mit "Rechnungsbetrag". Jeder der 9 Gäste stellt jetzt einen Punkt im Streuungsdiagramm dar. Was erkennen wir? Jüngere Gäste geben scheinbar weniger Geld aus, als ältere. Ein Grund hierfür könnte z.B. sein, dass sie über weniger Geld verfügen.
Die Merkmale "Lebensalter" und "Rechnungsbetrag" scheinen also irgendwie miteinander zusammenzuhängen. Können wir diese Erkenntnis verallgemeinern? Die 9 Punkte liegen in etwa auf einer Linie, weshalb wir im Folgenden eine Gerade in unser Diagramm einzeichnen werden.
Man nennt diese Gerade "Regressionsgerade". Sie wurde so zwischen die Punkte gelegt, dass deren Abstand zur Geraden so gering, wie möglich ist.
Die unvermeidbaren Abstände zwischen den Punkten und der Geraden nennt man "Residuen" auf deutsch "Reste". In der Statistik ist man immer bemüht, diese Residuen zu minimieren um möglichst viele Punkte durch die Regressionsgerade abbilden zu können. Man bedient sich dazu eines Minimierungsverfahrens.
Es nennt sich "Methode der kleinsten Quadrate", man quadriert die Residuen einfach und minimiert anschließend deren Summe.
Hierauf werden wir aber nicht genauer eingehen, sondern uns gleich um die konkrete Berechnung der Regressionsgeraden kümmern.
Wie sieht die Gleichung einer Geraden typischer Weise aus?
" Y = a b * x ", "a" ist immer der Achsenabschnitt und "b" die Steigung. Wenn man die Regressionsgerade formell richtig schreiben möchte, dann muss man wegen der unbekannten Größe der Residuen an diese Gleichung noch " ei " anhängen.
Unsere Regressionsgerade hat so leider noch nicht viel Aussagekraft, weil wir für "a" und "b", die man "Regressionskoeffizienten" nennt noch keine konkreten Werte kennen. Das wird sich jetzt ändern!
Erinnern wir uns: Unser Datensatz besaß 2 Merkmale. Das Merkmal "Lebensalter" werden wir zur Vereinfachung von nun an "x" nennen und den Rechnungsbetrag "y". Wir benötigen zur Berechnung unserer Regressionsgerade die "arithmetischen Mittel", die Streuungen und die Standardabweichungen aus unserem Datensatz und zwar jeweils für Merkmal "x" und für Merkmal "y". Da uns die Berechnung all dieser Werte inzwischen gut bekannt ist, lassen wir sie uns hier einfach anzeigen.
Einen Wert kennen wir allerdings noch nicht, er heißt "Kovarianz" und wird nach folgender Formel sehr ähnlich, wie die Standardabweichung gebildet. Eine relevante Aussagekraft hat die Kovarianz für uns nicht, man benötigt sie einfach zur Berechnung der Regressionskoeffizienten.
Mit all diesen gesammelten Werten können wir nun endlich unsere Regressionskoeffizienten "a" und "b" für die Regressionsgeraden berechnen.
Man bedient sich in der Statistik dieser beiden Formeln:
"Regressionskoeffizient b" erhalten wir, wenn wir "Kovarianz durch Streuung von x" teilen und "a" ergibt sich aus dem "arithmetischen Mittel von y minus b mal arithmetisches Mittel von x".
Heraus kommen folgende Werte. Setzen wir "a" und "b" in unsere Regressionsgeradengleichung ein, sieht sie so aus.
Was bringt uns jetzt die Kenntnis dieser Gleichung?
Wir können für "x", also fürs Lebensalter eines Gastes einen beliebigen Wert einsetzen und erhalten einen Wert für "y", nämlich den Rechnungsbetrag. "x" nennt man deshalb "erklärende Variable" und "y" "Zielvariable", da wir "y" - den Rechnungsbetrag herausbekommen möchten, der sich durch "x" - das Lebensalter erklären lässt.
Probieren wir's aus.
Ein 55-jähriger Gast wird laut unserem Regressionsmodell diesen Rechnungsbetrag in unserem Restaurant begleichen müssen.
Zugegeben, das wird wahrscheinlich nicht immer der Fall sein und Werte für über 100 Jahre alte Gäste machen auch nicht viel Sinn.
Wir haben aber gelernt, dass sich der Zusammenhang zweier Merkmale mit Hilfe einer Regressionsgleichung darstellen lässt und können diese nun auch berechnen.
Wir betrachten ein neues Beispiel aus unserem Restaurant, in dem wir 9 Gäste nicht nur nach ihrem Rechnungsbetrag, sondern zusätzlich auch nach ihrem Lebensalter befragen. Heraus kommt diese Datenliste. Was ist neu? Sie enthält nicht - wie gewohnt ein Merkmal mit seinen Merkmalswerten, sondern 2 Merkmale, nämlich den Rechnungsbetrag und das Lebensalter der 9 Gäste.
Auf den ersten Blick fällt uns kein logischer Zusammenhang zwischen dem Lebensalter und dem Rechnungsbetrag der Gäste auf.
Daher werden wir die Merkmalswerte unserer 9 Gäste in ein sogenanntes "Streuungsdiagramm" einzeichnen.
Eine Achse bezeichnen wir mit "Lebensalter", die andere mit "Rechnungsbetrag". Jeder der 9 Gäste stellt jetzt einen Punkt im Streuungsdiagramm dar. Was erkennen wir? Jüngere Gäste geben scheinbar weniger Geld aus, als ältere. Ein Grund hierfür könnte z.B. sein, dass sie über weniger Geld verfügen.
Die Merkmale "Lebensalter" und "Rechnungsbetrag" scheinen also irgendwie miteinander zusammenzuhängen. Können wir diese Erkenntnis verallgemeinern? Die 9 Punkte liegen in etwa auf einer Linie, weshalb wir im Folgenden eine Gerade in unser Diagramm einzeichnen werden.
Man nennt diese Gerade "Regressionsgerade". Sie wurde so zwischen die Punkte gelegt, dass deren Abstand zur Geraden so gering, wie möglich ist.
Die unvermeidbaren Abstände zwischen den Punkten und der Geraden nennt man "Residuen" auf deutsch "Reste". In der Statistik ist man immer bemüht, diese Residuen zu minimieren um möglichst viele Punkte durch die Regressionsgerade abbilden zu können. Man bedient sich dazu eines Minimierungsverfahrens.
Es nennt sich "Methode der kleinsten Quadrate", man quadriert die Residuen einfach und minimiert anschließend deren Summe.
Hierauf werden wir aber nicht genauer eingehen, sondern uns gleich um die konkrete Berechnung der Regressionsgeraden kümmern.
Wie sieht die Gleichung einer Geraden typischer Weise aus?
" Y = a b * x ", "a" ist immer der Achsenabschnitt und "b" die Steigung. Wenn man die Regressionsgerade formell richtig schreiben möchte, dann muss man wegen der unbekannten Größe der Residuen an diese Gleichung noch " ei " anhängen.
Unsere Regressionsgerade hat so leider noch nicht viel Aussagekraft, weil wir für "a" und "b", die man "Regressionskoeffizienten" nennt noch keine konkreten Werte kennen. Das wird sich jetzt ändern!
Erinnern wir uns: Unser Datensatz besaß 2 Merkmale. Das Merkmal "Lebensalter" werden wir zur Vereinfachung von nun an "x" nennen und den Rechnungsbetrag "y". Wir benötigen zur Berechnung unserer Regressionsgerade die "arithmetischen Mittel", die Streuungen und die Standardabweichungen aus unserem Datensatz und zwar jeweils für Merkmal "x" und für Merkmal "y". Da uns die Berechnung all dieser Werte inzwischen gut bekannt ist, lassen wir sie uns hier einfach anzeigen.
Einen Wert kennen wir allerdings noch nicht, er heißt "Kovarianz" und wird nach folgender Formel sehr ähnlich, wie die Standardabweichung gebildet. Eine relevante Aussagekraft hat die Kovarianz für uns nicht, man benötigt sie einfach zur Berechnung der Regressionskoeffizienten.
Mit all diesen gesammelten Werten können wir nun endlich unsere Regressionskoeffizienten "a" und "b" für die Regressionsgeraden berechnen.
Man bedient sich in der Statistik dieser beiden Formeln:
"Regressionskoeffizient b" erhalten wir, wenn wir "Kovarianz durch Streuung von x" teilen und "a" ergibt sich aus dem "arithmetischen Mittel von y minus b mal arithmetisches Mittel von x".
Heraus kommen folgende Werte. Setzen wir "a" und "b" in unsere Regressionsgeradengleichung ein, sieht sie so aus.
Was bringt uns jetzt die Kenntnis dieser Gleichung?
Wir können für "x", also fürs Lebensalter eines Gastes einen beliebigen Wert einsetzen und erhalten einen Wert für "y", nämlich den Rechnungsbetrag. "x" nennt man deshalb "erklärende Variable" und "y" "Zielvariable", da wir "y" - den Rechnungsbetrag herausbekommen möchten, der sich durch "x" - das Lebensalter erklären lässt.
Probieren wir's aus.
Ein 55-jähriger Gast wird laut unserem Regressionsmodell diesen Rechnungsbetrag in unserem Restaurant begleichen müssen.
Zugegeben, das wird wahrscheinlich nicht immer der Fall sein und Werte für über 100 Jahre alte Gäste machen auch nicht viel Sinn.
Wir haben aber gelernt, dass sich der Zusammenhang zweier Merkmale mit Hilfe einer Regressionsgleichung darstellen lässt und können diese nun auch berechnen.
Inhalt
Einführung
Häufigkeitstabellen u. Diagramme
statistische Daten
Ãœbung 1
qualitative Merkmale
Ãœbung 2
quantitative diskrete Merkmale
Ãœbung 3
quantitative stetige Merkmale
Ãœbung 4
Lagemaße
arithmetisches Mittel
Ãœbung 5
Modus und Median
Ãœbung 6
Verteilungslage
Ãœbung 7
Harmonisches und geometrisches Mittel
Ãœbung 8
Streuungsmaße
Spannweite
Varianz und Standardabweichung
Ãœbung 9
Streuungszerlegungssatz
Ãœbung 10
Korrelation u. Regressionsanalyse
Streuungsdiagramm
Ãœbung 11
Korrelationsmaße
Ãœbung 12
Bestimmtheitsmaß u. DW-Koeffizient
Ãœbung 13
Wirtschaftsstatistik
Zeitreihen und Prognosen
Ãœbung 14
Indizes
Ãœbung 15
Konzentrationskurven u. Indizes
Ãœbung 16
Lorenzkurve u. Gini-Koeffizient
Ãœbung 17
Statistik am Computer
Excel
SPSS
Statistiklabor
Häufigkeitstabellen u. Diagramme
statistische Daten
Ãœbung 1
qualitative Merkmale
Ãœbung 2
quantitative diskrete Merkmale
Ãœbung 3
quantitative stetige Merkmale
Ãœbung 4
Lagemaße
arithmetisches Mittel
Ãœbung 5
Modus und Median
Ãœbung 6
Verteilungslage
Ãœbung 7
Harmonisches und geometrisches Mittel
Ãœbung 8
Streuungsmaße
Spannweite
Varianz und Standardabweichung
Ãœbung 9
Streuungszerlegungssatz
Ãœbung 10
Korrelation u. Regressionsanalyse
Streuungsdiagramm
Ãœbung 11
Korrelationsmaße
Ãœbung 12
Bestimmtheitsmaß u. DW-Koeffizient
Ãœbung 13
Wirtschaftsstatistik
Zeitreihen und Prognosen
Ãœbung 14
Indizes
Ãœbung 15
Konzentrationskurven u. Indizes
Ãœbung 16
Lorenzkurve u. Gini-Koeffizient
Ãœbung 17
Statistik am Computer
Excel
SPSS
Statistiklabor