e-prof Logo
THEMEN
SHOP
WAS IST DAS?
KONTAKT
PARTNER
Für mehr kostenlose Inhalte jetzt anmelden!
Deskriptive Statistik   >  Korrelation u. Regressionsanalyse
14.90 EUR

Streuungsdiagramm

Loading the player ...
Kapitel zurück        Kapitel vor
Text zum Video
Streuungsdiagramm.
Wir betrachten ein neues Beispiel aus unserem Restaurant, in dem wir 9 Gäste nicht nur nach ihrem Rechnungsbetrag, sondern zusätzlich auch nach ihrem Lebensalter befragen. Heraus kommt diese Datenliste. Was ist neu? Sie enthält nicht - wie gewohnt ein Merkmal mit seinen Merkmalswerten, sondern 2 Merkmale, nämlich den Rechnungsbetrag und das Lebensalter der 9 Gäste.

Auf den ersten Blick fällt uns kein logischer Zusammenhang zwischen dem Lebensalter und dem Rechnungsbetrag der Gäste auf.
Daher werden wir die Merkmalswerte unserer 9 Gäste in ein sogenanntes "Streuungsdiagramm" einzeichnen.
Eine Achse bezeichnen wir mit "Lebensalter", die andere mit "Rechnungsbetrag". Jeder der 9 Gäste stellt jetzt einen Punkt im Streuungsdiagramm dar. Was erkennen wir? Jüngere Gäste geben scheinbar weniger Geld aus, als ältere. Ein Grund hierfür könnte z.B. sein, dass sie über weniger Geld verfügen.

Die Merkmale "Lebensalter" und "Rechnungsbetrag" scheinen also irgendwie miteinander zusammenzuhängen. Können wir diese Erkenntnis verallgemeinern? Die 9 Punkte liegen in etwa auf einer Linie, weshalb wir im Folgenden eine Gerade in unser Diagramm einzeichnen werden.

Man nennt diese Gerade "Regressionsgerade". Sie wurde so zwischen die Punkte gelegt, dass deren Abstand zur Geraden so gering, wie möglich ist.
Die unvermeidbaren Abstände zwischen den Punkten und der Geraden nennt man "Residuen" auf deutsch "Reste". In der Statistik ist man immer bemüht, diese Residuen zu minimieren um möglichst viele Punkte durch die Regressionsgerade abbilden zu können. Man bedient sich dazu eines Minimierungsverfahrens.
Es nennt sich "Methode der kleinsten Quadrate", man quadriert die Residuen einfach und minimiert anschließend deren Summe.
Hierauf werden wir aber nicht genauer eingehen, sondern uns gleich um die konkrete Berechnung der Regressionsgeraden kümmern.

Wie sieht die Gleichung einer Geraden typischer Weise aus?
" Y = a b * x ", "a" ist immer der Achsenabschnitt und "b" die Steigung. Wenn man die Regressionsgerade formell richtig schreiben möchte, dann muss man wegen der unbekannten Größe der Residuen an diese Gleichung noch " ei " anhängen.
Unsere Regressionsgerade hat so leider noch nicht viel Aussagekraft, weil wir für "a" und "b", die man "Regressionskoeffizienten" nennt noch keine konkreten Werte kennen. Das wird sich jetzt ändern!
Erinnern wir uns: Unser Datensatz besaß 2 Merkmale. Das Merkmal "Lebensalter" werden wir zur Vereinfachung von nun an "x" nennen und den Rechnungsbetrag "y". Wir benötigen zur Berechnung unserer Regressionsgerade die "arithmetischen Mittel", die Streuungen und die Standardabweichungen aus unserem Datensatz und zwar jeweils für Merkmal "x" und für Merkmal "y". Da uns die Berechnung all dieser Werte inzwischen gut bekannt ist, lassen wir sie uns hier einfach anzeigen.

Einen Wert kennen wir allerdings noch nicht, er heißt "Kovarianz" und wird nach folgender Formel sehr ähnlich, wie die Standardabweichung gebildet. Eine relevante Aussagekraft hat die Kovarianz für uns nicht, man benötigt sie einfach zur Berechnung der Regressionskoeffizienten.
Mit all diesen gesammelten Werten können wir nun endlich unsere Regressionskoeffizienten "a" und "b" für die Regressionsgeraden berechnen.
Man bedient sich in der Statistik dieser beiden Formeln:
"Regressionskoeffizient b" erhalten wir, wenn wir "Kovarianz durch Streuung von x" teilen und "a" ergibt sich aus dem "arithmetischen Mittel von y minus b mal arithmetisches Mittel von x".
Heraus kommen folgende Werte. Setzen wir "a" und "b" in unsere Regressionsgeradengleichung ein, sieht sie so aus.

Was bringt uns jetzt die Kenntnis dieser Gleichung?
Wir können für "x", also fürs Lebensalter eines Gastes einen beliebigen Wert einsetzen und erhalten einen Wert für "y", nämlich den Rechnungsbetrag. "x" nennt man deshalb "erklärende Variable" und "y" "Zielvariable", da wir "y" - den Rechnungsbetrag herausbekommen möchten, der sich durch "x" - das Lebensalter erklären lässt.
Probieren wir's aus.
Ein 55-jähriger Gast wird laut unserem Regressionsmodell diesen Rechnungsbetrag in unserem Restaurant begleichen müssen.
Zugegeben, das wird wahrscheinlich nicht immer der Fall sein und Werte für über 100 Jahre alte Gäste machen auch nicht viel Sinn.

Wir haben aber gelernt, dass sich der Zusammenhang zweier Merkmale mit Hilfe einer Regressionsgleichung darstellen lässt und können diese nun auch berechnen.
Inhalt
      Einführung  
      Häufigkeitstabellen u. Diagramme  
         statistische Daten  
         Übung 1  
         qualitative Merkmale  
         Übung 2  
         quantitative diskrete Merkmale  
         Übung 3  
         quantitative stetige Merkmale  
         Übung 4  
      Lagemaße  
         arithmetisches Mittel  
         Übung 5  
         Modus und Median  
         Übung 6  
         Verteilungslage  
         Übung 7  
         Harmonisches und geometrisches Mittel  
         Übung 8  
      Streuungsmaße  
         Spannweite  
         Varianz und Standardabweichung  
         Übung 9  
         Streuungszerlegungssatz  
         Übung 10  
      Korrelation u. Regressionsanalyse  
         Streuungsdiagramm  
         Übung 11  
         Korrelationsmaße  
         Übung 12  
         Bestimmtheitsmaß u. DW-Koeffizient  
         Übung 13  
      Wirtschaftsstatistik  
         Zeitreihen und Prognosen  
         Übung 14  
         Indizes  
         Übung 15  
         Konzentrationskurven u. Indizes  
         Übung 16  
         Lorenzkurve u. Gini-Koeffizient  
         Übung 17  
      Statistik am Computer  
         Excel  
         SPSS  
         Statistiklabor  
fanpage sticker