Streuungsdiagramm

Loading the player ...

Kapitel zurück Kapitel vor

Text zum Video

Streuungsdiagramm.
Wir betrachten ein neues Beispiel aus unserem Restaurant, in dem wir 9 GÃ¤ste nicht nur nach ihrem Rechnungsbetrag, sondern zusÃ¤tzlich auch nach ihrem Lebensalter befragen. Heraus kommt diese Datenliste. Was ist neu? Sie enthÃ¤lt nicht - wie gewohnt ein Merkmal mit seinen Merkmalswerten, sondern 2 Merkmale, nÃ¤mlich den Rechnungsbetrag und das Lebensalter der 9 GÃ¤ste.

Auf den ersten Blick fÃ¤llt uns kein logischer Zusammenhang zwischen dem Lebensalter und dem Rechnungsbetrag der GÃ¤ste auf.
Daher werden wir die Merkmalswerte unserer 9 GÃ¤ste in ein sogenanntes "Streuungsdiagramm" einzeichnen.
Eine Achse bezeichnen wir mit "Lebensalter", die andere mit "Rechnungsbetrag". Jeder der 9 GÃ¤ste stellt jetzt einen Punkt im Streuungsdiagramm dar. Was erkennen wir? JÃ¼ngere GÃ¤ste geben scheinbar weniger Geld aus, als Ã¤ltere. Ein Grund hierfÃ¼r kÃ¶nnte z.B. sein, dass sie Ã¼ber weniger Geld verfÃ¼gen.

Die Merkmale "Lebensalter" und "Rechnungsbetrag" scheinen also irgendwie miteinander zusammenzuhÃ¤ngen. KÃ¶nnen wir diese Erkenntnis verallgemeinern? Die 9 Punkte liegen in etwa auf einer Linie, weshalb wir im Folgenden eine Gerade in unser Diagramm einzeichnen werden.

Man nennt diese Gerade "Regressionsgerade". Sie wurde so zwischen die Punkte gelegt, dass deren Abstand zur Geraden so gering, wie mÃ¶glich ist.
Die unvermeidbaren AbstÃ¤nde zwischen den Punkten und der Geraden nennt man "Residuen" auf deutsch "Reste". In der Statistik ist man immer bemÃ¼ht, diese Residuen zu minimieren um mÃ¶glichst viele Punkte durch die Regressionsgerade abbilden zu kÃ¶nnen. Man bedient sich dazu eines Minimierungsverfahrens.
Es nennt sich "Methode der kleinsten Quadrate", man quadriert die Residuen einfach und minimiert anschlieÃŸend deren Summe.
Hierauf werden wir aber nicht genauer eingehen, sondern uns gleich um die konkrete Berechnung der Regressionsgeraden kÃ¼mmern.

Wie sieht die Gleichung einer Geraden typischer Weise aus?
" Y = a b * x ", "a" ist immer der Achsenabschnitt und "b" die Steigung. Wenn man die Regressionsgerade formell richtig schreiben mÃ¶chte, dann muss man wegen der unbekannten GrÃ¶ÃŸe der Residuen an diese Gleichung noch " ei " anhÃ¤ngen.
Unsere Regressionsgerade hat so leider noch nicht viel Aussagekraft, weil wir fÃ¼r "a" und "b", die man "Regressionskoeffizienten" nennt noch keine konkreten Werte kennen. Das wird sich jetzt Ã¤ndern!
Erinnern wir uns: Unser Datensatz besaÃŸ 2 Merkmale. Das Merkmal "Lebensalter" werden wir zur Vereinfachung von nun an "x" nennen und den Rechnungsbetrag "y". Wir benÃ¶tigen zur Berechnung unserer Regressionsgerade die "arithmetischen Mittel", die Streuungen und die Standardabweichungen aus unserem Datensatz und zwar jeweils fÃ¼r Merkmal "x" und fÃ¼r Merkmal "y". Da uns die Berechnung all dieser Werte inzwischen gut bekannt ist, lassen wir sie uns hier einfach anzeigen.

Einen Wert kennen wir allerdings noch nicht, er heiÃŸt "Kovarianz" und wird nach folgender Formel sehr Ã¤hnlich, wie die Standardabweichung gebildet. Eine relevante Aussagekraft hat die Kovarianz fÃ¼r uns nicht, man benÃ¶tigt sie einfach zur Berechnung der Regressionskoeffizienten.
Mit all diesen gesammelten Werten kÃ¶nnen wir nun endlich unsere Regressionskoeffizienten "a" und "b" fÃ¼r die Regressionsgeraden berechnen.
Man bedient sich in der Statistik dieser beiden Formeln:
"Regressionskoeffizient b" erhalten wir, wenn wir "Kovarianz durch Streuung von x" teilen und "a" ergibt sich aus dem "arithmetischen Mittel von y minus b mal arithmetisches Mittel von x".
Heraus kommen folgende Werte. Setzen wir "a" und "b" in unsere Regressionsgeradengleichung ein, sieht sie so aus.

Was bringt uns jetzt die Kenntnis dieser Gleichung?
Wir kÃ¶nnen fÃ¼r "x", also fÃ¼rs Lebensalter eines Gastes einen beliebigen Wert einsetzen und erhalten einen Wert fÃ¼r "y", nÃ¤mlich den Rechnungsbetrag. "x" nennt man deshalb "erklÃ¤rende Variable" und "y" "Zielvariable", da wir "y" - den Rechnungsbetrag herausbekommen mÃ¶chten, der sich durch "x" - das Lebensalter erklÃ¤ren lÃ¤sst.
Probieren wir's aus.
Ein 55-jÃ¤hriger Gast wird laut unserem Regressionsmodell diesen Rechnungsbetrag in unserem Restaurant begleichen mÃ¼ssen.
Zugegeben, das wird wahrscheinlich nicht immer der Fall sein und Werte fÃ¼r Ã¼ber 100 Jahre alte GÃ¤ste machen auch nicht viel Sinn.

Wir haben aber gelernt, dass sich der Zusammenhang zweier Merkmale mit Hilfe einer Regressionsgleichung darstellen lÃ¤sst und kÃ¶nnen diese nun auch berechnen.

Inhalt