Co to jest mediana

Mediana to wartość środkowa w uporządkowanym zbiorze danych, która dzieli próbkę na dwie równe części. Jest to jedna z miar pozycyjnych, wykorzystywanych w statystyce do analizy rozkładu danych. Gdy zestaw danych jest ułożony rosnąco lub malejąco, mediana to wartość, która znajduje się dokładnie w środku tego zbioru. Jeśli liczba elementów w zbiorze danych jest nieparzysta, mediana jest dokładnie środkowym elementem; jeśli liczba elementów jest parzysta, mediana to średnia arytmetyczna dwóch środkowych elementów.

Mediana jest ważna, ponieważ jest odporna na skrajne wartości (outliery) w danych, w przeciwieństwie do średniej arytmetycznej. Oznacza to, że ekstremalne wartości w zbiorze danych nie mają tak dużego wpływu na medianę, jak mają na średnią arytmetyczną. Dlatego mediana często używana jest do opisu rozkładu danych, szczególnie gdy występują wartości skrajne.

 

Jak obliczyć medianę?

Aby obliczyć medianę, dane należy uporządkować rosnąco lub malejąco, a następnie zidentyfikować wartość, która dzieli zestaw danych na dwie równe części. Jeśli liczba elementów w zbiorze danych wynosi n, mediana jest wartością znajdującą się dokładnie w środku, czyli dla nieparzystej liczby elementów będzie to wartość na pozycji (n + 1) / 2, a dla parzystej medianę oblicza się jako średnią arytmetyczną dwóch środkowych wartości na pozycjach n / 2 i (n / 2) + 1.

Mediana znajduje zastosowanie w różnych dziedzinach naukowych i życiowych. W analizie danych, w ekonomii, w medycynie, a nawet w codziennym życiu, mediana pomaga w opisie centralnej tendencji danych, szczególnie gdy rozkład danych jest skrzywiony lub zawiera wartości skrajne. Jest używana do opisu dochodów, wieku, wielkości próbek populacji, a także w analizie statystycznej i badaniach społecznych.

Wartość mediany ma istotne znaczenie w interpretacji danych, zwłaszcza gdy istnieje ryzyko, że wartości odstające (outliery) mogą zaburzyć wnioski wynikające ze średniej arytmetycznej. Dlatego mediana stanowi ważny narzędzie statystyczne, pozwalające na lepsze zrozumienie i opisanie rozkładu danych, zwłaszcza w sytuacjach, gdzie występują wartości odstające lub asymetria w zbiorze danych.