Statystyka

Statystyka to dziedzina matematyki stosowanej zajmująca się zbieraniem, organizacją, analizą, interpretacją i prezentacją danych. Statystyki opisowe podsumowują dane. Statystyki inferencyjne pozwalają na przewidywanie. Statystyka pomaga w badaniu wielu innych dziedzin, takich jak nauka, medycyna, ekonomia, psychologia, polityka i marketing. Ktoś, kto zajmuje się statystyką, nazywany jest statystykiem. Oprócz nazwy dziedziny nauki, słowo "statystyka" odnosi się również do liczb, które są używane do opisywania danych lub relacji.

Historia

Pierwszymi znanymi statystykami są dane spisowe. Babilończycy przeprowadzili spis ludności około 3500 r. p.n.e., Egipcjanie około 2500 r. p.n.e., a starożytni Chińczycy około 1000 r. p.n.e.

Począwszy od XVI wieku matematycy tacy jak Gerolamo Cardano opracowali teorię prawdopodobieństwa, która uczyniła statystykę nauką. Od tego czasu ludzie gromadzili i badali statystyki dotyczące wielu rzeczy. Drzewa, rozgwiazdy, gwiazdy, skały, słowa, prawie wszystko, co można policzyć, było przedmiotem statystyki.

Gromadzenie danych

Zanim będziemy mogli opisać świat za pomocą statystyki, musimy zebrać dane. Dane, które zbieramy w statystyce nazywamy pomiarami. Po zebraniu danych, używamy jednej lub więcej liczb do opisania każdej obserwacji lub pomiaru. Na przykład, załóżmy, że chcemy się dowiedzieć, jak popularny jest pewien program telewizyjny. Możemy wybrać grupę osób (zwaną próbką) z całej populacji widzów. Następnie pytamy każdego widza w próbie, jak często ogląda ten program. Próbka to dane, które możesz zobaczyć, a populacja to dane, których nie możesz zobaczyć (ponieważ nie zapytałeś każdego widza w populacji). Na przykład, jeśli chcemy się dowiedzieć, czy pewien lek może pomóc obniżyć ciśnienie krwi, możemy podawać ludziom lek przez jakiś czas i mierzyć ich ciśnienie krwi przed i po.

Statystyka opisowa i inferencyjna

Liczby opisujące dane, które można zobaczyć, nazywane są statystykami opisowymi. Liczby, które przewidują dane, których nie widać, nazywane są statystykami inferencyjnymi.

Statystyka opisowa polega na użyciu liczb do opisania cech danych. Na przykład, średni wzrost kobiet w Stanach Zjednoczonych jest statystyką opisową, która opisuje cechę (średni wzrost) populacji (kobiet w Stanach Zjednoczonych).

Po podsumowaniu i opisaniu wyników można je wykorzystać do prognozowania. Nazywa się to Statystyką Wnioskującą. Jako przykład, rozmiar zwierzęcia zależy od wielu czynników. Niektóre z tych czynników są kontrolowane przez środowisko, ale inne są dziedziczone. Biolog może więc stworzyć model, który mówi, że istnieje duże prawdopodobieństwo, że potomstwo będzie małych rozmiarów, jeśli rodzice byli małych rozmiarów. Model ten prawdopodobnie pozwala przewidzieć wielkość potomstwa w lepszy sposób niż tylko przez zgadywanie na chybił trafił. Testowanie, czy dany lek może być użyty do wyleczenia pewnego stanu lub choroby, odbywa się zwykle poprzez porównanie wyników osób, którym podano lek, z wynikami osób, którym podano placebo.

Metody

Najczęściej zbieramy dane statystyczne poprzez przeprowadzanie ankiet lub eksperymentów. Na przykład, badanie opinii publicznej jest jednym z rodzajów badania. Wybieramy niewielką liczbę osób i zadajemy im pytania. Następnie wykorzystujemy ich odpowiedzi jako dane.

Wybór osób do badania lub zbierania danych jest ważny, ponieważ ma bezpośredni wpływ na statystyki. Kiedy statystyki są już gotowe, nie można już określić, które osoby zostały wzięte. Załóżmy, że chcemy zmierzyć jakość wody w dużym jeziorze. Jeśli pobierzemy próbki obok odpływu ścieków, otrzymamy inne wyniki niż jeśli próbki zostaną pobrane w odległym, trudno dostępnym miejscu jeziora.

Istnieją dwa rodzaje problemów, które są powszechnie spotykane przy pobieraniu próbek:

  1. Jeśli jest wiele próbek, będą one prawdopodobnie bardzo zbliżone do tego, co jest w rzeczywistej populacji. Jeśli jednak jest bardzo mało próbek, mogą one być bardzo różne od tego, co jest w prawdziwej populacji. Ten błąd nazywany jest błędem przypadkowym (zobacz Błędy i resztki w statystyce).
  2. Osoby do próbek muszą być wybrane starannie, zazwyczaj są one wybierane losowo. Jeśli tak nie jest, próbki mogą się bardzo różnić od tego, co naprawdę jest w całej populacji. Jest to prawdą, nawet jeśli pobierana jest duża liczba próbek. Ten rodzaj błędu nazywany jest błędem systematycznym (bias).

Błędy

Możemy zredukować błędy przypadkowości poprzez pobranie większej próbki i możemy uniknąć pewnej stronniczości poprzez losowy wybór. Jednak czasami trudno jest zebrać dużą próbę losową. A tendencyjność może się zdarzyć, jeśli różne osoby nie są pytane lub odmawiają odpowiedzi na nasze pytania, lub jeśli wiedzą, że otrzymują fałszywe leczenie. Te problemy mogą być trudne do naprawienia. Zobacz również błąd standardowy.

Statystyki opisowe

Znajdowanie środka danych

Środek danych nazywany jest średnią. Średnia mówi nam o typowym osobniku w populacji. Istnieją trzy rodzaje średnich, które są często używane: średnia, mediana i sposób.

Poniższe przykłady wykorzystują te przykładowe dane:

 Nazwa | A    B    C    D    E    F    G    H    I    J ---------------------------------------------   wynik| 23 26 49 57 64 66 78 82 92

Średnia

Wzór na średnią to

x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {{displaystyle}}={{frac {1}{N}}}sum _{i=1}^{N}x_{i}}={{{frac {x_{1}+x_{2}+x_{N}}}{N}}} {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}

Gdzie x 1 , x 2 , ... , x N {displaystyle x_{1},x_{2}},ldots ,x_{N}}{\displaystyle x_{1},x_{2},\ldots ,x_{N}} są danymi, a N {displaystyle N} {\displaystyle N}jest wielkością populacji. (patrz Notacja Sigma).

Oznacza to, że sumujesz wszystkie wartości, a następnie dzielisz przez liczbę wartości.

W naszym przykładzie x ż = ( 23 + 26 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58,6 {{displaystyle {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58,6}. {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6}

Problem ze średnią jest taki, że nie mówi ona nic o tym, jak wartości są rozłożone. Wartości, które są bardzo duże lub bardzo małe, bardzo zmieniają średnią. W statystyce te skrajne wartości mogą być błędami pomiaru, ale czasami populacja naprawdę zawiera takie wartości. Na przykład, jeśli w pokoju znajduje się 10 osób, które zarabiają 10 dolarów dziennie i 1, która zarabia 1 000 000 dolarów dziennie. Średnia z danych wynosi 90 918 dolarów dziennie. Mimo, że jest to średnia kwota, średnia w tym przypadku nie jest kwotą, którą zarabia pojedyncza osoba, więc jest bezużyteczna dla niektórych celów.

Jest to "średnia arytmetyczna". Inne rodzaje są przydatne do pewnych celów.

Mediana

Mediana jest środkową pozycją w danych. Aby znaleźć medianę, sortujemy dane od najmniejszej do największej liczby, a następnie wybieramy liczbę pośrodku. Jeśli jest parzysta liczba danych, nie będzie liczby w środku, więc wybieramy dwie środkowe i obliczamy ich średnią. W naszym przykładzie jest 10 pozycji danych, dwie środkowe to "57" i "64", więc mediana wynosi (57+64)/2 = 60.5. Inny przykład, podobnie jak przykład dochodu przedstawiony dla średniej, rozważmy pokój z 10 osobami, które mają dochody 10$, 20$, 20$, 40$, 50$, 60$, 90$, 100$ i 1.000.000$, mediana wynosi 55$, ponieważ 55$ jest średnią dwóch środkowych liczb, 50$ i 60$. Jeśli skrajna wartość 1 000 000 $ jest ignorowana, średnia wynosi 53 $. W tym przypadku mediana jest zbliżona do wartości uzyskanej po odrzuceniu wartości skrajnej. Mediana rozwiązuje problem wartości ekstremalnych, opisany w definicji średniej powyżej.

Tryb

Tryb jest najczęstszym elementem danych. Na przykład, najczęściej występującą literą w języku angielskim jest litera "e". Powiedzielibyśmy, że "e" jest trybem rozkładu liter.

Na przykład, jeśli w pokoju znajduje się 10 osób o dochodach $10, $20, $20, $40, $50, $60, $90, $90, $100 i $1,000,000, trybem jest $90, ponieważ $90 występuje trzy razy, a wszystkie inne wartości występują mniej niż trzy razy.

Może istnieć więcej niż jeden tryb. Na przykład, jeśli w pokoju znajduje się 10 osób o dochodach 10$, 20$, 20$, 20$, 20$, 50$, 60$, 90$, 90$, 100$ i 1 000 000$, trybami są 20$ i 90$. To jest bi-modalność, czyli ma dwa tryby. Dwumodalność jest bardzo powszechna i często wskazuje, że dane są kombinacją dwóch różnych grup. Na przykład, średni wzrost wszystkich dorosłych w USA ma rozkład dwumodalny. Dzieje się tak dlatego, że mężczyźni i kobiety mają oddzielne średnie wysokości 1,763 m (5 ft 9 + 1⁄2 in) dla mężczyzn i 1,622 m (5 ft 4 in) dla kobiet. Te szczyty są widoczne, gdy obie grupy są połączone.

Tryb jest jedyną formą średniej, która może być użyta dla danych, które nie mogą być uporządkowane.

Znajdowanie rozpiętości danych

Inną rzeczą, którą możemy powiedzieć o zestawie danych jest to, jak bardzo jest on rozłożony. Popularnym sposobem opisania rozrzutu zbioru danych jest odchylenie standardowe. Jeśli odchylenie standardowe zestawu danych jest małe, wówczas większość danych jest bardzo zbliżona do średniej. Jeśli natomiast odchylenie standardowe jest duże, wówczas wiele danych bardzo różni się od średniej.

Jeśli dane są zgodne z powszechnym wzorcem zwanym rozkładem normalnym, to bardzo przydatna jest znajomość odchylenia standardowego. Jeśli dane są zgodne z tym wzorcem (mówimy, że dane są normalnie rozłożone), około 68 z każdych 100 danych będzie odbiegać od średniej o mniej niż odchylenie standardowe. Nie tylko to, ale około 95 z każdych 100 pomiarów będzie odbiegać od średniej o mniej niż dwukrotność odchylenia standardowego, a około 997 na 1000 będzie bliżej średniej niż trzy odchylenia standardowe.

Inne statystyki opisowe

Możemy również użyć statystyki, aby dowiedzieć się, że jakiś procent, percentyl, liczba lub ułamek ludzi lub rzeczy w grupie robi coś lub pasuje do pewnej kategorii.

Na przykład, naukowcy społeczni wykorzystali statystyki, aby dowiedzieć się, że 49% ludzi na świecie to mężczyźni.

Powiązane oprogramowanie

W celu wsparcia statystyków powstało wiele programów statystycznych:

  • SAS Institute
  • SPSS (wyprodukowany przez IBM)

AlegsaOnline.com - 2020 / 2021 - License CC3