W2 Statystyczne metody analizy danych PDF

Title W2 Statystyczne metody analizy danych
Course Rozpoznawanie obrazów
Institution Wojskowa Akademia Techniczna
Pages 24
File Size 566.7 KB
File Type PDF
Total Downloads 59
Total Views 126

Summary

Statystyczne metody analizy danych, notatki z wykładów dr Matusz...


Description

STATYSTYCZNE I OBLICZENIOWE METODY ANALIZY DANYCH POMIAROWYCH 1.

Klasyfikacja błędów pomiarowych Proces analizy danych z rozpoznania można podzielić na następujące etapy:  gromadzenie wszelkich danych pomiarowych o odebranych sygnałach,  podział zbioru danych pomiarowych na podzbiory (taksony) odpowiadające pojedynczym źródłom emisji elektromagnetycznej (ZE),  ustalenie listy parametrów sygnału (możliwych do określenia na podstawie zgromadzonych dotychczas danych),  określenie statystyk (wartości średnich, odchyleń standardowych, wariancji) analizowanych parametrów sygnału i weryfikacja hipotez o ich rozkładach,  określenie hipotez o rozpoznanych ZE,  weryfikacja rozpoznanych i zidentyfikowanych ZE. Obróbka wektora pomiarowego W wyniku występowania w procesie pomiaru parametrów obiektu (ZE)

błędów pomiarowych, zakłóceń losowych oraz niestabilności samych parametrów uzyskiwane wielkości pomiarowe mają charakter losowy. W wyniku przeprowadzonych pomiarów uzyskuje się uporządkowany ciąg N liczb: x1 , x2 , x3 ,..., x N , reprezentujący poszczególne parametry obiektu (ZE), który zwany jest wektorem pomiarowym X, a indywidualne wartości xk , k  1,2,..., N , składowymi wektora. Wektor X można również przedstawić jako punkt (wektor) w N- wymiarowej przestrzeni euklidesowej R N zwaną przestrzenią obserwacji. Współrzędne tego punktu w kartezjańskim układzie współrzędnych są liczbami rzeczywistymi. Zarówno punkty jak i wektor będzie oznaczany tą samą literą X.

1

Liczbową wartość wielkości fizycznych otrzymuje się dokonując pomiaru, tj. porównując daną wielkość z inną wielkością tego samego rodzaju, przyjętą za jednostkę. W wybranym układzie jednostek wyniki pomiarów są wyrażane określonymi liczbami. Metody opracowania i analizy wyników obejmują takie zagadnienia jak: - ocenę rzeczywistych wartości mierzonych wielkości; - ocenę dokładności pomiarów; - wybór wzorów empirycznych i ocenę ich parametrów; - ocena wpływu różnych czynników na wartość mierzoną; - badanie zależności korelacyjnych pomiędzy wielkościami. Przy dostatecznie dokładnych pomiarach jednej i tej samej wielkości poszczególne wyniki pomiarów różnią się jeden od drugiego, a więc są obarczone błędami. Błędem pomiaru nazywamy różnicę x-a między wynikiem pomiaru x i wartością rzeczywistą a mierzonej wielkości. Zazwyczaj błąd pomiaru jest nieznaczny, jak i nieznaczna jest wartość rzeczywista mierzonej wielkości (wyjątek stanowią pomiary znanych wielkości, mających na celu zbadanie błędów pomiaru, np. dla ustalenia dokładności przyrządów pomiarowych). Jednym z podstawowych zagadnień matematycznego opracowania wyników eksperymentu jest ocena wartości rzeczywistej mierzonej wielkości na podstawie otrzymanych wyników. Inaczej mówiąc, po kilkukrotnym zmierzeniu wielkości i otrzymaniu wyników, z których każdy zawiera jakiś niewiadomy błąd, stawia się zadanie obliczenia przybliżonej wartości a z możliwie małym błędem.

2

a)

Błędy duże Przy matematycznym opracowaniu wyników pomiarów przede wszystkim nie

należy uwzględniać wyników podejrzanych (omyłek) lub zawierających duże błędy. Duże błędy powstają na skutek zmiany podstawowych warunków pomiaru lub z braku uwagi eksperymentatora (np. odczyt „8” zamiast „3”). Po stwierdzeniu dużego błędu wynik pomiaru należy odrzucić, a sam pomiar powtórzyć. Zewnętrzną cechą wyniku zawierającego duży błąd jest to, że różni się on znacznie od wyników pozostałych pomiarów. Z reguły zakłada się, że wyniki pomiarów przedłożone do matematycznego opracowania nie zawierają błędów dużych. b)

Błędy systematyczne Błędy systematyczne powstają na skutek różnorodnych okoliczności.

Niekiedy w przeprowadzanej serii pomiarów udaje się wydzielić takie przyczyny błędów, których skutek działania może być obliczony. Np. jeśli po dokonaniu pomiarów stwierdzono nieprawidłową regulację przyrządu, która spowodowała przesunięcie początku odczytu, to wszystkie wskazania przyrządu będą przesunięte o stałą wielkość, jeśli skala przyrządu jest równomierna, albo o wielkość zmieniająca się według określonej reguły, jeśli skala jest nierównomierna. Innym przykładem może być zmiana warunków zera, np. temperatury, jeśli jest znany wpływ tych zmian na wyniki pomiarów (okres obrotów anteny, okres powtarzania impulsów). Do podanych przyczyn można również zaliczyć niedokładność przyrządów pomiarowych na granicach zakresu ich stosowalności. Ujawnienie błędów systematycznych wymaga specjalnych badań (np. dokonanie pomiarów jednej i tej samej wielkości różnymi metodami lub dokonanie pomiarów jednym i tym samym przyrządem pewnych znanych wielkości). Gdy tylko błędy systematyczne zostaną wykryte, a ich wartość ustalona, to można je łatwo usunąć przez wprowadzenie odpowiednich poprawek w wynikach pomiarów. Przy matematycznym opracowaniu wyników pomiarów błędów systematycznych nie uwzględnia się. 3

c)

Błędy przypadkowe Błędy pomiarów powstające po usunięciu wszystkich ujawnionych błędów

systematycznych, tj. błędy wyników pomiarów poprawionych przez wprowadzenie odpowiednich poprawek nazywa się przypadkowymi. Błędy przypadkowe powstają w wyniku działania wielu czynników, których skutki działania są tak nieznaczne, że nie można ich ujawnić i uwzględnić w wynikach pomiarów (przy danym poziomie techniki i dokładności pomiarów), np. wpływ

środowiska

atmosferycznego

na

wyniki

propagacji

fal

elektromagnetycznych. Błąd przypadkowy można traktować jako sumacyjny efekt działania takich czynników. Błędy przypadkowe są nie do usunięcia, nie można ich wykluczyć z żadnego wyniku pomiarów. Za pomocą metod rachunku prawdopodobieństwa można tylko uwzględnić ich wpływ na ocenę wartości rzeczywistej mierzonej wielkości, a więc określić wartość zmierzonej wielkości ze znacznie mniejszym błędem niż błędy poszczególnych pomiarów. Uwzględnienie wpływu błędów przypadkowych jest oparte na znajomości prawa ich rozkładu.

2. Rozkład błędów przypadkowych a)

Model probabilistyczny Błędy przypadkowe pomiaru charakteryzuje się określonym prawem rozkładu.

W teorii prawdopodobieństwa błędy przypadkowe z = x – a (a także i wynik pomiaru x= a + z) rozpatruje się jako wielkości przypadkowe, które mogą przyjmować dowolne rzeczywiste wartości, przy czym każdemu przedziałowi (z1, z2) odpowiada ściśle określona liczba, zwana prawdopodobieństwem występowania wielkości przypadkowej z w tym przedziale i oznaczona przez P( z1  z  z2 ) lub przez P( z  ( z1, z2 )) .

4

Prawdopodobieństwo

to

jest

wyidealizowaną

częstością

względną

występowania wielkości z w przedziale (z1, z2), a więc jest równe w przybliżeniu częstości względnej P ( z1  z  z 2 ) 

m n

gdzie: m – liczba wyników pomiarów, które umieszcza się w dowolnie obranym przedziale (z1, z2); n – ogólna liczba przeprowadzonych pomiarów. Rozkład prawdopodobieństwa zmiennej losowej z dla dowolnych przedziałów (z1, z2) wyraża się za pomocą całki z2

P ( z1  z  z 2 )   p (z )dz z1

gdzie : p(z ) - pewna nieujemna funkcja, spełniająca warunek



 p( z)dz  1 . Funkcja



ta całkowicie określa odpowiedni rozkład prawdopodobieństwa i nazywa się gęstością rozkładu.

b)

Rozkład normalny Najczęściej przyjmuje się, że rozkład błędów przypadkowych pomiaru jest

rozkładem normalnym (prawo Gaussa). Gęstość rozkładu normalnego jest określona wzorem z2

 1 2 p( z)  e 2  2

gdzie parametr  (  0) charakteryzuje dokładność pomiaru. Wykres gęstości rozkładu prawdopodobieństwa nazywa się krzywą rozkładu.

5

(1.1)

2 > 1 p(z)

p(z) 1 2 z

-3

0

z -3

3

-z1

0

-z2

3

Rys.1.1 Wykres gęstości prawdopodobieństwa

Prawdopodobieństwo znalezienia się zmiennej losowej w symetrycznym przedziale (z1, z2) wyraża się polem figury zakreskowanej. Im mniejsza jest  , tym mniejszy jest rozrzut błędów wokół zera. Jeżeli błędy przypadkowe z podlegają rozkładowi normalnemu, to prawdopodobieństwo tego, że z przyjmie wartość z przedziału symetrycznego (-z1, z1) oblicza się ze wzoru z P(  z1  z  z1 )  P( z  z1 )  2 1   

gdzie:  ( t) 

1 2

t



e 0

t2 2

dt 

1 P( z  t , t  0) 2

Funkcja (t) nosi nazwy całki prawdopodobieństwa (lub unormowanej funkcji Laplace’a lub po prostu funkcji Laplace’a). Funkcja (t) jest stabilizowana, w tablicach podawane są często jedynie wartości tej funkcji dla dodatnich wartości argumentu t. Dla ujemnych wartości argumentu t wartości funkcji (t) wyznacza się ze związku  ( t )    ( t )

Prawdopodobieństwo, że błąd przypadkowy jest zawarty w dowolnym przedziale (z1, z2) w przypadku rozkładu normalnego oblicza się ze wzoru z z P (z 1  z  z 2 )    2     1     

6

Prawdopodobieństwo, że błąd przypadkowy przekroczy granice  t  ( t  0) jest równe: P( z  t )  1  2 ( t)

(1.2)

Dla dużych wartości t prawdopodobieństwo (1.2) jest bardzo małe, np.: P ( z  3 )  1  2 (3)  0,0027 P( z  4 )  1  2 (4)  6  10 5 P ( z  5 )  1  2 (5)  6 10 7

Rozkład normalny błędów przypadkowych zazwyczaj jest dostatecznie zgodny z doświadczeniem, co może być sprawdzone przez dokonanie pomiaru znanych wielkości (wzorców), gdyż wtedy można dokładnie obliczyć wielkość błędów. Jeśli błędy przypadkowe z mają rozkład normalny z gęstością określoną przez (1.1), to rozkład wyników pomiarów x = a +2 ma gęstość  1  a , (x )  e  2

( x a )2 2 2

gdzie: a – wartość rzeczywista, x = a +z – wynik pomiaru, z – błąd przypadkowy. Gęstość ta różni się tylko przesunięciem o wielkość a od gęstości (1.1). Rozkład taki jest nazywany ogólnym rozkładem normalnym o środku a. Dla błędów przypadkowych zakłada się zawsze, że środkiem ich rozkładu jest zero.

7

c)

Wskaźniki dokładności pomiaru Parametr  nazywa się średnim błędem kwadratowym pomiaru lub błędem

standardowym. Kwadrat tego parametru (2) nazywa się wariancją (dyspersją) błędu. Niekiedy stosuje się i inne parametry dokładności pomiaru. Związki między różnymi parametrami dokładności pomiaru w przypadku rozkładu normalnego są następujące: -

błąd prawdopodobny   0,6745 ,

-

2 (  )  0,5

średni błąd bezwzględny 





z p ( z ) dz 



-

2  0,7979 2

miara dokładności h

1

 2

8

 0,7071

1



3. Metody wykluczania dużych błędów Jeżeli przy dokonywaniu pomiarów otrzymamy wynik, który znacznie się różni od wszystkich otrzymanych już wyników, wówczas nasuwa się podejrzenie, że wynik ten jest obarczony dużym błędem. Zagadnienie celowości wykluczenia jednego „odbiegającego” wyniku rozwiązuje się przez porównanie go z pozostałymi wynikami pomiaru. Stosowane są różne kryteria, w zależności od tego, czy znany jest średni błąd kwadratowy pomiaru  (zakłada się przy tym, że wszystkie pomiary są wykonane z tą sama dokładnością i niezależnie od siebie). a)

Metoda wykluczania przy znanym  Oznaczamy wynik „odbiegający” przez x** , a wszystkie inne wyniki pomiaru

przez x1 , x2 , ... , xn . Obliczamy średnią arytmetyczną: x

1 n x n i 1 i

x*  x

n n 1

a następnie wartość stosunku: t



(1.3)

Dla tej wartości t odczytujemy prawdopodobieństwo 1  2 (t ) z tablic rozkładu dystrybuanty rozkładu normalnego. Jeśli odczytane prawdopodobieństwo okaże się bardzo małe, to „odbiegający” wynik x * zawiera duży błąd (patrz rys.1.2) i należy go wykluczyć z dalszego opracowania. f(x)

x x*

Rys.1.2 Wykres obrazujący wartość prawdopodobieństwa 1  2( t) i związana z nim wartość x *

9

Zazwyczaj wybiera się jeden z trzech poziomów istotności (poziomów małych prawdopodobieństw).   0,05   0,01   0,001

Jeśli przy wybranym poziomie istotności  prawdopodobieństwo 1  2 ( t )   dla odpowiedniego stosunku t określonego przez (1.3), to wynik „odbiegający” x * zawiera duży błąd. Aby podkreślić probabilistyczny charakter tego wniosku mówi się, że wynik x * zawiera duży błąd z prawdopodobieństwem ufności P  1  . Wartość t  t(P ) , dla której 1  2(t )   , tzn. 2(t )  P , nazywa się wartością krytyczną stosunku (1.3), odpowiadająca prawdopodobieństwu ufności P. Jeżeli więc  = 0,01, to P = 0,99, wartość krytyczna t = t(P) = 2,576 i gdy stosunek (1.3) przekroczy tą wartość krytyczną, to wynik x * możemy wykluczyć z dalszych opracowań z prawdopodobieństwem ufności 0,99. PRZYKŁAD Wśród 41 wyników niezależnych pomiarów, otrzymanych ze średnim błędem kwadratowym  = 0,133, stwierdzono jeden odbiegający wynik x*  6,866 . Średnia z pozostałych 40 wyników wynosi x  6,500 . Czy można uważać, że wynik x * zawiera duży błąd i czy należy go wykluczyć z dalszego opracowania? Obliczyć wartość krytyczna tego błędu dla   0,01 . Obliczmy wartość stosunku: t

t

x*  x



6,866  6,500 0,133

41 40



n n 1

0,366  2,72 0,133

Z tablicy dla t = 2,72 odczytujemy 1  2 (t )  1  2 ( 2,72)  0, 0066 0,007

10

Jeśli Zawiera

1  2 ( t )  

on

błąd

duży

, to dla obliczonej wartości t wynik x * należy odrzucić. z

prawdopodobieństwem

P  1  .

Zatem

z

prawdopodobieństwem ufności P  0,993 można uważać, że wynik x * jest obarczony dużym błędem i należy go wykluczyć z dalszego opracowania wyników pomiaru. Dla   0,01 odczytujemy z tablic t = 2,576. x*  x 

b)

t  n 1 2,576  0,13 41  6,5  0,3426 1,0124  6,847  6,5  n 40

Metoda wykluczania przy nieznanym  Jeśli wartość  nie jest wcześniej znana, to ocenia się ją w przybliżeniu na

podstawie wyników pomiarów, tj. zamiast  przyjmuje się empiryczne odchylenie standardowe s

1 n  (x  x )2 n  1 i 1 i

Następnie oblicza się wartość stosunku: t

x*  x s

i otrzymaną wartość porównuje się z krytycznymi wartościami tn (P ) z tablic. Jeśli przy danej liczbie n wyników pomiarów do przyjęcia, otrzymana wartość t znajduje się między dwiema krytycznymi wartościami, które odpowiadają

prawdopodobieństwu

ufności

P1

i

P2

( P2  P1 ) ,

to

z

prawdopodobieństwem ufności większym niż P1 można twierdzić, że wynik x * zawiera duży błąd i należy go wykluczyć z dalszego opracowania wyników. Jeśli t  t n (P ) , to wynik x * można wykluczyć z prawdopodobieństwem P. Zauważmy, że jeśli prawdopodobieństwo ufności okaże się niedostateczne, świadczy to nie o braku dużego błędu, lecz tylko o braku dostatecznych podstaw do wykluczenia „odbiegającego” wyniku. 11

PRZYKŁAD Niech dla n (n =40) wyników niezależnych i jednakowo dokładnych pomiarów jakiejś wielkości średnia wartość x  6,500, a empiryczny parametr s  0,133 i niech ( n  1) -wszy pomiar daje wynik x*  6,866 . Czy można ten wynik

wykluczyć z dalszego opracowania? Rozwiązanie: t t

x*  x s

6,866  6,500  2,75 0,133

z tablicy odczytujemy: tn ( P)  t40 (0,99)  2,742

Jeśli t  t n (P ) , to wynik x* Otrzymany

stosunek

t  2,75

można wykluczyć z prawdopodobieństwem P. przekracza

wartość

krytyczną

2,742

przy

prawdopodobieństwie ufności P  0,99 . Zatem wynik x * można wykluczyć z prawdopodobieństwem ufności P  0,99 . Dla n  6 ,

t6 (0,99)  4,36 t6 (0,95)  2,78

Dla n  6 otrzymany stosunek 2,75 jest mniejszy od wartości krytycznej2,78 nawet przy prawdopodobieństwie ufności P  0,95 , a zatem wyniku x* nie można wykluczyć.

12

TECHNIKA OBLICZEŃ STATYSTYCZNYCH Do opracowania i analizy wyników pomiaru wybranych parametrów sygnału stosuje

się

najczęściej

metody

statystyki

matematycznej

(gdy

punktem

zainteresowania są pojedyncze wielkości fizyczne lub kilka wielkości statystycznie niezależnych), natomiast w zagadnieniach bardziej złożonych metody analizy regresji lub metody analizy wariancji (metoda najmniejszych kwadratów). W statystyce matematycznej rozpatruje się pewne zbiory zwane populacjami generalnymi (krótko – populacjami). Statystyka matematyczna zajmuje się metodami, przy pomocy których można wnioskować o wartościach pewnych cech populacji na podstawie badania tylko części tej populacji. Ta część populacji, która podlega bezpośredniemu badaniu nazywa się próbą. Liczbę elementów w próbie nazywamy licznością próby i oznaczamy literą n. Wnioskowanie statystyczne odbywa się na podstawie znajomości próby. Aby próba spełniała warunek reprezentatywności, musi być próbą losową, tzn. otrzymaną w sposób losowy. Z próbą związaną są takie pojęcia jak: -

statystyka;

-

parametry z próby;

-

rozkład z próby.

Badana jest cecha X populacji. Oznacza to, że jakaś cecha została wyróżniona i ta cecha jest zmienną losową (nie jest stałą dla wszystkich elementów tej populacji). Statystyką z próby n elementowej nazywamy każdą zmienną losową będącą funkcja wielowymiarowej zmiennej losowej ( X1, X 2 , ... , X n ) , gdzie zmienne losowe ( X1, X2 , ... , Xn ) są niezależne i mają jednakowy rozkład taki sam jak badanej cechy

populacji. S  f ( X1 , X 2 , ... , X n )

13

Każdą wartość ( x1 , x2 , ... , xn ) zmiennej losowej ( X1, X2 , ... , Xn ) nazywamy próbą n-elementową. Statystyki obliczane na podstawie próby noszą nazwę parametrów z próby. Do najbardziej istotnych statystyk zaliczyć można: -

wartość oczekiwaną z próby Xn

-

X i 1

i

wariancja z próby Sn2 

-

n

1 n



1 n  Xi  X n n i1



2

odchylenia standardowe z próby Sn 



1 n  Xi  X n n i 1



2

Podstawowymi rozkładami statystyki matematycznej są: -

rozkład 2 ;

-

rozkład T-Studenta;

-

rozkład F-Fischera (Fischera-Snedecoca).

Rozkłady te są stabilizowane i można je znaleźć prawie w każdym podręczniku statystyki matematycznej.

14

Rozkład 2 (chi – kwadrat) X1 , X 2 , ... , X n - zmienne losowe niezależne o rozkładzie normalnym N(0,1). n

Zmienna losowa Yn   X 2i ma rozkład 2 o n stopniach swobody. Rozkład 2 jest i 1

stabilizowany. Dla stopni swobody n  1, 2, ... , 30 i niektórych   (0,1) można z tablic odczytać liczbę u taką, że: P(Yn  u )  

f(x)

 x

u



0,01

...

0,99

n 1 2 . .

U

. 30

Jeśli liczba stopni swobody jest większa od 30 (n >30), to zmienna losowa 2Y n ma rozkład w przybliżeniu normalny o parametrach N

15



.

2 n  1, 1

Rozkład T-Studenta ...


Similar Free PDFs