robusztus becslési
Az utóbbi évtizedekben egyre inkább tudatában van a tény, hogy néhány, a leggyakoribb statisztikai eljárások (beleértve azokat is, amelyek az optimális feltételezve, a normalitás) rendkívül érzékeny a viszonylag kis eltérések feltételezéseket. Ezért most vannak más eljárások - „robusztus” (. Az angol robusztus - erős, egészséges, izmos).
Mi jelenti a kifejezés robusztusság érzéketlen kis eltérések feltételezéseket. Az eljárás robusztus, ha a kis eltéréseket a feltételezett modellt kell rontja az eljárás (például diszperzió vagy aszimptotikus szintű fontosságát és erejét kritérium) közel kell lennie a névleges értékeket számított a feltételezett modell.
Tekintsük a robusztusság a forgalmazás. azaz helyzetek, amikor az igazi eloszlás némileg eltér a javasolt modell (jellemzően Gauss eloszlás). Ez nem csak a legfontosabb ügy, hanem a legalaposabban tanulmányozott. Sokkal kevesebbet tudunk arról, hogy mi történik azokban a helyzetekben, ahol több törött más standard statisztikai feltételezéseket, és milyen garanciákat kell biztosítani az ilyen esetekben.
A főbb értékelések
Bemutatjuk az értékelés három fő típusa () betűk rendre megfelelnek a maximum likelihood becslések típusú lineáris kombinációi rendstatisztikák és kapott pontszámok rangban kritériumoknak.
Különösen fontosak az értékelés a legrugalmasabb értékelés - elismerik közvetlen általánosítása a muitipararnéteres ügyben.
Maximális valószínűségét becslések a típusú (M-érték)
Bármilyen értékelés meghatározása a megoldás a extremális problémát a legkisebb fajok
vagy oldatként az implicit egyenlet
ahol - tetszőleges függvény, az úgynevezett egy becslést (vagy a maximális valószínűség becslését a típus); megjegyezni, hogy ha a kiválasztott függvényében, megkapjuk a szokásos maximális valószínűség becslés.
Különösen érdekeltek vagyunk értékelésében a nyírási
Az utóbbi egyenlet átírható az egyenértékű formában
Akkor adjon becslést formájában súlyozott átlag
súlya együtthatók a mintától függően.
Lineáris kombinációi rendstatisztikák (L-érték)
Tekintsük a statisztikát, amely egy lineáris kombinációja rendstatisztikák, vagy több általános beállítási értékeket az egyes funkciók:
Tegyük fel, hogy a súlyozó tényezők felhasználásával állítjuk elő a (váltakozva) méri az intervallum (0,1):
(Ez a választás együtthatók tartalékok teljes súly változatlan marad, azaz ^ n „/>, és rendelkezik szimmetrikus együtthatók, ha az intézkedés szimmetrikus arra a pontra.)
Abban az esetben, rassmatrivaevom becslést kapunk a funkcionális
Itt az függvény inverze a ffunktsii eloszlás függvény
- A legegyszerűbb példa a minta medián.
- Vinzorizovannoe átlagos (Winsorized átlag). Kiszámításához az értékek a kiindulási minta vannak elrendezve egy bizonyos sorrendben (például növekvő), majd mindkét oldalon el van vágva néhány százalék adatok (tipikusan, hogy 10% vagy 25% mindkét oldalon azonos), és a betakarított speciálisan kiválasztott módon helyébe értékek fennmaradó számok, akkor vyislyaetsya jelent számára a teljes minta.
- A csonkolt átlag (csonkolt átlag). Ennek számításához változatok számát átlagoltuk adatminta eltávolítás után mindkét oldalán egy bizonyos hányadát a tárgyak (ez a tartományban 5-25%).
- Vágott átlagos (Trimean). Az érték kiszámítása a következő képlettel „/>, ahol - quartilist i-edik érdekében.
Nem minden rendstatisztikák robusztusak. Maximum, minimum, átlag fele az összeg a legnagyobb és a legkisebb nem robusztus, azok jellemzőit, bemutatja, hogyan lehet megváltoztatni a megfigyelés, hogy ez nem befolyásolja a végeredményt egyenlő 0 A robusztus becslések ez a jellemző 50% esetében a medián és más, kevésbé és ez attól függ, hogy a százalékos használt nyírás adatokat.
A becslések kapott rangot kritériumok (R-érték)
Tekintsünk egy két mintát rank teszt, hogy meghatározzuk a eltolási paraméter hagyja, és a két független minta eloszlások és sootvetstvenno.Obedinim a mintát egy minta térfogata .Pust rangot a kombinált minta megfigyelés. Súly kérni. A kritérium vizsgálata a hipotézis ellen az alternatív 0 „alt =” \ Delta> 0 „/> statisztika alapján
Az általános szabály az, úgy véljük, hogy a súlyok segítségével kapott egy képlet funkció
Tény, hogy inkább dolgozni a következő számítási lehetőségek
Egyszerűsítése úgy vélik, hogy ettől a ponttól kezdve. Írunk statisztikák formájában funkcionális
amely upon helyettesítés válik
A gyakorlatban, a munka az utóbbi. Ezen kívül dolgozik azzal a megkötéssel, hogy
Ezen feltételek mellett, az elvárás szerinti statisztikák a nullhipotézis 0.
A becslések a két mintányi eltolódás a készítményben, és a váltás esetén egy minta alkalmazásával állíthatjuk elő a következő rank teszteket.
- Amennyiben két nyert minták közelítő egyenlet „/> kaptunk a minták, és
- Abban az esetben nyert mintában a feltétel „/> számítjuk ki a minta, és a. Ebben az esetben, nincs második minta tükörképe az eredeti minta.
Más szavakkal, a második mintát elmozdul mindaddig, amíg a kritérium nem perstala érezni a különbséget a nyírási. Megjegyezzük, hogy a nulla értéket a pontosság nem érhető el, mert „/> - folytonos függvény.
Így a offset becslést kapunk a függvényegyenlet meghatározva hallgatólagosan
Wilcoxon-teszt, ami becslések Hodges-Lehmann, azaz a becslések és. Figyeljük meg, hogy mi útmutatást a második esetben vezet a medián a sor minden párban Csak azok a párokat használunk a hagyományosabb kiviteli alakokban, amelyekben
Állandó ellenőrzés mértéke robusztusság, hogy jól válassza ki az értékeket intervallumban 1-2, például gyakran.
Ezután ál „/> számított új értékek” /> fit (és új). Lépéseket ismételjük, amíg a konvergencia.
Ha minden észrevételt elég pontos, a klasszikus értékelési diszperzió formájában egy külön megfigyelési \ sum „/>, és a standard hibát, a maradékot is ebben az esetben az értékelésére s” />, ahol az i-edik diagonális eleme a mátrixban.
Mikor együtt használják = y_i ^ maradékok módosított maradékokat -. „/>, Amint az könnyen látható, kiderül alábecsléséhez Megjelent skála elmozdulás lehet szüntetni beállításával (első közelítésben)
ahol - az esetek száma nem paraméterek száma, - állandó megfigyelések száma (= y_i „/>).
Nyilvánvaló, hogy ez az eljárás cáfolja a hatását külső megfigyelések.
Ezen a módon lehetőség van arra, hogy legyen egy robusztus kiviteli alakban minden olyan eljárás. Először is, az adatok „szerkesztett” - szubsztituált fejlődött megfigyelési kapott értékek a szerelés, és azután szekvenciálisan végezzük, amíg overfitting konvergencia eléréséig meg nem jelenik. Akkor kell alkalmazni a helyes eljárás az ál.
irodalom
- P. Huber robusztus statisztika. - Mir 1984.
Lásd. Szintén útmutatást az erőforrások felhasználásának MachineLearning.ru a tanulási folyamatban.