Statisztika kezdőknek
fogalmát konfidencia intervallumok
Job Description Az értékelési folyamat
Az általános képlet a megbízhatósági intervallum
Az eredmények kiértékelése a megbízhatósági intervallum
Kimutatása abnormális
Bájtok ost statisztikák használjuk, hogy közelítse a jellemzőit bármilyen célpopuláció, például az átlagos
Nij családi jövedelem, az emberek hány százaléka vásárol ajándékot karácsonyra online átlagos összege fagylaltot fogyasztott évente az Egyesült Államokban (valószínűleg jobb, ha nem, hogy megtudja). Ezek a jellemzők együttesen paramétereknek nevezzük. Általában az emberek azt akarják, hogy értékelje (azaz feltételezzük) értéket azáltal, hogy a kiválasztás a beállított és a statisztika a minta, amely lehetővé teszi számukra, hogy a minőségi feltételezés. Tehát mi az a „minőségi feltételezés”?
A legjobb minőségű lenne a teljes hiánya feltételezések - azaz ha megvan a munka azonnal és pontosan határozza meg a paramétereket. De hogy pontosan meghatározzuk, a paraméter értéke lefolytatása nélkül népszámlálás a teljes lakosság, lehetetlen - a legtöbb esetben nem lenne fárasztó és költséges munka. De a statisztikák nem félnek a nehézségek, így gyakran mondják: „Ahhoz, hogy a statisztikus - így soha nem azt mondják, hogy van benne. A legfontosabb dolog - csak azért, hogy közelebb áll az igazsághoz. " Természetesen a statisztika biztos akar lenni abban, hogy az eredmények a lehető legpontosabb tükrözi a valóságot, mert a kutatás költöttek pénzt és időt. Ahhoz, hogy a legpontosabb eredményeket sokkal egyszerűbb, mint gondolnád. Ha a folyamatot megfelelően végzik (és a médiában nem gyakran fordul elő!), A durva becslést lehet pontosan tükrözik a beállítást. Ebben a fejezetben megtudhatja, röviden megbízhatósági intervallumok (azaz fajok gyanús becslések, hogy a statisztikusok használok és ajánlok), arról, hogy miért kell használni (szemben egy feltételezés), hogy hogyan kell értelmezni a megbízhatósági intervallum és látható, hogy téves feltételezéseket.
Nem minden feltételezések
Nyisson meg egy magazin vagy újság, kapcsolja be a rádiót vagy TV, és találsz rengeteg statisztikai adatok, amelyek közül sok kísérleti becslését egy összeget. Lehet, hogy vajon hogyan ezeket kaptuk
mutatók. Egyes esetekben a számok szigorúan tesztelt, másokban - ez csak egy véletlen lövés. Íme néhány példa a feltételezések, amelyeken én találkoznak egy szoba vezető magazin üzlet. Ők jöttek a különböző forrásokból származó.
26 millió ember legalább egyszer egy évben golfozni.
6,7% -a amerikai otthonok vásároltunk fizetés nélkül.
Bár ma nem könnyű munkát találni az egyes területeken új alkalmazottak valóban szükségünk van: a következő nyolc évben ez lesz 13.000 asszisztensek aneszteziológus. Fizetés - 80-95 ezer dollár évente ..
A szezon során, a Major League Baseball játékos használja átlagosan 90 bit.
Lamborghini Murcielago autó gyorsul 0-ról 60 mérföld óránként 3,7 másodperc. Maximális sebesség - körülbelül 205 mérföld per óra.
Néhány ezek az adatok könnyebb megszerezni, mint mások. Íme néhány olyan megfigyelést tehettem róla.
Honnan tudod, hogy 26 millió ember legalább egyszer egy évben golfozni? Tény, hogy megtudja, ez nem is olyan nehéz, mert minden golfozó, mielőtt a játék ki kell töltenie a kérdőívet. Tehát, miután megvizsgálta a kitöltött kérdőíveket lehet kvalitatív feltételezés, hogy hány ember játszik legalább egyszer egy évben. (Az egyetlen probléma - nem veszik figyelembe újra, amiket te már venni, mielőtt.)
Állítsa be a százalékos utazó szükséges orvosi ellátást, vagy otthon vásárolt fizetés nélkül lehet a felmérésben. Ha a felmérés töltenek-e be (lásd a fickó. 16), az ilyen adatokat lehet elég pontos.
Hogyan találjuk meg, hány asszisztensek aneszteziológus szükség a következő nyolc évben? Meg lehet kezdeni kideríteni, hogy hány szakember ebben az időszakban vonul, de nem veszi figyelembe a fejlődés az ipar. Készíts egy feltételezés lehet elég pontos, de a jövőbe tekintsünk nyolc évig egy vagy két év - ez sokkal nehezebb feladat.
Keresse az átlagos bitek számát használják a Major League Baseball szezonban, ez lehetséges, interjúk a játékosok, az emberek felelős a berendezések, illetve vállalatok a biteket.
Határozzuk meg a sebességet az autó nehezebb, de meg lehet csinálni egy kísérletet a stoppert. Ebben az esetben meg kell nézni számos különböző gépeken (nem csak egy) ugyanazt a modellt.
Szó távtartó azért használjuk, mert az eredmény alakítjuk intervallumot. Például, mondjuk, a gyermekek aránya, akik mint a baseball, 40% plusz / mínusz 3,5%. Ez azt jelenti, hogy a gyermekek aránya, akik szeretik a baseball, valahol a 40% - 3,5% = 36,5% és 40% + 3,5% = 43,5%. Így az alsó határ az intervallum - egy statisztika mínusz hibahatár, és a felső határ - az intézkedés plusz hibahatárral.
A szó a bizalom azért használjuk, mert van egy bizonyos fokú bizalom a folyamat, amelynek során kapott ebben az intervallumban. Ezt nevezik a bizalmi szint.
Képletek és példák a leggyakrabban használt megbízhatósági intervallumok, lásd 13. fejezet.
Magabiztos az eredmények értelmezése
Képzeld el, hogy - egy biológus és kutató, megpróbálja a halakat kézi hálózat, amelynek mérete megegyezik a szélessége a megbízhatósági intervallum. (A szélessége a hibahatár kettővel szorzott hogy figyelembe mind a összeadás és a kivonás.)
Tegyük fel, hogy a bizalmi szint 95%. Mit jelent ez? Ez azt jelenti, hogy ha újra és újra leadta hálót a víz, a fogás 95% -a hal. Horgászat ebben az esetben azt jelenti, hogy a megbízhatósági intervallum helyes volt, és tartalmazta a true paramétert (itt a paraméter által képviselt hal).
De ez azt jelenti, hogy van egy 95% -os eséllyel elkapni a halat, ha dobja a hálózat csak egyszer? Nem. Nem világos? Természetesen. Elmagyarázom: például, ha még csak kísérletet, hogy dobja a hálózat, és csukja be a szemét, mielőtt dobd a vízbe. Ezen a ponton, akkor 95% -át a halfogás. De húzza ki a hálózati víz alatt, anélkül, hogy kinyitotta volna a szemét -, és akkor már csak két lehetőség van: vagy halat fogni, vagy sem. Valószínűség nem játszik szerepet.
Hasonlóképpen, miután az adat gyűlt össze, és a megbízhatósági intervallum kiszámítása, akkor sem talál egy true paramétert a teljes népesség, vagy sem. Tehát, ha nem mondjuk 95% -ban biztos, hogy a paraméter ezen a tartományon belül, mert te vagy találni, vagy sem. Amit 95% -ban biztos - így
a folyamat, amelynek során adatokat gyűjtöttek, és megállapította, megbízhatósági intervallumban. Tudod, hogy időközönként, amelyek pontosan tükrözik az átlagos érték 95% -át eredményezi ezt a folyamatot. A fennmaradó 5% az összegyűjtött adatok a mintában, csak véletlenül rendellenesen magas vagy alacsony értékeket, ezért nem jelentenek az összessége. Ilyen esetekben nem lehet egy opció.
Így, a megfelelő méret és a hálózat szerkezetét, akkor elkapni a 95% -a hal
egy előre meghatározott ideig. De közben minden kísérletet valaha fogni a halat, vagy sem.
Megbízhatósági szinten, a minta mérete és változatossága aggregált - összes
Határozatok meghozatala előtt alapján valaki más értékelése a következőképpen kell eljárni.
Tudja meg, hogyan statisztikai mérés kaptunk. Meg kell az eredmény egy tudományos folyamat, amely összegyűjti megbízható, tárgyilagos és pontos adatokat. (Lásd. 2. és 3. fejezet)
Keresse meg a hibahatár. Ha nincs megadva, megtalálni az eredeti forrás.
11. fejezet becslések: A koncepció a megbízhatósági intervallumok
A pontos érték kiszámítása megbízhatósági intervallumok
Várakozás egy bizonyos szintű bizalmat a becsült eredmények
Általános módszer számítási megbízhatósági intervallum
Befolyásoló tényezők a szélessége a megbízhatósági intervallum
D overitelny intervallum - egy fantázianév statisztika, akivel közölték, és a hibahatár (általános információk a a bizalmas
Ebben a fejezetben megtudhatja, hogyan kell kiszámítani a saját CI. Lesz megismerkedhetnek néhány részletet a konfidencia intervallumok: mi teszi őket ugyanolyan vagy szélesebb, mint hogy miért lehet több vagy kevesebb biztos a kapott eredményeket, valamint hogy meg kell mérni, és hogy - nem. Ezzel az információval, akkor tudom, mit kell keresni, ha megfelel a statisztikai eredményeket, és képes lesz arra, hogy meghatározza, milyen pontosak vannak.
A számítás a megbízhatósági intervallum
A megbízhatósági intervallum a statisztikai mutató plusz / mínusz hibahatárral (lásd a fickó. 10). Tegyük fel például, szeretné tudni, hogy a százalékos pickup az összes jármű az Egyesült Államokban (ebben az esetben ez lesz a paraméter). Lehetetlen, hogy vizsgálja meg az összes autó az USA-ban, így nem véletlen minta 1000 jármű különböző autópályákon különböző napszakokban. Ennek eredményeképpen kiderül, hogy 7% -a kiválasztott járművet pickup teherautók. De nem lehet azt mondani, hogy pontosan 7% -a az összes autó lesz pickup teherautók az amerikai utakon, mivel ismert, hogy ez az eredmény alapján a kiválasztott gép 1000. Bár 7% - ez egészen közel a valódi szám, akkor nem lehet tudni, az biztos, mert akkor alapozza az eredményeket egy mintát, és nem minden jármű az Egyesült Államokban.
dohányfüst káros, volt 25,8% ± 1,6%.
A szélessége a megbízhatósági intervallum - hibahatárral, szorozni kettővel. Tegyük fel például, hogy a hibahatár 5%. Ennélfogva, a megbízhatósági intervallum index 7% plusz / mínusz 5% -től 7% - 5% = 2%, legfeljebb 7% + 5% = 12%. Ez azt jelenti, hogy a szélessége a megbízhatósági intervallum 12% - 2% = 10%. Egy egyszerűbb módja annak meghatározására, ezt az intervallumot - mondjuk, hogy a szélessége a megbízhatósági intervallum hibahatár szorozni kettővel. Ebben az esetben, a szélessége a megbízhatósági intervallum egyenlő 2 × 5% = 10%.
A szélessége a megbízhatósági intervallum - ez a távolság az alsó határa az intervallum (kilátásai - hibahatárt) a felső határ az intervallum (stat + hibahatár). És annak érdekében, hogy gyorsan meg a szélessége a megbízhatósági intervallum, hibahatáron lehet szorozni kettővel.
A következőkben ismertetjük a lépéseket paraméterbecslő konfidenciaintervallumokkal, és tippeket, hol lehet találni részletesebb információt minden egyes szakaszában.
1. Válassza ki a megbízhatósági szint és a minta mérete (lásd a fickó. 9).
2. Készítsen véletlen mintát elemek sokaságát (lásd CHAP. 3).
3. Gyűjtse megbízható és objektív adatok mintacellába. Több felmérés adatai vannak leírva 16. fejezet, és a kísérleti adatok - 17. fejezetében.
4. Határozza meg a statisztikát, általában közép- vagy frakció (lásd a fickó. 5) alapján az adatokat.
5. Számítsa hibahatáron (lásd a fickó. 10).
6. elemzése statisztikák plusz / mínusz hibahatárral és így a végső értékelést paramétert.
Ez az úgynevezett megbízhatósági intervalluma paramétert.
Választható megbízhatósági szinten
Megjegyezzük, hogy a példában a hozzáállása a tizenévesek füstmentes dohány (lásd. Az érintett szakaszon fent) az „95% -os megbízhatósági intervallum”. Mind a megbízhatósági intervallum (és ha arra kerül a sor, az egyes hibahatár) társult megbízhatósági szinten. Ebben a példában, a konfidenciaszint volt egyenlő 95%. Megbízhatósági szinten segít, hogy vegye figyelembe az egyéb lehetséges eredményeket érhetne el, ha csinál a feltételezésen alapul egyetlen mintán. Ha azt szeretnénk, hogy 95% -ban biztos a többi lehetséges kimenetelek, akkor a megbízhatósági szint 95% lesz.
Mi a megbízhatósági szint, a kutatók általában használ? Vannak különböző szintű 80-99%. A leggyakoribb megbízhatósági szint - 95%. Statisztika, mint a vicc: „Miért van a statisztikusok, mint a munkájukat? Mert meg kell adni a helyes választ mindössze 95% -ában. " (Érdemes megjegyezni, de nagyon jó?)
Ügyeljen arra, hogy a 95% - ami azt jelenti, hogy ha csinál sok-sok mintát, és minden alkalommal, eredményei alapján határozza meg a megbízhatósági intervallum 95% -os megbízhatósági intervallumok kapott esik jobbra a cél, azaz a valóban tükrözi a valós paraméter. Ahhoz, hogy a 95% -os megbízhatósági szint szerint egy ökölszabály meg kell összeadást vagy a „mintegy” 2 standard hibákat. A centrális határeloszlás-tétel segítségével pontosabb hívja ezt a számot, és így „2” valójában azt jelenti, 1.96. Táblázat. 10.1 10. fejezet bemutat néhány konfidenciaszintek és a megfelelő Z-értékek.
Ha azt szeretné, hogy még bízik a találatok több mint 95%, akkor meg kell összeadást vagy több standard hibával. Például, hogy biztosítani kell a 99% -os, meg kell fogadni hibahatárt, hozzátéve és kivonva a szórás háromszorosa. Minél nagyobb a bizalom, annál nagyobb az értéke Z, hosszabb és szélesebb, mint a hibahatár megbízhatósági intervallum (feltéve, hogy az összes többi adat ugyanaz marad). További bizalom fizetni.
Amikor a megnyilatkozás hipotézis segítségével megbízhatósági intervallum fő cél az, hogy megbízhatósági intervallum volt szűk. Akkor jobban meg tudjuk határozni a paramétert. Ha összeadni és kivonni a nagyobb számú, az eredmény kevésbé lesz pontos. Például tegyük fel, hogy megpróbálják meghatározni a járművek aránya
12. fejezet számítása pontos konfidenciaintervallumok
szövetségi autópálya pótkocsik, hogy 12 és 18 órán át, és ennek eredményeként kaptak 95% -os konfidencia intervallum, amely szerint a százalékos ilyen teherautók 50% plusz / mínusz 50%. Interval valóban csökken! (Természetesen ez csak egy vicc!) Azonban elfelejtette a legfontosabb dolog, hogy megpróbálnék minőségi feltételezés.
Ebben az esetben a megbízhatósági intervallum túl széles. Jobb lenne azt mondani, valahogy így: 95% a százalékos autók pótkocsik a szövetségi autópálya 12 és 18 óra a nap egyenlő 50% plusz / mínusz 3%. Ehhez lenne szükség nagyobb minta, de az a tény, hogy nem lenne szükség.
Tehát, ha a hibahatár kicsi - ez jó, ez azt jelenti, hogy kevesebb - még jobb? Nem mindig. Ahhoz, hogy maximalizálja a keskeny konfidencia intervallum, meg kell tölteni sokkal nehezebb - és drága - a tanulmány, és egy bizonyos ponton a költségnövekedést nem indokolja a kismértékű növekedése pontossággal. A legtöbb kutató a meghatározására (lásd például, a nők százalékos aránya republikánusok vagy dohányoztak) csendben tartalmát hibahatárral 2% és 3%.
Egy keskeny megbízhatósági intervallum - ez jó.
De hogyan lehet biztosítani, hogy a megbízhatósági intervallum keskeny volt elég? Elgondolkodtató ez a kérdés lesz, mielőtt az adatgyűjtést, mert vége után az adatgyűjtés a konfidencia intervallum szélessége már telepítve van.
A szélessége a megbízhatósági intervallum befolyásolja három tényező.
Konfidenciaszint (mint említettük az előző részben).
A változatosság mutatkozik a lakosság.
Formula hibahatár tekintetében az átlagos minta, jelentése: Z × s. ahol n
Z - értéket a standard normális eloszlás megfelelő megbízhatósági szint (lásd 1.10 fejezet 10 ..).
n - a minta mérete (lásd 9. fejezet).
Hiba lásd fickó. 10).
A megbízhatósági intervallum a középérték x egyenlő plusz / mínusz hibahatárral. 13. fejezet rendelkezik a leggyakoribb képlet bizalmi időközönként, akkor találkozhat.
Mindhárom tényező (a megbízhatósági szint, a minta mérete és változatossága a lakosság) nagyban befolyásolja a szélessége a megbízhatósági intervallum. Ön már tudja, milyen hatással van a megbízhatósági szint. A következő részben meg fogja tanulni, hogy a szélessége a megbízhatósági intervallum befolyásolja a minta mérete és a változékonyság a lakosság.