Studentai ir moksleiviai – pagalba studijuojant. V

Eilės pastatytos pagal kiekį, yra vadinami variacinis.

Paskirstymo seriją sudaro galimybės(būdingos reikšmės) ir dažniai(grupių skaičius). Vadinami dažniai, išreikšti santykinėmis vertėmis (dalimis, procentais). dažniai. Visų dažnių suma vadinama pasiskirstymo serijos tūriu.

Pagal tipą paskirstymo serijos skirstomos į diskretus(pagrįsta nepertraukiamomis funkcijos reikšmėmis) ir intervalas(pagrįsta nuolatinėmis funkcijų reikšmėmis).

Variacijų serija reiškia du stulpelius (arba eilutes); vienoje iš jų yra atskiros kintamojo atributo reikšmės, vadinamos variantais ir žymimos X; o kitame – absoliutūs skaičiai, rodantys, kiek kartų (kaip dažnai) pasitaiko kiekviena parinktis. Antrojo stulpelio rodikliai vadinami dažniais ir sutartinai žymimi f. Dar kartą pažymime, kad antrajame stulpelyje taip pat gali būti naudojami santykiniai rodikliai, apibūdinantys atskirų variantų dažnio dalį bendrame dažnių kiekyje. Šie santykiniai rodikliai vadinami dažniais ir sutartinai žymimi ω Visų dažnių suma šiuo atveju lygi vienetui. Tačiau dažnius galima išreikšti ir procentais, tada visų dažnių suma duoda 100%.

Jeigu variacinių eilučių variantai išreiškiami diskrečiomis reikšmėmis, tai tokia variacijų eilutė vadinama diskretus.

Ištisinėms savybėms variacijų serijos sudaromos kaip intervalas, tai yra, atributo reikšmės jose išreiškiamos „nuo ... iki ...“. Tokiu atveju minimalios atributo reikšmės tokiame intervale vadinamos apatine intervalo riba, o maksimalios - viršutine riba.

Intervalinių variacijų serijos taip pat sukurtos atskiroms funkcijoms, kurios skiriasi plačiame diapazone. Intervalų serijos gali būti lygus ir nelygios intervalais.

Apsvarstykite, kaip nustatoma vienodų intervalų reikšmė. Įveskime tokį žymėjimą:

i– intervalo reikšmė;

- maksimali atributo reikšmė populiacijos vienetams;

- minimali atributo reikšmė populiacijos vienetams;

n- skirtų grupių skaičius.

jei n žinomas.

Jei iš anksto sunku nustatyti paskirtų grupių skaičių, optimaliam intervalo dydžiui apskaičiuoti esant pakankamam populiacijos dydžiui galima rekomenduoti Sturgesso 1926 m. pasiūlytą formulę:

n = 1+ 3,322 log N, kur N yra vienetų skaičius populiacijoje.

Nevienodų intervalų reikšmė nustatoma kiekvienu individualiu atveju, atsižvelgiant į tiriamo objekto ypatybes.

Imties statistinis pasiskirstymas iškvieskite parinkčių sąrašą ir juos atitinkančius dažnius (arba santykinius dažnius).

Imties statistinis pasiskirstymas gali būti nurodytas lentelės pavidalu, kurios pirmame stulpelyje yra parinktys, o antrajame - šiuos variantus atitinkantys dažniai. ni, arba santykinius dažnius Pi .

Imties statistinis pasiskirstymas

Intervalų serijos vadinamos variacijų serijomis, kuriose jų formavimosi požymių reikšmės išreiškiamos tam tikrose ribose (intervalais). Šiuo atveju dažniai reiškia ne atskiras atributo reikšmes, o visą intervalą.

Intervalų pasiskirstymo serijos sudaromos pagal ištisines kiekybines charakteristikas, taip pat pagal atskiras charakteristikas, kurios skiriasi reikšmingame diapazone.

Intervalų eilutes galima pavaizduoti imties statistiniu pasiskirstymu, nurodant intervalus ir jų atitinkamus dažnius. Šiuo atveju intervalo dažniu imama į šį intervalą patekusio varianto dažnių suma.

Grupuojant pagal kiekybinius ištisinius požymius, svarbu nustatyti intervalo dydį.

Be imties vidurkio ir imties dispersijos, naudojamos ir kitos variacijų eilučių charakteristikos.

Madaįvardykite variantą, kurio dažnis didžiausias.

Ypatinga vieta statistinėje analizėje tenka tiriamo požymio ar reiškinio vidutinio lygio nustatymui. Vidutinis objekto lygis matuojamas vidutinėmis reikšmėmis.

Vidutinė reikšmė apibūdina bendrą kiekybinį tiriamo požymio lygį ir yra statistinės populiacijos grupinė savybė. Jis niveliuoja, susilpnina atsitiktinius atskirų stebėjimų nukrypimus viena ar kita kryptimi ir išryškina pagrindinę, tipinę tiriamojo požymio savybę.

Vidurkiai plačiai naudojami:

1. Įvertinti gyventojų sveikatos būklę: fizinio išsivystymo ypatybes (ūgis, svoris, krūtinės apimtis ir kt.), nustatant įvairių ligų paplitimą ir trukmę, analizuojant demografinius rodiklius (natūralus gyventojų judėjimas, vidutinė gyvenimo trukmė, gyventojų reprodukcija). , vidutinis gyventojų skaičius ir kt.).

2. Ištirti gydymo įstaigų, medicinos personalo veiklą ir įvertinti jų darbo kokybę, planuojant ir nustatant gyventojų poreikius teikiant įvairias medicinos pagalbos rūšis (vidutinis kreipimųsi ar apsilankymų skaičius vienam gyventojui per metus, vidutinė buvimo trukmė ligonio stacionare, vidutinė paciento apžiūros trukmė, vidutinis aprūpinimas gydytojais, lovomis ir kt.).

3. Apibūdinti sanitarinę ir epidemiologinę būklę (vidutinis cecho oro dulkėtumas, vidutinis plotas vienam žmogui, vidutinis baltymų, riebalų ir angliavandenių suvartojimas ir kt.).

4. Nustatyti medicininius ir fiziologinius parametrus normoje ir patologijoje, apdorojant laboratorinius duomenis, nustatyti atrankinio tyrimo rezultatų patikimumą atliekant socialinius-higieninius, klinikinius, eksperimentinius tyrimus.

Vidutinės vertės apskaičiuojamos remiantis variacijų eilėmis. Variacijų serija- tai kokybiškai vienalytė statistinė aibė, kurios atskiri vienetai apibūdina kiekybinius tiriamo požymio ar reiškinio skirtumus.

Kiekybinis kitimas gali būti dviejų tipų: nenutrūkstamas (diskretus) ir nuolatinis.

Nenutrūkstamas (diskretusis) ženklas išreiškiamas tik sveikuoju skaičiumi ir negali turėti jokių tarpinių reikšmių (pavyzdžiui, apsilankymų skaičius, svetainės gyventojų skaičius, vaikų skaičius šeimoje, ligos sunkumas taškais ir kt.).

Ištisinis ženklas gali įgyti bet kokias reikšmes tam tikrose ribose, įskaitant trupmenines, ir išreiškiamas tik apytiksliai (pavyzdžiui, svoris - suaugusiems gali būti ribojamas kilogramais, o naujagimiams - gramais; ūgis, kraujospūdis, laikas išleista paciento apžiūrai ir pan.).



Kiekvieno atskiro požymio ar reiškinio, įtraukto į variacijų seriją, skaitmeninė vertė vadinama variantu ir nurodoma raide V . Pavyzdžiui, matematinėje literatūroje yra ir kitų žymenų x arba y.

Variacijų serija, kurioje kiekviena parinktis nurodoma vieną kartą, vadinama paprasta. Tokios serijos naudojamos daugeliui statistinių problemų kompiuterinio duomenų apdorojimo atveju.

Padidėjus stebėjimų skaičiui, paprastai kartojasi varianto reikšmės. Šiuo atveju jis sukuria sugrupuotos variacijų serijos, kur nurodytas pakartojimų skaičius (dažnis, žymimas raide " R »).

Reitinguota variacijų serija susideda iš parinkčių, išdėstytų didėjančia arba mažėjančia tvarka. Su reitingavimu galima sudaryti ir paprastas, ir grupines serijas.

Intervalų variacijų serija yra sudaryti siekiant supaprastinti vėlesnius skaičiavimus, atliekamus nenaudojant kompiuterio, naudojant labai daug stebėjimo vienetų (daugiau nei 1000).

Nuolatinės variacijos serijos apima variantų reikšmes, kurios gali būti bet kokios vertės.

Jei variacijų serijoje atributo (parinkčių) reikšmės pateikiamos atskirų konkrečių skaičių forma, tada tokia serija vadinama diskretus.

Bendrosios atributo reikšmių charakteristikos, atspindėtos variacijų serijoje, yra vidutinės vertės. Tarp jų dažniausiai naudojami: aritmetinis vidurkis M, mada Mo ir mediana aš. Kiekviena iš šių savybių yra unikali. Jie negali pakeisti vienas kito ir tik visumoje, gana išsamiai ir glausta forma, yra variacijų serijos ypatybės.

Mada (Mo) įvardykite dažniausiai pasitaikančių parinkčių reikšmę.

Mediana (aš) yra varianto reikšmė, dalijanti diapazono variacijų eilutę per pusę (kiekvienoje medianos pusėje yra po pusę varianto). Retais atvejais, kai yra simetriška variacijų eilutė, režimas ir mediana yra lygūs vienas kitam ir sutampa su aritmetinio vidurkio reikšme.

Tipiškiausia variantų verčių charakteristika yra aritmetinis vidurkis vertė ( M ). Matematinė literatūra žymima .

Aritmetinis vidurkis (M, ) yra bendra kiekybinė tam tikros tiriamų reiškinių požymio charakteristika, sudaranti kokybiškai vienalytę statistinę aibę. Atskirkite paprastą aritmetinį vidurkį ir svertinį vidurkį. Paprastas aritmetinis vidurkis apskaičiuojamas paprastoms variacijų serijoms susumavus visas parinktis ir padalijus šią sumą iš bendro variantų, įtrauktų į šią variacijų eilutę, skaičiaus. Skaičiavimai atliekami pagal formulę:

kur: M - paprastas aritmetinis vidurkis;

Σ V - sumos pasirinkimas;

n- stebėjimų skaičius.

Sugrupuotose variacijų eilutėse nustatomas svertinis aritmetinis vidurkis. Jo apskaičiavimo formulė:

kur: M - aritmetinis svertinis vidurkis;

Σ vp - varianto sandaugų suma jų dažniuose;

n- stebėjimų skaičius.

Esant dideliam stebėjimų skaičiui, atliekant rankinius skaičiavimus, galima naudoti momentų metodą.

Aritmetinis vidurkis turi šias savybes:

varianto nukrypimų nuo vidurkio suma ( Σ d ) yra lygus nuliui (žr. 15 lentelę);

Dauginant (dalinant) visus variantus iš to paties koeficiento (daliklio), aritmetinis vidurkis dauginamas (dalinamas) iš to paties koeficiento (daliklio);

Jei prie visų variantų pridėsite (atimkite) tą patį skaičių, aritmetinis vidurkis padidės (sumažės) tuo pačiu skaičiumi.

Aritmetiniai vidurkiai, paimti patys, neatsižvelgiant į eilučių, iš kurių jie skaičiuojami, kintamumą, gali nevisiškai atspindėti variacijų eilučių savybes, ypač kai reikia lyginti su kitais vidurkiais. Vidutinės vertės, artimos vertei, gali būti gaunamos iš serijų su skirtingu sklaidos laipsniu. Kuo atskiri variantai artimesni vienas kitam pagal savo kiekybines charakteristikas, tuo mažiau sklaida (svyravimas, kintamumas) serija, tuo tipiškesnis jos vidurkis.

Pagrindiniai parametrai, leidžiantys įvertinti požymio kintamumą, yra šie:

· apimtis;

Amplitudė;

· Standartinis nuokrypis;

· Variacijos koeficientas.

Apytiksliai bruožo svyravimas gali būti vertinamas pagal variacijų eilučių apimtį ir amplitudę. Diapazonas rodo didžiausią (V max) ir mažiausią (V min) serijos parinktis. Amplitudė (A m) yra šių parinkčių skirtumas: A m = V max - V min .

Pagrindinis, visuotinai priimtas variacijų eilučių svyravimo matas yra dispersija (D ). Tačiau dažniausiai naudojamas parametras yra patogesnis parametras, apskaičiuojamas pagal dispersiją - standartinį nuokrypį ( σ ). Atsižvelgiama į nuokrypio vertę ( d ) kiekvieno variacijų eilutės varianto nuo jo aritmetinio vidurkio ( d=V – M ).

Kadangi varianto nuokrypiai nuo vidurkio gali būti teigiami ir neigiami, susumuoti jie suteikia reikšmę „0“ (S d=0). Norėdami to išvengti, nuokrypio vertės ( d) pakeliami iki antrojo laipsnio ir apskaičiuojamas vidurkis. Taigi variacijų eilutės dispersija yra varianto nuokrypių nuo aritmetinio vidurkio vidutinis kvadratas ir apskaičiuojama pagal formulę:

Tai yra svarbiausia kintamumo charakteristika ir naudojama daugeliui statistinių testų apskaičiuoti.

Kadangi dispersija išreiškiama kaip nuokrypių kvadratas, jos reikšmės negalima naudoti lyginant su aritmetiniu vidurkiu. Šiems tikslams jis naudojamas standartinis nuokrypis, kuris žymimas ženklu „Sigma“ ( σ ). Jis apibūdina visų variacijų eilučių variantų vidutinį nuokrypį nuo aritmetinio vidurkio tais pačiais vienetais kaip ir pats vidurkis, todėl juos galima naudoti kartu.

Standartinis nuokrypis nustatomas pagal formulę:

Ši formulė taikoma stebėjimų skaičiui ( n ) yra didesnis nei 30. Su mažesniu skaičiumi n standartinio nuokrypio vertė turės paklaidą, susijusią su matematiniu poslinkiu ( n - vienas). Šiuo atžvilgiu tikslesnį rezultatą galima gauti atsižvelgiant į tokį standartinio nuokrypio apskaičiavimo formulės paklaidą:

standartinis nuokrypis (s ) yra atsitiktinio dydžio standartinio nuokrypio įvertis X palyginti su matematiniais lūkesčiais, pagrįstais nešališku jo dispersijos įvertinimu.

Dėl vertybių n > 30 standartinis nuokrypis ( σ ) ir standartinis nuokrypis ( s ) bus tas pats ( σ=s ). Todėl daugumoje praktinių vadovų šie kriterijai traktuojami kaip turintys skirtingą reikšmę. Programoje „Excel“ standartinį nuokrypį galima apskaičiuoti naudojant funkciją =STDEV(diapazonas). O norint apskaičiuoti standartinį nuokrypį, reikia sukurti atitinkamą formulę.

Vidutinis kvadratas arba standartinis nuokrypis leidžia nustatyti, kiek objekto reikšmės gali skirtis nuo vidutinės vertės. Tarkime, kad yra du miestai, kurių vidutinė paros temperatūra vasaros laikotarpiu vienoda. Vienas iš šių miestų yra pakrantėje, o kitas - žemyne. Yra žinoma, kad miestuose, esančiuose pakrantėje, dienos temperatūrų skirtumai yra mažesni nei miestuose, esančiuose sausumoje. Todėl prie pajūrio miesto dienos temperatūros standartinis nuokrypis bus mažesnis nei antrojo miesto. Praktiškai tai reiškia, kad kiekvienos konkrečios dienos vidutinė oro temperatūra žemyne ​​esančiame mieste labiau skirsis nuo vidutinės reikšmės nei pakrantės mieste. Be to, standartinis nuokrypis leidžia įvertinti galimus temperatūros nuokrypius nuo vidurkio su reikiamu tikimybės lygiu.

Remiantis tikimybių teorija, reiškiniuose, kurie paklūsta normalaus skirstinio dėsniui, yra griežtas ryšys tarp aritmetinio vidurkio, standartinio nuokrypio ir variantų ( trijų sigmų taisyklė). Pavyzdžiui, 68,3% kintamojo atributo verčių yra M ± 1 ribose σ , 95,5 % – M ± 2 ribose σ ir 99,7 % – M ± 3 ribose σ .

Standartinio nuokrypio reikšmė leidžia spręsti apie variacijų eilučių ir tiriamos grupės homogeniškumo pobūdį. Jei standartinio nuokrypio reikšmė yra maža, tai rodo pakankamai aukštą tiriamo reiškinio homogeniškumą. Aritmetinis vidurkis šiuo atveju turėtų būti pripažintas gana būdingu šiai variacijų eilutei. Tačiau per maža sigma verčia galvoti apie dirbtinį stebėjimų pasirinkimą. Esant labai didelei sigmai, aritmetinis vidurkis mažesniu mastu apibūdina variacijų eilutes, o tai rodo reikšmingą tiriamo požymio ar reiškinio kintamumą arba tiriamosios grupės nevienalytiškumą. Tačiau standartinio nuokrypio vertės palyginimas galimas tik to paties dydžio ženklams. Iš tiesų, jei palyginsime naujagimių ir suaugusiųjų svorio įvairovę, visada gausime didesnes sigmos vertes suaugusiems.

Skirtingų matmenų savybių kintamumo palyginimas gali būti atliktas naudojant variacijos koeficientas. Jis išreiškia įvairovę procentais nuo vidurkio, o tai leidžia palyginti skirtingus požymius. Variacijos koeficientas medicinos literatūroje žymimas ženklu " Su "ir matematinėje" v» ir apskaičiuojamas pagal formulę:

Variacijos koeficiento reikšmės, mažesnės nei 10%, rodo nedidelę sklaidą, nuo 10 iki 20% - apie vidutinę, daugiau nei 20% - apie stiprią sklaidą aplink aritmetinį vidurkį.

Aritmetinis vidurkis paprastai apskaičiuojamas remiantis imties duomenimis. Kartojant tyrimus atsitiktinių reiškinių įtakoje, aritmetinis vidurkis gali keistis. Taip yra dėl to, kad paprastai tiriama tik dalis galimų stebėjimo vienetų, tai yra imties populiacija. Informaciją apie visus galimus tiriamą reiškinį reprezentuojančius vienetus galima gauti tiriant visą bendrąją populiaciją, o tai ne visada įmanoma. Tuo pačiu, siekiant apibendrinti eksperimentinius duomenis, domina bendros populiacijos vidurkio reikšmė. Todėl norint suformuluoti bendrą išvadą apie tiriamą reiškinį, imties visumos pagrindu gauti rezultatai statistiniais metodais turi būti perkelti į bendrąją aibę.

Norint nustatyti imties tyrimo ir bendrosios visumos sutapimo laipsnį, būtina įvertinti klaidų kiekį, kuris neišvengiamai atsiranda imties stebėjimo metu. Tokia klaida vadinama reprezentatyvumo klaida“ arba „Vidutinė aritmetinio vidurkio paklaida“. Tiesą sakant, tai yra skirtumas tarp vidurkių, gautų atliekant atrankinį statistinį stebėjimą, ir panašių verčių, kurios būtų gaunamos nuolat tiriant tą patį objektą, t.y. tiriant bendrą populiaciją. Kadangi imties vidurkis yra atsitiktinis dydis, tokia prognozė sudaroma su tyrėjui priimtinu tikimybės lygiu. Medicininiuose tyrimuose jis yra mažiausiai 95 proc.

Reprezentatyvumo klaidos nereikėtų painioti su registracijos klaidomis ar dėmesio klaidomis (spausdinimo klaidomis, klaidingais skaičiavimais, spausdinimo klaidomis ir pan.), kurias reikėtų sumažinti taikant tinkamą metodiką ir eksperimente naudojamas priemones.

Reprezentatyvumo paklaidos dydis priklauso ir nuo imties dydžio, ir nuo požymio kintamumo. Kuo didesnis stebėjimų skaičius, tuo imtis arčiau bendros visumos ir tuo mažesnė paklaida. Kuo kintamesnis bruožas, tuo didesnė statistinė paklaida.

Praktikoje kintamumo eilučių reprezentatyvumo paklaidai nustatyti naudojama ši formulė:

kur: m – reprezentatyvumo klaida;

σ – standartinis nuokrypis;

n yra stebėjimų skaičius imtyje.

Iš formulės matyti, kad vidutinės paklaidos dydis yra tiesiogiai proporcingas standartiniam nuokrypiui, t.y., tiriamo požymio kintamumui, ir atvirkščiai proporcingas stebėjimų skaičiaus kvadratinei šakniai.

Atliekant statistinę analizę, pagrįstą santykinių verčių skaičiavimu, variacijų eilučių sudarymas nėra privalomas. Šiuo atveju santykinių rodiklių vidutinės paklaidos nustatymas gali būti atliktas naudojant supaprastintą formulę:

kur: R- santykinio rodiklio reikšmė, išreikšta procentais, ppm ir kt.;

q- P atvirkštinė vertė ir išreikšta (1-P), (100-P), (1000-P) ir tt, priklausomai nuo to, kokiu pagrindu rodiklis apskaičiuojamas;

n yra stebėjimų skaičius imtyje.

Tačiau nurodyta santykinių verčių reprezentatyvumo paklaidos apskaičiavimo formulė gali būti taikoma tik tada, kai rodiklio reikšmė yra mažesnė už jo bazę. Daugeliu atvejų skaičiuojant intensyvius rodiklius ši sąlyga neįvykdoma, o rodiklis gali būti išreikštas skaičiumi, didesniu nei 100 % arba 1000 %o. Esant tokiai situacijai, sudaroma variacijų eilutė ir reprezentatyvumo paklaida apskaičiuojama naudojant vidutinių verčių formulę, pagrįstą standartiniu nuokrypiu.

Aritmetinio vidurkio vertės prognozavimas bendrojoje populiacijoje atliekamas nurodant dvi reikšmes - mažiausią ir didžiausią. Šios ekstremalios galimų nuokrypių vertės, kurių ribose gali svyruoti norima vidutinė bendrosios populiacijos vertė, vadinamos " Pasitikėjimo ribos».

Tikimybių teorijos postulatai įrodė, kad esant normaliam požymio pasiskirstymui su 99,7% tikimybe, vidurkio nuokrypių kraštutinės vertės neviršys trigubos reprezentatyvumo paklaidos ( M ± 3 m ); 95,5% - ne daugiau kaip dvigubos vidutinės vertės paklaidos reikšmė ( M ±2 m ); 68,3% - ne daugiau kaip vienos vidutinės paklaidos reikšmė ( M ± 1 m ) (9 pav.).

P%

Ryžiai. 9. Normaliojo skirstinio tikimybinis tankis.

Atkreipkite dėmesį, kad aukščiau pateiktas teiginys galioja tik ypatybei, kuri paklūsta normaliam Gauso skirstinio dėsniui.

Dauguma eksperimentinių tyrimų, taip pat ir medicinos srityje, yra susiję su matavimais, kurių rezultatai tam tikrame intervale gali įgauti beveik bet kokią reikšmę, todėl, kaip taisyklė, aprašomi ištisinių atsitiktinių dydžių modeliu. Šiuo atžvilgiu dauguma statistinių metodų atsižvelgia į nuolatinį skirstymą. Vienas iš šių skirstinių, kuris atlieka esminį vaidmenį matematinėje statistikoje, yra normalusis arba Gauso skirstinys.

Taip yra dėl daugelio priežasčių.

1. Visų pirma, daug eksperimentinių stebėjimų gali būti sėkmingai aprašyti naudojant normalųjį skirstinį. Iš karto reikia pažymėti, kad nėra empirinių duomenų pasiskirstymo, kuris būtų visiškai normalus, nes normaliai pasiskirstęs atsitiktinis kintamasis yra diapazone nuo iki , o tai niekada neįvyksta praktiškai. Tačiau normalusis pasiskirstymas labai dažnai yra geras apytikslis.

Ar atliekami žmogaus kūno svorio, ūgio ir kitų fiziologinių parametrų matavimai – visur labai daug atsitiktinių veiksnių (natūralių priežasčių ir matavimo paklaidų) turi įtakos rezultatams. Ir, kaip taisyklė, kiekvieno iš šių veiksnių poveikis yra nereikšmingas. Patirtis rodo, kad tokiais atvejais rezultatai pasiskirstys maždaug normaliai.

2. Daugelis skirstinių, susijusių su atsitiktine imtimi, padidėjus pastarosios tūriui, tampa normalios.

3. Normalus skirstinys puikiai tinka kaip apytikslis kitų nuolatinių skirstinių (pvz., asimetrinių) aprašymas.

4. Normalusis skirstinys turi nemažai palankių matematinių savybių, kurios iš esmės užtikrino platų jo panaudojimą statistikoje.

Kartu reikia pažymėti, kad medicininiuose duomenyse yra daug eksperimentinių skirstinių, kurių negalima apibūdinti normaliojo pasiskirstymo modeliu. Norėdami tai padaryti, statistika sukūrė metodus, kurie paprastai vadinami "neparametriniais".

Statistinis metodas, tinkamas konkretaus eksperimento duomenims apdoroti, turėtų būti pasirenkamas atsižvelgiant į tai, ar gauti duomenys priklauso normalaus skirstinio dėsniui. Hipotezių tikrinimas dėl ženklo pavaldumo normaliojo skirstinio dėsniui atliekamas naudojant dažnio pasiskirstymo histogramą (grafiką), taip pat daugybę statistinių kriterijų. Tarp jų:

Asimetrijos kriterijus ( b );

Kurtozės tikrinimo kriterijai ( g );

Shapiro-Wilks kriterijus ( W ) .

Kiekvienam parametrui atliekama duomenų pasiskirstymo pobūdžio analizė (tai dar vadinama pasiskirstymo normalumo testu). Norint užtikrintai spręsti apie parametrų skirstinio atitiktį normaliajam dėsniui, reikia pakankamai didelio stebėjimo vienetų skaičiaus (ne mažiau kaip 30 reikšmių).

Normalaus pasiskirstymo atveju pasvirumo ir kreivumo kriterijai įgyja reikšmę 0. Jei skirstinys perkeliamas į dešinę b > 0 (teigiama asimetrija), su b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. At g > 0 pasiskirstymo kreivė yra ryškesnė, jei g < 0 пик более сглаженный, чем функция нормального распределения.

Norint patikrinti normalumą naudojant Shapiro-Wilks testą, reikia rasti šio kriterijaus reikšmę naudojant statistines lenteles reikiamu reikšmingumo lygiu ir priklausomai nuo stebėjimo vienetų skaičiaus (laisvės laipsnių). 1 priedas. Normalumo hipotezė atmetama esant mažoms šio kriterijaus reikšmėms, kaip taisyklė w <0,8.

Variacijų serija: apibrėžimas, tipai, pagrindinės charakteristikos. Skaičiavimo būdas
mada, mediana, aritmetinis vidurkis medicinos ir statistikos studijose
(Rodyti sąlyginiu pavyzdžiu).

Variacinė serija yra tiriamo požymio skaitinių reikšmių serija, kurios skiriasi viena nuo kitos savo dydžiu ir yra išdėstytos tam tikra seka (didėjimo arba mažėjimo tvarka). Kiekviena serijos skaitinė reikšmė vadinama variantu (V), o skaičiai, rodantys, kaip dažnai tas ar kitas variantas pasitaiko šios serijos sudėtyje, vadinami dažniu (p).

Bendras stebėjimų atvejų skaičius, iš kurių susideda variacijų eilutė, žymimas raide n. Tirtų charakteristikų reikšmės skirtumas vadinamas variacija. Jei kintamojo ženklas neturi kiekybinio mato, pokytis vadinamas kokybiniu, o pasiskirstymo eilutė vadinama atributine (pavyzdžiui, pasiskirstymas pagal ligos baigtį, sveikatos būklę ir pan.).

Jei kintamojo ženklas turi kiekybinę išraišką, toks pokytis vadinamas kiekybiniu, o pasiskirstymo serija – variacine.

Variacinės eilutės skirstomos į nenutrūkstamas ir ištisines – pagal kiekybinio požymio pobūdį, paprastas ir svertines – pagal varianto pasireiškimo dažnį.

Paprastoje variacijų eilutėje kiekvienas variantas pasitaiko tik vieną kartą (p=1), svertinėje – kelis kartus (p>1). Tokių serijų pavyzdžiai bus aptarti vėliau tekste. Jei kiekybinis požymis yra tęstinis, t.y. tarp sveikųjų skaičių verčių yra tarpinės trupmeninės reikšmės, variacijų eilutė vadinama tęstine.

Pavyzdžiui: 10,0 - 11,9

14,0 - 15,9 ir kt.

Jei kiekybinis ženklas yra nenutrūkstamas, t.y. atskiros jo reikšmės (parinktys) skiriasi viena nuo kitos sveikuoju skaičiumi ir neturi tarpinių trupmeninių verčių, variacijų serija vadinama nepertraukiama arba diskretine.

Naudojant duomenis iš ankstesnio pavyzdžio apie širdies ritmą

21 studentui sukursime variacijų seriją (1 lentelė).

1 lentelė

Medicinos studentų pasiskirstymas pagal pulso dažnį (bpm)

Taigi, sukurti variacinę seriją reiškia sisteminti, racionalizuoti esamas skaitines reikšmes (parinktis), t.y. išdėstyti tam tikra seka (didėjimo arba mažėjimo tvarka) su atitinkamais dažniais. Nagrinėjamame pavyzdyje parinktys išdėstytos didėjančia tvarka ir išreiškiamos nenutrūkstamais (diskretiniais) sveikaisiais skaičiais, kiekviena parinktis pasitaiko kelis kartus, t.y. mes susiduriame su svertine, nepertraukiama arba atskira variacijų serija.

Paprastai, jei mūsų tiriamoje statistinėje populiacijoje stebėjimų skaičius neviršija 30, pakanka visas tiriamo požymio reikšmes išdėstyti variacijų eilutėje didėjančia tvarka, kaip nurodyta lentelėje. 1 arba mažėjančia tvarka.

Esant dideliam stebėjimų skaičiui (n>30), pasitaikančių variantų skaičius gali būti labai didelis, tokiu atveju sudaroma intervalinė arba sugrupuota variacijų eilutė, kurioje, siekiant supaprastinti tolesnį apdorojimą ir išsiaiškinti pasiskirstymo pobūdį, variantai jungiami į grupes.

Paprastai grupių parinkčių skaičius svyruoja nuo 8 iki 15.

Jų turi būti bent 5, nes. kitu atveju jis bus per grubus, per didelis padidinimas, kuris iškraipo bendrą kitimo vaizdą ir labai paveikia vidutinių verčių tikslumą. Kai grupės parinkčių skaičius yra didesnis nei 20-25, vidutinių reikšmių skaičiavimo tikslumas padidėja, tačiau ypatybių variacijos ypatybės yra žymiai iškraipomos, o matematinis apdorojimas tampa sudėtingesnis.

Sudarant sugrupuotą seriją, būtina atsižvelgti į

− variantų grupės turi būti išdėstytos tam tikra tvarka (didėjančia arba mažėjančia tvarka);

- intervalai variantų grupėse turi būti vienodi;

- intervalų ribų reikšmės neturi sutapti, nes nebus aišku, kurioms grupėms priskirti individualius pasirinkimus;

- nustatant intervalų ribas būtina atsižvelgti į surinktos medžiagos kokybines ypatybes (pavyzdžiui, tiriant suaugusiųjų svorį, priimtinas 3-4 kg intervalas, o vaikams pirmaisiais mėn. gyvenimo trukmė neturėtų viršyti 100 g.)

Sukurkime sugrupuotą (intervalinę) seriją, apibūdinančią 55 medicinos studentų pulso dažnio (tvinimų skaičius per minutę) duomenis prieš egzaminą: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Norėdami sukurti sugrupuotą seriją, jums reikia:

1. Nustatykite intervalo reikšmę;

2. Nustatykite variacijų serijos varianto grupių vidurį, pradžią ir pabaigą.

● Intervalo (i) reikšmė nustatoma pagal laukiamų grupių skaičių (r), kurių skaičius nustatomas priklausomai nuo stebėjimų skaičiaus (n) pagal specialią lentelę.

Grupių skaičius, priklausomai nuo stebėjimų skaičiaus:

Mūsų atveju 55 mokiniams galima sudaryti nuo 8 iki 10 grupių.

Intervalo (i) reikšmė nustatoma pagal šią formulę -

i = Vmax-Vmin/r

Mūsų pavyzdyje intervalo reikšmė yra 82-58/8= 3.

Jei intervalo reikšmė yra trupmeninis skaičius, rezultatas turėtų būti suapvalintas iki sveikojo skaičiaus.

Yra keletas vidurkių tipų:

● aritmetinis vidurkis,

● geometrinis vidurkis,

● harmoninis vidurkis,

● vidutinis kvadratas,

● vidutinio progresavimo,

● mediana

Medicinos statistikoje dažniausiai naudojami aritmetiniai vidurkiai.

Aritmetinis vidurkis (M) yra apibendrinanti reikšmė, kuri nustato tipinę reikšmę, būdingą visai populiacijai. Pagrindiniai M apskaičiavimo metodai yra: aritmetinio vidurkio metodas ir momentų (sąlyginių nuokrypių) metodas.

Paprastajam aritmetiniam vidurkiui ir svertiniam aritmetiniam vidurkiui apskaičiuoti naudojamas aritmetinio vidurkio metodas. Aritmetinio vidurkio apskaičiavimo metodo pasirinkimas priklauso nuo variacijų serijos tipo. Paprastos variacinės eilutės atveju, kai kiekvienas variantas pasitaiko tik vieną kartą, paprastas aritmetinis vidurkis nustatomas pagal formulę:

čia: М – aritmetinis vidurkis;

V – kintamojo požymio reikšmė (parinktys);

Σ – nurodo veiksmą – sumavimą;

n yra bendras stebėjimų skaičius.

Aritmetinio vidurkio apskaičiavimo pavyzdys yra paprastas. Kvėpavimo dažnis (kvėpavimų skaičius per minutę) 9 vyrams nuo 35 metų: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Norint nustatyti vidutinį 35 metų vyrų kvėpavimo dažnio lygį, būtina:

1. Sukurkite variacijų seriją, visas parinktis išdėstydami didėjimo arba mažėjimo tvarka. Gavome paprastą variacijų eilutę, nes variantų reikšmės pasitaiko tik vieną kartą.

M = ∑V/n = 171/9 = 19 įkvėpimų per minutę

Išvada. 35 metų vyrų kvėpavimo dažnis yra vidutiniškai 19 įkvėpimų per minutę.

Jei kartojasi atskiros varianto reikšmės, kiekvieno varianto rašyti į eilutę nereikia, užtenka surašyti pasitaikančius varianto matmenis (V) ir šalia nurodyti jų pasikartojimų skaičių ( p). tokia variacijų eilutė, kurioje variantai tarsi sveriami pagal juos atitinkančių dažnių skaičių, vadinama svertine variacijų eilute, o skaičiuojama vidutinė reikšmė – aritmetinis svertinis vidurkis.

Aritmetinis svertinis vidurkis nustatomas pagal formulę: M= ∑Vp/n

čia n yra stebėjimų skaičius, lygus dažnių sumai – Σr.

Aritmetinio svertinio vidurkio apskaičiavimo pavyzdys.

Vietos gydytojo gydytiems 35 ligoniams, sergantiems ūminėmis kvėpavimo takų ligomis (ŪRI), invalidumo trukmė (dienomis) per pirmąjį einamųjų metų ketvirtį buvo: 6, 7, 5, 3, 9, 8, 7, 5, 6. , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 dienos.

Pacientų, sergančių ūmiomis kvėpavimo takų infekcijomis, vidutinės neįgalumo trukmės nustatymo metodika yra tokia:

1. Sukurkime svertinę variacijų eilutę, nes atskirų variantų reikšmės kartojasi keletą kartų. Norėdami tai padaryti, visas parinktis galite išdėstyti didėjančia arba mažėjančia tvarka su atitinkamais dažniais.

Mūsų atveju parinktys pateikiamos didėjančia tvarka.

2. Apskaičiuokite aritmetinį svertinį vidurkį pagal formulę: M = ∑Vp/n = 233/35 = 6,7 dienos

Sergančiųjų ūminėmis kvėpavimo takų infekcijomis pasiskirstymas pagal invalidumo trukmę:

Nedarbingumo trukmė (V) Pacientų skaičius (p) vp
∑p = n = 35 ∑Vp = 233

Išvada. Ūmiomis kvėpavimo takų ligomis sergančių pacientų invalidumo trukmė vidutiniškai buvo 6,7 dienos.

Režimas (Mo) yra labiausiai paplitęs variantas variacijų serijoje. Lentelėje pateiktam pasiskirstymui režimas atitinka variantą lygų 10, pasitaiko dažniau nei kiti – 6 kartus.

Pacientų pasiskirstymas pagal buvimo ligoninės lovoje trukmę (dienomis)

V
p

Kartais sunku nustatyti tikslią režimo reikšmę, nes tiriamuose duomenyse gali būti keletas stebėjimų, kurie pasitaiko „dažniausiai“.

Mediana (Me) yra neparametrinis indikatorius, kuris padalija variacijų eilutes į dvi lygias dalis: tiek pat parinkčių yra abiejose medianos pusėse.

Pavyzdžiui, lentelėje parodytam pasiskirstymui mediana yra 10, nes abiejose šios reikšmės pusėse yra 14 variantas, t.y. skaičius 10 šioje serijoje užima centrinę vietą ir yra jos mediana.

Atsižvelgiant į tai, kad stebėjimų skaičius šiame pavyzdyje yra lygus (n=34), medianą galima nustatyti taip:

Aš = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Tai reiškia, kad serijos vidurys patenka į septynioliktą variantą, kuris atitinka 10 medianą. Lentelėje pateikto pasiskirstymo aritmetinis vidurkis yra:

M = ∑Vp/n = 334/34 = 10,1

Taigi, 34 stebėjimams iš lentelės. 8, gavome: Mo=10, Me=10, aritmetinis vidurkis (M) yra 10,1. Mūsų pavyzdyje visi trys rodikliai pasirodė lygūs arba artimi vienas kitam, nors ir visiškai skirtingi.

Aritmetinis vidurkis yra gaunama visų įtakų suma, kurią formuojant dalyvauja visi be išimties variantai, įskaitant kraštutinius, dažnai netipiškus tam tikram reiškiniui ar rinkiniui.

Režimas ir mediana, priešingai nei aritmetinis vidurkis, nepriklauso nuo visų atskirų kintamojo atributo reikšmių vertės (kraštutinių variantų reikšmės ir serijos sklaidos laipsnis). Aritmetinis vidurkis apibūdina visą stebėjimų masę, režimas ir mediana apibūdina didžiąją dalį

Statistinio pasiskirstymo eilutės- tai tvarkingas gyventojų vienetų pasiskirstymas į grupes pagal tam tikrą kintantį požymį.
Priklausomai nuo bruožo, kuriuo grindžiama pasiskirstymo serijos formavimas, yra atributų ir variacijų pasiskirstymo eilutės.

Bendro požymio buvimas yra pagrindas formuoti statistinę populiaciją, kuri yra tyrimo objektų bendrų požymių aprašymo ar matavimo rezultatai.

Statistikos tyrimo objektas yra kintantys (kintantys) bruožai arba statistiniai ypatumai.

Statistinių požymių rūšys.

Paskirstymo serijos vadinamos atributų serijomis. pastatytas kokybiškai. Atributika- tai ženklas, turintis pavadinimą (pavyzdžiui, profesija: siuvėja, mokytojas ir pan.).
Paskirstymo serijas įprasta išdėstyti lentelių pavidalu. Lentelėje. 2.8 rodo paskirstymo atributų seriją.
2.8 lentelė – Advokatų teikiamos teisinės pagalbos vieno iš Rusijos Federacijos regionų piliečiams rūšių pasiskirstymas.

Variacijų serija yra savybių reikšmės (arba reikšmių diapazonai) ir jų dažniai.
Variacijų serijos yra paskirstymo serijos pastatytas kiekybiniu pagrindu. Bet kuri variacijų serija susideda iš dviejų elementų: variantų ir dažnių.
Variantai yra individualios funkcijos reikšmės, kurias ji naudoja variantų serijoje.
Dažniai – tai atskirų variantų arba kiekvienos variacijų serijos grupės skaičiai, t.y. tai skaičiai, rodantys, kaip dažnai paskirstymo serijoje atsiranda tam tikrų parinkčių. Visų dažnių suma lemia visos populiacijos dydį, jos apimtį.
Dažniai vadinami dažniais, išreikšti vieneto dalimis arba procentais nuo bendros sumos. Atitinkamai, dažnių suma yra lygi 1 arba 100%. Variacinė eilutė leidžia įvertinti pasiskirstymo dėsnio formą remiantis faktiniais duomenimis.

Atsižvelgiant į požymio kitimo pobūdį, yra diskrečiųjų ir intervalų variacijų serijos.
Diskrečių variacijų serijos pavyzdys pateiktas lentelėje. 2.9.
2.9 lentelė. Šeimų pasiskirstymas pagal atskiruose butuose užimtų kambarių skaičių 1989 m. Rusijos Federacijoje.

Pirmajame lentelės stulpelyje pateikiami diskrečiųjų variacijų eilučių variantai, antrame stulpelyje – variacijų eilučių dažniai, trečiame – dažnio rodikliai.

Variacijų serija

Bendrojoje populiacijoje tiriamas tam tikras kiekybinis požymis. Iš jo atsitiktinai paimamas tūrio mėginys n, tai yra elementų skaičius imtyje yra n. Pirmajame statistinio apdorojimo etape diapazonas mėginių, t.y. numerių užsakymas x 1 , x 2 , …, x n Kylantis. Kiekviena pastebėta vertė x i paskambino variantas. Dažnis m i yra vertės stebėjimų skaičius x i pavyzdyje. Santykinis dažnis (dažnis) w i yra dažnio santykis m iį mėginio dydį n: .
Tiriant variacinę eilutę taip pat vartojamos kaupiamojo dažnio ir kaupiamojo dažnio sąvokos. Leisti būti x kažkoks skaičius. Tada parinkčių skaičius , kurių vertės mažesnės x, vadinamas kaupiamuoju dažniu: x i n vadinamas kaupiamuoju dažniu w i max .
Atributas vadinamas diskretišku kintamuoju, jei jo atskiros reikšmės (variantai) skiriasi viena nuo kitos tam tikru baigtiniu dydžiu (dažniausiai sveikuoju skaičiumi). Tokio požymio variacinė serija vadinama diskrečiąja variacijų serija.

1 lentelė. Bendras diskrečiųjų dažnių variacinių eilučių vaizdas

Funkcijos vertėsx i x 1 x2 x n
Dažniaim i m 1 m2 m n

Atributas vadinamas nuolat kintančiu, jei jo reikšmės viena nuo kitos skiriasi savavališkai mažai, t.y. tam tikrame intervale ženklas gali įgauti bet kokią reikšmę. Tokio požymio nuolatinė variacijų eilutė vadinama intervalų seka.

2 lentelė. Bendras dažnių intervalų kitimo eilučių vaizdas

3 lentelė. Variacijų serijų grafiniai vaizdai

EilėDaugiakampis arba histogramaEmpirinė pasiskirstymo funkcija
Diskretus
intervalas
Žvelgiant į stebėjimų rezultatus, nustatoma, kiek variantų verčių pateko į kiekvieną konkretų intervalą. Daroma prielaida, kad kiekvienas intervalas priklauso vienam iš jo galų: arba visais atvejais kairiajam (dažniau), arba visais atvejais dešiniajam, o dažniai arba dažniai parodo pasirinkimų skaičių nurodytose ribose. Skirtumai a i – a i +1 vadinami daliniais intervalais. Siekiant supaprastinti tolesnius skaičiavimus, intervalo variacijų eilutes galima pakeisti sąlyginai diskrečiąja. Šiuo atveju vidutinė vertė i-asis intervalas yra pasirenkamas x i, ir atitinkamą intervalo dažnį m i- šio intervalo dažnumui.
Variacinių eilučių grafiniam vaizdui dažniausiai naudojamas daugiakampis, histograma, kumuliacinė kreivė ir empirinio skirstinio funkcija.

Lentelėje. 2.3 (Rusijos gyventojų grupavimas pagal vidutinių pajamų vienam gyventojui dydį 1994 m. balandžio mėn.) intervalų variacijų serija.
Paskirstymo eilutes patogu analizuoti naudojant grafinį vaizdą, kuris taip pat leidžia spręsti apie skirstinio formą. Variacijų serijų dažnių kitimo pobūdį vaizdžiai pavaizduoja daugiakampis ir histograma.
Daugiakampis naudojamas rodant atskiras variacijų serijas.
Pavaizduokime, pavyzdžiui, grafiškai būsto fondo pasiskirstymą pagal butų tipus (2.10 lentelė).
2.10 lentelė. Miesto teritorijos būsto fondo pasiskirstymas pagal butų tipus (sąlyginiai skaičiai).


Ryžiai. Būsto paskirstymo daugiakampis


Y ašyje galima nubraižyti ne tik dažnių reikšmes, bet ir variacijų eilučių dažnius.
Histograma paimama norint parodyti intervalų variacijų serijas. Kuriant histogramą, intervalų reikšmės brėžiamos ant abscisių ašies, o dažniai pavaizduoti stačiakampiais, pastatytais ant atitinkamų intervalų. Stulpelių aukštis esant vienodiems intervalams turi būti proporcingas dažniams. Histograma yra grafikas, kuriame serija rodoma kaip viena šalia kitos esančios juostos.
Grafiškai pavaizduokime lentelėje pateiktą intervalų pasiskirstymo eilutę. 2.11.
2.11 lentelė. Šeimų pasiskirstymas pagal gyvenamojo ploto dydį vienam asmeniui (sąlyginiai skaičiai).
N p / p Šeimų grupės pagal gyvenamojo ploto dydį vienam asmeniui Šeimų, turinčių tam tikrą gyvenamojo ploto dydį, skaičius Sukauptas šeimų skaičius
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
IŠ VISO 115 ----


Ryžiai. 2.2. Šeimų pasiskirstymo pagal vienam asmeniui tenkančio gyvenamojo ploto dydį histograma


Naudodamiesi kaupiamųjų eilučių duomenimis (2.11 lentelė), konstruojame paskirstymas kaupiamasis.


Ryžiai. 2.3. Suminis šeimų pasiskirstymas pagal gyvenamojo ploto dydį vienam asmeniui


Variacinės eilutės vaizdavimas kumuliaciniu pavidalu ypač efektyvus variacinėms eilutėms, kurių dažniai išreiškiami serijų dažnių sumos trupmenomis arba procentais.
Jei pakeisime ašis variacijų serijos grafiniame vaizde kumuliacijos pavidalu, gausime ogivu. Ant pav. 2.4 parodyta lentelė, sukurta remiantis lentelės duomenimis. 2.11.
Histogramą galima paversti pasiskirstymo daugiakampiu, surandant stačiakampių kraštinių vidurio taškus ir sujungiant šiuos taškus tiesiomis linijomis. Gautas pasiskirstymo daugiakampis parodytas fig. 2.2 punktyrinė linija.
Konstruojant variacinių eilučių su nelygiais intervalais skirstinio histogramą, išilgai ordinačių ašies, braižomi ne dažniai, o požymio pasiskirstymo tankis atitinkamuose intervaluose.
Pasiskirstymo tankis yra dažnis, skaičiuojamas intervalo pločio vienetui, t.y. kiek vienetų kiekvienoje grupėje yra vieneto intervalo reikšmėje. Pasiskirstymo tankio apskaičiavimo pavyzdys pateiktas lentelėje. 2.12.
2.12 lentelė. Įmonių pasiskirstymas pagal darbuotojų skaičių (skaičiai sąlyginiai)
N p / p Įmonių grupės pagal darbuotojų skaičių, gyv. Įmonių skaičius Intervalo dydis, asm. Pasiskirstymo tankis
BET 1 2 3=1/2
1 iki 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
IŠ VISO 147 ---- ----

Taip pat galima naudoti variacijų serijų grafinį atvaizdavimą kumuliacinė kreivė. Sukaupimo (sumų kreivės) pagalba rodoma sukauptų dažnių serija. Suminiai dažniai nustatomi iš eilės sumuojant dažnius pagal grupes ir parodoma, kiek populiacijos vienetų turi savybių, kurios neviršija nagrinėjamos vertės.


Ryžiai. 2.4. Ogiva šeimų pasiskirstymas pagal gyvenamojo ploto dydį vienam žmogui

Konstruojant intervalų variacijų eilučių kumuliaciją, sekų variantai brėžiami išilgai abscisių ašies, o kaupiami dažniai – išilgai ordinačių ašies.

Nuolatinės variacijos serijos

Ištisinė variacijų eilutė yra serija, sudaryta remiantis kiekybiniu statistiniu ženklu. Pavyzdys. Vidutinė nuteistųjų susirgimų trukmė (dienomis vienam asmeniui) einamųjų metų rudens-žiemos laikotarpiu buvo:
7,0 6,0 5,9 9,4 6,5 7,3 7,6 9,3 5,8 7,2
7,1 8,3 7,5 6,8 7,1 9,2 6,1 8,5 7,4 7,8
10,2 9,4 8,8 8,3 7,9 9,2 8,9 9,0 8,7 8,5

Apdorojant didelius informacijos kiekius, o tai ypač svarbu vykdant šiuolaikinius mokslo pokyčius, tyrėjas susiduria su rimta užduotimi teisingai sugrupuoti pradinius duomenis. Jei duomenys yra diskretiški, tada, kaip matėme, problemų nėra – tereikia paskaičiuoti kiekvienos funkcijos dažnumą. Jei tiriama savybė turi tęstinis simbolis (kas praktikoje yra labiau paplitęs), tada optimalaus intervalų skaičiaus pasirinkimas bruožui grupuoti jokiu būdu nėra menka užduotis.

Norint sugrupuoti ištisinius atsitiktinius dydžius, visas funkcijos variacijos diapazonas yra padalintas į tam tikrą intervalų skaičių į.

Grupuotas intervalas (tęstinis) variacinė serija vadinami intervalais, surikiuotais pagal ypatybės reikšmę (), kur nurodomas kartu su atitinkamais dažniais () stebėjimų, kurie pateko į r-ąjį intervalą, skaičius arba santykiniai dažniai ():

Charakteristikos reikšmių intervalai

mi dažnis

juostos diagrama ir kauptis (ogiva), jau išsamiai aptarėme, yra puikus duomenų vizualizavimo įrankis, leidžiantis iš pradžių suprasti duomenų struktūrą. Tokie grafikai (1.15 pav.) nuolatiniams duomenims sudaromi taip pat, kaip ir diskretiesiems, tik atsižvelgiant į tai, kad nuolatiniai duomenys visiškai užpildo galimų reikšmių sritį, imant bet kokias reikšmes.

Ryžiai. 1.15.

Taigi histogramos ir kumuliacijos stulpeliai turi liestis, neturi būti sričių, kuriose atributų reikšmės nepatenka į visas įmanomas(t. y. histogramoje ir kumuliacijoje išilgai abscisių ašies neturėtų būti „skylių“, kuriose tiriamo kintamojo reikšmės nepatenka, kaip parodyta 1.16 pav.). Juostos aukštis atitinka dažnį – stebėjimų, patenkančių į duotą intervalą, skaičių arba santykinį dažnį – stebėjimų proporciją. Intervalai neturi kirsti ir paprastai yra vienodo pločio.

Ryžiai. 1.16.

Histograma ir daugiakampis yra tikimybės tankio kreivės (diferencialinės funkcijos) apytikslės reikšmės. f(x) teorinis skirstinys, svarstomas tikimybių teorijos eigoje. Todėl jų konstrukcija yra tokia svarbi pirminiame statistiniame kiekybinių tęstinių duomenų apdorojime – pagal jų formą galima spręsti apie hipotetinį pasiskirstymo dėsnį.

Cumulate – intervalų variacijų eilučių sukauptų dažnių (dažnių) kreivė. Integralinio skirstinio funkcijos grafikas lyginamas su kumuliacija F(x), taip pat svarstoma tikimybių teorijos eigoje.

Iš esmės histogramos ir kumuliacijos sąvokos yra tiksliai susietos su ištisiniais duomenimis ir jų intervalų variacijų eilutėmis, nes jų grafikai yra atitinkamai tikimybių tankio funkcijos ir pasiskirstymo funkcijos empiriniai įverčiai.

Intervalų variacijų serijos konstravimas prasideda nuo intervalų skaičiaus nustatymo k. Ir ši užduotis yra bene sunkiausia, svarbiausia ir prieštaringiausia nagrinėjamu klausimu.

Intervalų skaičius neturėtų būti per mažas, nes histograma bus per lygi ( perlygintas), praranda visas pradinių duomenų kintamumo ypatybes – pav. 1.17 matote, kaip tie patys duomenys, ant kurių pateikiami grafikai pav. 1.15 naudojami histogramai su mažesniu intervalų skaičiumi sudaryti (kairysis grafikas).

Tuo pačiu metu intervalų skaičius neturėtų būti per didelis - kitaip negalėsime įvertinti tiriamų duomenų pasiskirstymo tankio pagal skaitinę ašį: histograma pasirodys nepakankamai išlyginta. (išlygintas) su neužpildytais intervalais, nelygios (žr. 1.17 pav., grafiką dešinėje).

Ryžiai. 1.17.

Kaip nustatyti labiausiai pageidaujamą intervalų skaičių?

Dar 1926 m. Herbertas Sturgesas pasiūlė formulę, kaip apskaičiuoti intervalų, į kuriuos reikia padalyti pradinį tiriamo požymio reikšmių rinkinį, skaičių. Ši formulė tikrai tapo itin populiari – dauguma statistikos vadovėlių ją siūlo, o daugelis statistikos paketų ją naudoja pagal nutylėjimą. Ar tai pagrįsta ir visais atvejais – labai rimtas klausimas.

Taigi, kuo remiasi Sturges formulė?

Apsvarstykite dvinarį skirstinį)