Elevii și școlari - asistență în studii. V

Rânduri construite dupa cantitate, sunt numite variațională.

Seria de distribuție consta în opțiuni(valori caracteristice) şi frecvente(numar de grupuri). Se numesc frecvențele exprimate ca valori relative (fracții, procente). frecvente. Suma tuturor frecvențelor se numește volumul seriei de distribuție.

După tip, seriile de distribuție sunt împărțite în discret(construit pe baza valorilor discontinue ale caracteristicii) și interval(pe baza valorilor continue ale caracteristicii).

Seria de variații reprezintă două coloane (sau rânduri); dintre care unul oferă valori individuale ale unei caracteristici variabile, numite variante și notate cu X; iar în celălalt - numere absolute care arată de câte ori (cât de des) apare fiecare opțiune. Indicatorii din a doua coloană se numesc frecvențe și sunt notați în mod convențional cu f. Să remarcăm încă o dată că în a doua coloană pot fi utilizați indicatori relativi, care caracterizează ponderea frecvenței opțiunilor individuale în suma totală a frecvențelor. Acești indicatori relativi se numesc frecvențe și sunt notați în mod convențional cu ω. Suma tuturor frecvențelor în acest caz este egală cu unu. Cu toate acestea, frecvențele pot fi exprimate și ca procente, iar apoi suma tuturor frecvențelor dă 100%.

Dacă variantele seriei de variaţii sunt exprimate sub forma cantități discrete, atunci o astfel de serie de variații se numește discret.

Pentru caracteristicile continue, serii de variații sunt construite ca interval, adică valorile atributului din ele sunt exprimate „de la... până la...”. În acest caz, valorile minime ale caracteristicii într-un astfel de interval se numesc limita inferioară a intervalului, iar maxima - limita superioară.

Serii de variații de intervale sunt, de asemenea, construite pentru caracteristici discrete care variază într-un interval mare. Seria cu intervale poate fi cu egalŞi inegal la intervale.

Să luăm în considerare modul în care este determinată valoarea intervalelor egale. Să introducem următoarea notație:

i– dimensiunea intervalului;

- valoarea maximă a caracteristicii pentru unitățile populației;

– valoarea minimă a caracteristicii pentru unitățile populației;

n – numărul de grupuri alocate.

, dacă n este cunoscut.

Dacă numărul de grupuri de identificat este dificil de determinat în prealabil, atunci pentru a calcula dimensiunea optimă a intervalului cu o dimensiune suficientă a populației, se poate recomanda formula propusă de Sturgess în 1926:

n = 1+ 3,322 log N, unde N este numărul de unități din agregat.

Mărimea intervalelor inegale este determinată în fiecare caz individual, ținând cont de caracteristicile obiectului de studiu.

Distribuția statistică a eșantionului apelați o listă de opțiuni și frecvențele corespunzătoare (sau frecvențele relative).

Distribuția statistică eșantioanele pot fi specificate sub forma unui tabel, în prima coloană a căreia se află opțiunile, iar în a doua - frecvențele corespunzătoare acestor opțiuni ni, sau frecvențe relative Pi .

Distribuția statistică a eșantionului

Serii de intervale sunt serii de variații în care valorile caracteristicilor care stau la baza formării lor sunt exprimate în anumite limite (intervale). Frecvențele în acest caz nu se referă la valori individuale ale atributului, ci la întregul interval.

Serii de distribuție pe intervale sunt construite pe baza caracteristicilor cantitative continue, precum și a caracteristicilor discrete care variază în limite semnificative.

O serie de intervale poate fi reprezentată prin distribuția statistică a unui eșantion indicând intervalele și frecvențele corespunzătoare acestora. În acest caz, suma frecvențelor variantelor care se încadrează în acest interval este luată ca frecvență a intervalului.

La gruparea după caracteristici cantitative continue, este importantă determinarea mărimii intervalului.

Pe lângă media și varianța eșantionului, sunt utilizate și alte caracteristici ale seriei de variații.

Modă Se numește varianta care are cea mai mare frecvență.

Un loc aparte în analiza statistică îl revine determinării nivelului mediu al caracteristicii sau fenomenului studiat. Nivel intermediar o trăsătură este măsurată prin valori medii.

Valoarea medie caracterizează nivelul cantitativ general al caracteristicii studiate și este o proprietate de grup a populației statistice. Se nivelează, slăbește abaterile aleatorii ale observațiilor individuale într-o direcție sau alta și evidențiază proprietatea principală, tipică, a caracteristicii studiate.

Mediile sunt utilizate pe scară largă:

1. Pentru evaluarea stării de sănătate a populației: caracteristici ale dezvoltării fizice (înălțime, greutate, circumferință piept etc.), identificând prevalența și durata diferitelor boli, analizând indicatorii demografici (mișcarea vitală a populației, speranța medie de viață, reproducerea populației, dimensiunea medie a populației etc.).

2. Să studieze activitățile instituțiilor medicale, ale personalului medical și să evalueze calitatea muncii acestora, să planifice și să determine nevoile populației pentru diverse tipuri asistență medicală (număr mediu de solicitări sau vizite pe rezident pe an, durata medie a șederii unui pacient într-un spital, durata medie de examinare a unui pacient, disponibilitatea medie a medicilor, paturi etc.).

3. Să se caracterizeze starea sanitară și epidemiologică (conținutul mediu de praf de aer în atelier, suprafața medie per persoană, consumul mediu de proteine, grăsimi și carbohidrați etc.).

4. Să determine indicatori medicali și fiziologici în condiții normale și patologice, la prelucrarea datelor de laborator, să stabilească fiabilitatea rezultatelor unui studiu prin eșantion în studii sociale, igienice, clinice și experimentale.

Calculul valorilor medii se realizează pe baza seriilor de variații. Seria de variații este o mulţime statistică omogenă calitativ, ale cărei unităţi individuale caracterizează diferenţele cantitative ale caracteristicii sau fenomenului studiat.

Variația cantitativă poate fi de două tipuri: discontinuă (discretă) și continuă.

Un atribut discontinuu (discret) este exprimat doar ca un număr întreg și nu poate avea valori intermediare (de exemplu, numărul de vizite, populația site-ului, numărul de copii din familie, severitatea bolii în puncte). , etc.).

O caracteristică continuă poate lua orice valoare în anumite limite, inclusiv cele fracționate, și este exprimată doar aproximativ (de exemplu, greutatea - pentru adulți poate fi limitată la kilograme, iar pentru nou-născuți - grame; înălțime, tensiunea arterială, timpul petrecut pentru a vedea pacientul etc.).



Valoarea digitală a fiecărei caracteristici sau fenomene individuale incluse în seria de variații se numește variantă și este desemnată prin litera V . Alte notații se găsesc și în literatura matematică, de exemplu x sau y.

O serie de variații, în care fiecare opțiune este indicată o dată, se numește simplă. Astfel de serii sunt folosite în majoritatea problemelor statistice în cazul prelucrării informatice a datelor.

Pe măsură ce numărul de observații crește, se repetă valorile variantelor. În acest caz, este creat serie de variații grupate, unde este indicat numărul de repetări (frecvența, notată cu litera „ r »).

Serii de variații clasificate constă din opțiuni dispuse în ordine crescătoare sau descrescătoare. Atât seriile simple, cât și cele grupate pot fi compilate cu clasare.

Seria de variație de intervalîntocmit în scopul simplificării calculelor ulterioare efectuate fără utilizarea calculatorului, cu un număr foarte mare de unități de observație (mai mult de 1000).

Serii cu variații continue include valorile opțiunilor, care pot fi orice valoare.

Dacă într-o serie de variații valorile unei caracteristici (variante) sunt date sub formă de numere specifice individuale, atunci o astfel de serie se numește discret.

Caracteristici generale valorile caracteristicii reflectate în seria de variații sunt valorile medii. Dintre acestea cele mai utilizate: medie aritmetică magnitudinea M, modă Lu si mediana eu. Fiecare dintre aceste caracteristici este unică. Ele nu se pot înlocui unul pe altul și doar împreună reprezintă trăsăturile seriei de variații destul de complet și într-o formă condensată.

Modă (lu) numiți valoarea opțiunilor care apar cel mai frecvent.

Median (eu) – aceasta este valoarea opțiunii care împarte seria de variații clasate la jumătate (pe fiecare parte a medianei există jumătate din opțiune). În cazuri rare, când există o serie de variații simetrice, modul și mediana sunt egale între ele și coincid cu valoarea mediei aritmetice.

Cea mai tipică caracteristică a valorilor opțiunilor este medie aritmetică valoare( M ). În literatura de matematică se notează .

Media aritmetică (M, ) este o caracteristică cantitativă generală a unei anumite caracteristici a fenomenelor studiate, constituind o populație statistică omogenă calitativ. Există medii aritmetice simple și ponderate. Media aritmetică simplă se calculează pentru o serie de variații simple prin însumarea tuturor opțiunilor și împărțirea acestei sume la cantitate totală opțiune inclusă în această serie de variații. Calculele se efectuează după formula:

Unde: M - medie aritmetică simplă;

Σ V - optiunea de suma;

n- numărul de observații.

În seria de variații grupate se determină media aritmetică ponderată. Formula de calcul:

Unde: M - medie ponderată aritmetică;

Σ Vp - suma produselor variantei după frecvenţele acestora;

n- numărul de observații.

Cu un număr mare de observații, în cazul calculelor manuale se poate folosi metoda momentelor.

Media aritmetică are următoarele proprietăți:

· suma abaterilor de la medie ( Σ d ) este egal cu zero (vezi Tabelul 15);

· la înmulțirea (împărțirea) tuturor opțiunilor cu același factor (divizor), media aritmetică se înmulțește (împarte) cu același factor (divizor);

· dacă adăugați (scădeți) același număr la toate opțiunile, media aritmetică crește (descrește) cu același număr.

Mediile aritmetice, luate singure, fără a ține cont de variabilitatea seriei din care sunt calculate, pot să nu reflecte pe deplin proprietățile seriei de variații, mai ales atunci când este necesară compararea cu alte medii. Mediile care sunt apropiate ca valoare pot fi obținute din serii cu grade diferite de împrăștiere. Cu cât opțiunile individuale sunt mai aproape unele de altele în ceea ce privește caracteristicile lor cantitative, cu atât mai puțin dispersie (oscilatie, variabilitate) serie, cu atât este mai tipică media.

Principalii parametri care ne permit să evaluăm variabilitatea unei trăsături sunt:

· Domeniul de aplicare;

· Amplitudine;

· Abaterea standard;

· Coeficient de variație.

Variabilitatea unei trăsături poate fi evaluată aproximativ după intervalul și amplitudinea seriei de variații. Intervalul indică opțiunile maxime (V max) și minime (V min) din serie. Amplitudinea (A m) este diferența dintre aceste opțiuni: A m = V max - V min.

Principala măsură, general acceptată, a variabilității unei serii de variații este dispersie (D ). Dar cel mai des folosit este un parametru mai convenabil calculat pe baza dispersiei - abaterea standard ( σ ). Se ține cont de mărimea abaterii ( d ) a fiecărei serii de variații din media ei aritmetică ( d=V - M ).

Deoarece abaterile de la medie pot fi pozitive și negative, atunci când sunt însumate, dau valoarea „0” (S d=0). Pentru a evita acest lucru, valorile abaterii ( d) sunt ridicate la a doua putere și mediate. Astfel, dispersia unei serii de variații este pătratul mediu al abaterilor unei variante de la media aritmetică și se calculează prin formula:

Este cea mai importantă caracteristică a variabilității și este utilizată pentru a calcula multe criterii statistice.

Deoarece dispersia este exprimată ca pătrat al abaterilor, valoarea sa nu poate fi utilizată în comparație cu media aritmetică. În aceste scopuri este folosit abaterea standard, care este desemnat prin semnul „Sigma” ( σ ). Caracterizează abaterea medie a tuturor variantelor seriei de variații de la media aritmetică în aceleași unități ca și valoare medie, astfel încât să poată fi folosite împreună.

Abaterea standard este determinată de formula:

Formula specificată se aplică atunci când numărul de observații ( n ) mai mult de 30. Cu un număr mai mic n valoarea abaterii standard va avea o eroare asociată cu offset-ul matematic ( n - 1). În acest sens, mai mult rezultat exact poate fi obținută luând în considerare o astfel de părtinire în formula de calcul a abaterii standard:

abaterea standard (s ) este o estimare a abaterii standard a unei variabile aleatoare X raportat la așteptările sale matematice bazate pe o estimare imparțială a varianței sale.

Cu valori n > 30 deviație standard ( σ ) și abaterea standard ( s ) va fi la fel ( σ =s ). Prin urmare, în majoritatea manualelor practice, aceste criterii sunt considerate a avea semnificații diferite.În Excel, abaterea standard poate fi calculată folosind funcția =STDEV(interval). Și pentru a calcula abaterea standard, trebuie să creați o formulă adecvată.

Pătratul mediu sau abaterea standard vă permite să determinați cât de mult pot diferi valorile unei caracteristici de valoarea medie. Să presupunem că există două orașe cu aceeași temperatură medie zilnică perioada de vara. Unul dintre aceste orașe este situat pe coastă, iar celălalt pe continent. Se știe că în orașele situate pe coastă, diferențele de temperaturi în timpul zilei sunt mai mici decât în ​​orașele situate în interior. Prin urmare, abaterea standard a temperaturilor diurne pentru orașul de coastă va fi mai mică decât pentru al doilea oraș. În practică, aceasta înseamnă că temperatura medie aerul oricărei zile dintr-un oraș situat pe continent va diferi mai mult de valoarea medie decât într-un oraș de pe coastă. În plus, abaterea standard vă permite să evaluați posibilele abateri de temperatură de la medie cu nivelul de probabilitate necesar.

Conform teoriei probabilităților, în fenomenele care se supun legii distribuției normale, există o relație strictă între valorile mediei aritmetice, abaterea standard și opțiuni ( regula trei sigma). De exemplu, 68,3% din valorile unei caracteristici variabile sunt în M ± 1 σ , 95,5% - în M ± 2 σ și 99,7% - în M ± 3 σ .

Valoarea abaterii standard ne permite să judecăm natura omogenității seriei de variații și a grupului de studiu. Dacă valoarea abaterii standard este mică, atunci aceasta indică o omogenitate destul de mare a fenomenului studiat. Media aritmetică în acest caz ar trebui considerată destul de caracteristică pentru o serie de variații dată. Cu toate acestea, o valoare sigma prea mică face să ne gândim la o selecție artificială de observații. Cu o sigma foarte mare, media aritmetică caracterizează seria de variații într-o măsură mai mică, ceea ce indică o variabilitate semnificativă a caracteristicii sau fenomenului studiat sau eterogenitatea grupului studiat. Cu toate acestea, compararea valorii abaterii standard este posibilă numai pentru caracteristici de aceeași dimensiune. Într-adevăr, dacă comparăm diversitatea greutăților copiilor nou-născuți și adulților, vom obține întotdeauna valori sigma mai mari la adulți.

Compararea variabilității caracteristicilor de diferite dimensiuni se poate face folosind coeficient de variație. Exprimă diversitatea ca procent din medie, permițând comparații între diferite trăsături. Coeficientul de variație în literatura medicală este indicat de semnul „ CU ", și la matematică" v„și calculată prin formula:

Valorile coeficientului de variație mai mici de 10% indică o împrăștiere mică, de la 10 la 20% - aproximativ medie, mai mult de 20% - aproximativ o împrăștiere puternică în jurul mediei aritmetice.

Media aritmetică este de obicei calculată pe baza datelor dintr-o populație eșantion. Cu studii repetate, sub influența unor fenomene aleatorii, media aritmetică se poate modifica. Acest lucru se datorează faptului că, de regulă, se studiază doar o parte din posibilele unități de observație, adică populația eșantion. Informații despre toate unitățile posibile reprezentând fenomenul studiat pot fi obținute prin studierea întregii populații, ceea ce nu este întotdeauna posibil. Totodată, în scopul generalizării datelor experimentale, prezintă interes valoarea mediei în populaţia generală. Prin urmare, pentru a formula o concluzie generală despre fenomenul studiat, rezultatele obținute pe baza populației eșantionului trebuie transferate către populația generală prin metode statistice.

Pentru a determina gradul de acord între un studiu prin eșantion și populația generală, este necesar să se estimeze magnitudinea erorii care apare inevitabil în timpul observării eșantionului. Această eroare se numește „ Eroarea de reprezentativitate„sau „Eroarea medie a mediei aritmetice”. Este de fapt diferența dintre mediile obținute din observarea statistică selectivă și valori similare care ar fi obținute dintr-un studiu continuu al aceluiași obiect, adică. când studiază o populaţie generală. Deoarece media eșantionului este o variabilă aleatorie, o astfel de prognoză este efectuată cu un nivel de probabilitate acceptabil pentru cercetător. În cercetarea medicală este de cel puțin 95%.

Eroarea de reprezentativitate nu poate fi confundată cu erorile de înregistrare sau erorile de atenție (alunecări, calcule greșite, greșeli de tipar etc.), care ar trebui reduse la minimum prin metode și instrumente adecvate utilizate în timpul experimentului.

Mărimea erorii de reprezentativitate depinde atât de mărimea eșantionului, cât și de variabilitatea trăsăturii. Cu cât numărul de observații este mai mare, cu atât eșantionul este mai aproape de populație și cu atât eroarea este mai mică. Cu cât semnul este mai variabil, cu atât eroarea statistică este mai mare.

În practică, pentru a determina eroarea de reprezentativitate în serii de variații, se utilizează următoarea formulă:

Unde: m – eroare de reprezentativitate;

σ – abaterea standard;

n– numărul de observații din eșantion.

Formula arată că mărimea erorii medii este direct proporțională cu abaterea standard, adică variabilitatea caracteristicii studiate, și invers proporțională cu rădăcina pătrată a numărului de observații.

Atunci când se efectuează o analiză statistică bazată pe calcularea valorilor relative, nu este necesară construirea unei serii de variații. În acest caz, determinarea erorii medii pentru indicatorii relativi poate fi efectuată folosind o formulă simplificată:

Unde: R– valoarea indicatorului relativ, exprimată în procente, ppm etc.;

q– reciproca lui P și exprimată ca (1-P), (100-P), (1000-P), etc., în funcție de baza pe care se calculează indicatorul;

n– numărul de observații în populația eșantion.

Cu toate acestea, formula specificată pentru calcularea erorii de reprezentativitate pentru valori relative poate fi aplicată numai atunci când valoarea indicatorului este mai mică decât baza acestuia. Într-un număr de cazuri de calculare a indicatorilor intensivi, această condiție nu este îndeplinită, iar indicatorul poate fi exprimat ca un număr mai mare de 100% sau 1000%. Într-o astfel de situație, se construiește o serie de variații și se calculează eroarea de reprezentativitate folosind formula pentru valori medii bazate pe abaterea standard.

Prognoza valorii mediei aritmetice în populație se realizează prin indicarea a două valori – minimă și maximă. Aceste valori extreme ale posibilelor abateri, în cadrul cărora poate fluctua valoarea medie dorită a populației, se numesc „ Granițele de încredere».

Postulatele teoriei probabilităților au dovedit că, cu o distribuție normală a unei caracteristici cu o probabilitate de 99,7%, valorile extreme ale abaterilor medii nu vor fi mai mari decât valoarea tripluului erorii de reprezentativitate ( M ± 3 m ); în 95,5% – nu mai mult de două ori eroarea medie a valorii medii ( M ± 2 m ); în 68,3% – nu mai mult de o eroare medie ( M ± 1 m ) (Fig. 9).

P%

Orez. 9. Densitatea de probabilitate a distribuției normale.

Rețineți că afirmația de mai sus este adevărată numai pentru o caracteristică care respectă legea distribuției gaussiene normale.

Cele mai multe studii experimentale, inclusiv în domeniul medicinei, sunt asociate cu măsurători, ale căror rezultate pot lua aproape orice valoare într-un interval dat, prin urmare, de regulă, sunt descrise printr-un model de variabile aleatoare continue. În acest sens, majoritatea metodelor statistice iau în considerare distribuțiile continue. O astfel de distribuție, care are un rol fundamental în statistica matematică, este distribuție normală sau gaussiană.

Acest lucru se datorează mai multor motive.

1. În primul rând, multe observații experimentale pot fi descrise cu succes folosind distribuția normală. Trebuie remarcat imediat că nu există distribuții de date empirice care să fie exact normale, deoarece o variabilă aleatoare distribuită normal variază de la la , ceea ce nu este niciodată întâlnit în practică. Cu toate acestea, distribuția normală funcționează foarte adesea bine ca o aproximare.

Indiferent dacă se măsoară greutatea, înălțimea și alți parametri fiziologici ai corpului uman, rezultatele sunt întotdeauna influențate de un număr foarte mare de factori aleatori (cauze naturale și erori de măsurare).

În plus, de regulă, efectul fiecăruia dintre acești factori este nesemnificativ. Experiența arată că rezultatele în astfel de cazuri vor fi distribuite aproximativ normal.

2. Multe distribuții asociate cu eșantionarea aleatorie devin normale pe măsură ce volumul acesteia din urmă crește.

4. Distribuția normală are o serie de proprietăți matematice favorabile, care asigură în mare măsură utilizarea sa pe scară largă în statistică.

În același timp, trebuie menționat că în datele medicale există multe distribuții experimentale care nu pot fi descrise de un model de distribuție normală. În acest scop, statisticile au dezvoltat metode care sunt denumite în mod obișnuit „Nonparametric”.

Alegerea unei metode statistice care este potrivită pentru prelucrarea datelor dintr-un anumit experiment ar trebui făcută în funcție de faptul dacă datele obținute aparțin legii distribuției normale. Testarea ipotezei pentru subordonarea unui semn la legea distribuției normale se realizează folosind o histogramă (grafic) de distribuție a frecvenței, precum și o serie de criterii statistice. Printre acestea:

Criteriul de asimetrie ( b );

Criteriul de testare pentru curtoză ( g );

Testul Shapiro-Wilks ( W ) .

Pentru fiecare parametru se efectuează o analiză a naturii distribuției datelor (numită și test pentru normalitatea distribuției). Pentru a aprecia cu încredere dacă distribuția unui parametru corespunde legii normale, este necesar un număr suficient de mare de unități de observație (cel puțin 30 de valori).

Pentru o distribuție normală, criteriile de asimetrie și curtoză iau valoarea 0. Dacă distribuția este deplasată la dreapta b > 0 (asimetrie pozitivă), cu b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. La g > 0 curba de distribuţie este mai clară dacă g < 0 пик более сглаженный, чем функция нормального распределения.

Pentru a verifica normalitatea folosind criteriul Shapiro–Wilks, este necesar să se găsească valoarea acestui criteriu folosind tabele statistice la nivelul de semnificație necesar și în funcție de numărul de unități de observație (grade de libertate). Anexa 1. Ipoteza normalității este respinsă la valori mici ale acestui criteriu, de regulă, la w <0,8.

Serii de variații: definiție, tipuri, caracteristici principale. Metoda de calcul
mod, mediană, medie aritmetică în cercetarea medicală și statistică
(arata cu un exemplu conditionat).

O serie de variații este o serie de valori numerice ale caracteristicii studiate, care diferă unele de altele ca mărime și dispuse într-o anumită succesiune (în ordine crescătoare sau descrescătoare). Fiecare valoare numerică a unei serii se numește variantă (V), iar numerele care arată cât de des apare o anumită variantă într-o serie dată se numesc frecvență (p).

Numărul total de cazuri de observație care compun seria de variații este notat cu litera n. Diferența de semnificație a caracteristicilor studiate se numește variație. Dacă o caracteristică variabilă nu are o măsură cantitativă, variația se numește calitativă, iar seria de distribuție este numită atributivă (de exemplu, distribuția după rezultatul bolii, starea de sănătate etc.).

Dacă o caracteristică variabilă are o expresie cantitativă, o astfel de variație se numește cantitativă, iar seria de distribuție se numește variațională.

Serii de variații se împart în discontinue și continue - în funcție de natura caracteristicii cantitative simple și ponderate - în funcție de frecvența de apariție a variantei;

Într-o serie de variații simple, fiecare opțiune apare o singură dată (p=1), într-o serie ponderată, aceeași opțiune apare de mai multe ori (p>1). Exemple de astfel de serii vor fi discutate în continuare în text. Dacă caracteristica cantitativă este continuă, i.e. Între mărimile întregi există mărimi fracționale intermediare seria de variații se numește continuă.

De exemplu: 10.0 – 11.9

14,0 – 15,9 etc.

Dacă caracteristica cantitativă este discontinuă, i.e. valorile sale individuale (variantele) diferă între ele printr-un număr întreg și nu au valori fracționale intermediare seria de variații se numește discontinuă sau discretă.

Folosind datele privind ritmul cardiac din exemplul anterior

pentru 21 de elevi, vom construi o serie de variații (Tabelul 1).

Tabelul 1

Distribuția studenților la medicină în funcție de frecvența cardiacă (bpm)

Astfel, a construi o serie de variații înseamnă a sistematiza și organiza valorile numerice disponibile (variante), adică. aranjați într-o anumită succesiune (în ordine crescătoare sau descrescătoare) cu frecvențele corespunzătoare. În exemplul luat în considerare, opțiunile sunt aranjate în ordine crescătoare și exprimate ca numere întregi discontinue (discrete), fiecare opțiune apare de mai multe ori, i.e. avem de-a face cu o serie de variații ponderate, discontinue sau discrete.

De regulă, dacă numărul de observații din populația statistică pe care o studiem nu depășește 30, atunci este suficient să aranjam toate valorile caracteristicii studiate într-o serie de variații crescătoare, ca în tabel. 1, sau ordine descrescătoare.

La cantitati mari observații (n>30), numărul de variante care apar poate fi foarte mare, în acest caz se alcătuiește un interval sau o serie de variații grupate, în care, pentru a simplifica prelucrarea ulterioară și a clarifica natura distribuției, variantele sunt combinate în grupuri. .

De obicei, numărul de opțiuni de grup variază de la 8 la 15.

Ar trebui să fie cel puțin 5, pentru că... în caz contrar, va fi o mărire prea aspră, excesivă, care distorsionează imaginea generală a variației și afectează foarte mult acuratețea valorilor medii. Când numărul de variante de grup este mai mare de 20-25, acuratețea calculării valorilor medii crește, dar caracteristicile variației caracteristicii sunt semnificativ distorsionate și procesarea matematică devine mai complicată.

La compilarea unei serii grupate, este necesar să se țină cont

− grupurile de opțiuni trebuie aranjate într-o anumită ordine (crescător sau descrescător);

− intervalele în grupurile de opțiuni trebuie să fie aceleași;

− valorile limitelor intervalului nu trebuie să coincidă, deoarece nu va fi clar în ce grupuri să clasificați variantele individuale;

− este necesar să se țină cont de caracteristicile calitative ale materialului colectat la stabilirea limitelor de interval (de exemplu, la studierea greutății adulților, este acceptabil un interval de 3-4 kg, iar pentru copiii din primele luni de viață este nu trebuie să depășească 100 g)

Să construim o serie grupată (interval) care caracterizează datele privind frecvența pulsului (bătăi pe minut) a 55 de studenți la medicină înainte de examen: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Pentru a construi o serie grupată aveți nevoie de:

1. Determinați dimensiunea intervalului;

2. Determinați mijlocul, începutul și sfârșitul grupelor din seria de variații.

● Mărimea intervalului (i) este determinată de numărul de presupuse grupuri (r), al căror număr este stabilit în funcție de numărul de observații (n) conform unui tabel special

Numărul de grupuri în funcție de numărul de observații:

În cazul nostru, pentru 55 de studenți, puteți crea de la 8 la 10 grupuri.

Valoarea intervalului (i) este determinată de următoarea formulă -

i = V max-V min/r

În exemplul nostru, valoarea intervalului este 82-58/8= 3.

Dacă valoarea intervalului este număr fracționar, rezultatul trebuie rotunjit la un număr întreg.

Există mai multe tipuri de medii:

● medie aritmetică,

● medie geometrică,

● medie armonică,

● rădăcină medie pătrată,

● medie progresivă,

● mediană

În statistica medicală, mediile aritmetice sunt cel mai des folosite.

Media aritmetică (M) este o valoare generalizantă care determină ceea ce este tipic pentru întreaga populație. Principalele metode de calcul a lui M sunt: ​​metoda mediei aritmetice și metoda momentelor (abaterile condiționate).

Metoda mediei aritmetice este utilizată pentru a calcula media aritmetică simplă și media aritmetică ponderată. Alegerea metodei de calcul a mediei aritmetice depinde de tipul seriei de variații. În cazul unei serii de variații simple, în care fiecare opțiune apare o singură dată, media aritmetică este determinată folosind formula:

unde: M – valoarea medie aritmetică;

V – valoarea caracteristicii variabile (variante);

Σ – indică acțiunea – însumare;

n – numărul total de observații.

Un exemplu de calcul al mediei aritmetice simple. Frecvența respiratorie (numărul de mișcări respiratorii pe minut) la 9 bărbați cu vârsta de 35 de ani: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Pentru a determina nivelul mediu al frecvenței respiratorii la bărbații în vârstă de 35 de ani, este necesar:

1. Construiți o serie de variații, dispunând toate opțiunile în ordine crescătoare sau descrescătoare Am obținut o serie de variații simplă, deoarece valorile opțiunilor apar o singură dată.

M = ∑V/n = 171/9 = 19 respirații pe minut

Concluzie. Frecvența respiratorie la bărbații în vârstă de 35 de ani este în medie de 19 mișcări respiratorii pe minut.

Dacă valorile individuale ale unei variante sunt repetate, nu este nevoie să scrieți fiecare variantă într-o linie, este suficient să enumerați dimensiunile variantelor care apar (V) și să indicați alături de ele numărul repetărilor lor (p). O astfel de serie de variații, în care opțiunile sunt, parcă, cântărite de numărul de frecvențe care le corespund, se numește serie de variații ponderate, iar valoarea medie calculată este media aritmetică ponderată.

Media aritmetică ponderată este determinată de formula: M= ∑Vp/n

unde n este numărul de observații egal cu suma frecvențelor – Σр.

Un exemplu de calcul a mediei ponderate aritmetice.

Durata invalidității (în zile) la 35 de pacienți cu afecțiuni respiratorii acute (IRA) tratați de un medic local în primul trimestru al anului curent a fost: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 zile .

Metoda de determinare a duratei medii a dizabilității la pacienții cu infecții respiratorii acute este următoarea:

1. Să construim o serie de variații ponderate, deoarece Valorile individuale ale opțiunii sunt repetate de mai multe ori. Pentru a face acest lucru, puteți aranja toate opțiunile în ordine crescătoare sau descrescătoare cu frecvențele corespunzătoare.

În cazul nostru, opțiunile sunt aranjate în ordine crescătoare

2. Calculați media ponderată aritmetică folosind formula: M = ∑Vp/n = 233/35 = 6,7 zile

Distribuția pacienților cu infecții respiratorii acute în funcție de durata dizabilității:

Durata handicapului (V) Număr de pacienți (p) Vp
∑p = n = 35 ∑Vp = 233

Concluzie. Durata dizabilității la pacienții cu boli respiratorii acute a fost în medie de 6,7 zile.

Modul (Mo) este cea mai comună opțiune din seria de variații. Pentru distribuția prezentată în tabel, modul corespunde unei opțiuni egale cu 10, apare mai des decât altele - de 6 ori;

Distribuția pacienților după durata șederii într-un pat de spital (în zile)

V
p

Uneori este dificil de determinat magnitudinea exactă a unui mod, deoarece pot exista câteva observații „cele mai comune” în datele studiate.

Mediana (Me) este un indicator neparametric care împarte seria de variații în două jumătăți egale: același număr de variante este situat de ambele părți ale medianei.

De exemplu, pentru distribuția prezentată în tabel, mediana este 10, deoarece pe ambele părți ale acestei valori există opțiunea 14, adică numărul 10 ocupă o poziție centrală în această serie și este mediana acestuia.

Având în vedere că numărul de observații din acest exemplu este par (n=34), mediana poate fi determinată după cum urmează:

Eu = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Aceasta înseamnă că mijlocul seriei cade pe a șaptesprezecea opțiune, care corespunde unei mediane egale cu 10. Pentru distribuția prezentată în tabel, media aritmetică este egală cu:

M = ∑Vp/n = 334/34 = 10,1

Deci, pentru 34 de observații din tabel. 8, avem: Mo=10, Me=10, media aritmetică (M) este 10,1. În exemplul nostru, toți cei trei indicatori s-au dovedit a fi egali sau apropiați unul de celălalt, deși sunt complet diferiți.

Media aritmetică este suma efectivă a tuturor influențelor, fără excepție, inclusiv cele extreme, adesea atipice pentru un anumit fenomen sau populație, participă la formarea acestuia.

Modul și mediana, spre deosebire de media aritmetică, nu depind de valoarea tuturor valorilor individuale ale caracteristicii variabile (valorile variantelor extreme și gradul de dispersie a seriei). Media aritmetică caracterizează întreaga masă de observații, modul și mediana caracterizează volumul

Serii de distribuție statistică– aceasta este o distribuție ordonată a unităților de populație în grupuri în funcție de o anumită caracteristică variabilă.
În funcție de caracteristica care stă la baza formării seriei de distribuție, există serii de distribuţie atributivă şi variaţională.

Prezența unei caracteristici comune stă la baza formării unei populații statistice, care reprezintă rezultatele descrierii sau măsurării caracteristicilor generale ale obiectelor de studiu.

Subiectul de studiu în statistică este schimbarea (variantă) caracteristici sau caracteristici statistice.

Tipuri de caracteristici statistice.

Seriile de distribuție sunt numite atributive construit după criterii de calitate. Atributiv– acesta este un semn care are un nume (de exemplu, profesie: croitoreasă, profesor etc.).
Seria de distribuție este de obicei prezentată sub formă de tabele. În tabel 2.8 prezintă seria de distribuție a atributelor.
Tabelul 2.8 - Distribuția tipurilor de asistență juridică oferite de avocați cetățenilor uneia dintre regiunile Federației Ruse.

Seria de variații– acestea sunt valorile caracteristicii (sau intervalele de valori) și frecvențele acestora.
Serii de variații sunt serii de distribuție, construit pe o bază cantitativă. Orice serie de variații constă din două elemente: opțiuni și frecvențe.
Variantele sunt considerate a fi valorile individuale ale unei caracteristici pe care aceasta le ia într-o serie de variații.
Frecvențele sunt numerele de variante individuale sau fiecare grup al unei serii de variații, adică Acestea sunt numere care arată cât de des apar anumite opțiuni într-o serie de distribuție. Suma tuturor frecvențelor determină dimensiunea întregii populații, volumul acesteia.
Frecvențele sunt frecvențe exprimate ca fracții dintr-o unitate sau ca procent din total. În consecință, suma frecvențelor este egală cu 1 sau 100%. Seria de variații permite estimarea formei legii de distribuție pe baza datelor reale.

În funcție de natura variației trăsăturii, există serie de variații discrete și interval.
Un exemplu de serie de variații discrete este dat în tabel. 2.9.
Tabelul 2.9 - Distribuția familiilor după numărul de camere ocupate în apartamente individuale în 1989 în Federația Rusă.

Prima coloană a tabelului prezintă opțiuni pentru o serie de variații discrete, a doua coloană conține frecvențele seriei de variații, iar a treia conține indicatori de frecvență.

Seria de variații

O anumită caracteristică cantitativă este studiată în populația generală. Din el se extrage aleatoriu o mostră de volum n, adică numărul elementelor eșantionului este egal cu n. În prima etapă a procesării statistice, variind mostre, adică ordonarea numerelor x 1 , x 2 , …, x n Ascendent. Fiecare valoare observată x i numit opţiune. Frecvenţă m i este numărul de observații ale valorii x iîn probă. Frecvența relativă (frecvența) w i este raportul de frecvență m i la dimensiunea eșantionului n: .
Când se studiază serii de variații, se folosesc și conceptele de frecvență acumulată și frecvență acumulată. Lasă x oarecare număr. Apoi numărul de opțiuni , ale căror valori sunt mai mici x, se numește frecvență acumulată: pentru x i n se numeste frecventa acumulata w i max.
O caracteristică se numește variabilă discretă dacă valorile sale individuale (variantele) diferă unele de altele printr-o anumită valoare finită (de obicei un număr întreg). Seria de variații a unei astfel de caracteristici se numește serie de variații discrete.

Tabelul 1. Vedere generală a unei serii de variații discrete de frecvențe

Valori caracteristicex i x 1 x 2 x n
Frecvențelem i m 1 m 2 m n

O caracteristică se numește variabilă continuu dacă valorile sale diferă unele de altele printr-o cantitate arbitrar mică, de exemplu. un semn poate lua orice valoare într-un anumit interval. O serie de variații continue pentru o astfel de caracteristică se numește interval.

Tabelul 2. Vedere generală a seriei de variație a intervalului de frecvențe

Tabelul 3. Imagini grafice ale seriei de variații

RândPoligon sau histogramăFuncția de distribuție empirică
Discret
Interval
Prin revizuirea rezultatelor observațiilor, se determină câte valori ale opțiunilor se încadrează în fiecare interval specific. Se presupune că fiecare interval aparține unuia dintre capetele sale: fie în toate cazurile stânga (mai des), fie în toate cazurile dreapta, iar frecvențele sau frecvențele arată numărul de opțiuni conținute în limitele specificate. Diferențele a i – a i +1 se numesc intervale parțiale. Pentru a simplifica calculele ulterioare, seria de variații de interval poate fi înlocuită cu una condițional discretă. În acest caz, valoarea medie i-intervalul este luat ca optiune x i, și frecvența intervalului corespunzătoare m i– pentru frecvenţa acestui interval.
Pentru reprezentarea grafică a seriilor de variații, cele mai frecvent utilizate sunt poligonul, histograma, curba cumulativă și funcția de distribuție empirică.

În tabel 2.3 (Gruparea populației ruse după venitul mediu pe cap de locuitor în aprilie 1994) este prezentată serie de variații de interval.
Este convenabil să analizați seria de distribuție folosind o imagine grafică, ceea ce vă permite să judecați forma distribuției. O reprezentare vizuală a naturii modificărilor în frecvențele seriei de variații este dată de poligon și histogramă.
Poligonul este utilizat atunci când descrie serii de variații discrete.
Să reprezentăm, de exemplu, grafic distribuția fondului de locuințe pe tip de apartament (Tabelul 2.10).
Tabel 2.10 - Distribuția fondului de locuințe din mediul urban pe tip de apartament (cifre condiționate).


Orez. Zona de distribuție a locuințelor


Pe axele ordonatelor pot fi reprezentate nu numai valorile frecvenței, ci și frecvențele seriei de variații.
Histograma este utilizată pentru a descrie o serie de variații de interval. La construirea unei histograme, valorile intervalelor sunt reprezentate pe axa absciselor, iar frecvențele sunt reprezentate prin dreptunghiuri construite pe intervalele corespunzătoare. Înălțimea coloanelor în cazul intervalelor egale ar trebui să fie proporțională cu frecvențele. O histogramă este un grafic în care o serie este reprezentată ca bare adiacente una cu cealaltă.
Să descriem grafic seria de distribuție a intervalelor prezentată în tabel. 2.11.
Tabelul 2.11 - Distribuția familiilor în funcție de dimensiunea spațiului de locuit per persoană (cifre condiționate).
N p/p Grupuri de familii în funcție de dimensiunea spațiului de locuit per persoană Numărul de familii cu o anumită dimensiune a spațiului de locuit Numărul cumulat de familii
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
TOTAL 115 ----


Orez. 2.2. Histograma distribuției familiilor după mărimea spațiului de locuit per persoană


Folosind datele seriei acumulate (Tabelul 2.11), construim distribuție cumulată.


Orez. 2.3. Distribuția cumulativă a familiilor în funcție de dimensiunea spațiului de locuit per persoană


Reprezentarea unei serii de variații sub formă de cumulat este eficientă în special pentru serii de variații ale căror frecvențe sunt exprimate ca fracții sau procente din suma frecvențelor seriei.
Dacă schimbăm axele atunci când reprezentăm grafic o serie de variații sub formă de cumul, atunci obținem ogiva. În fig. 2.4 prezintă o ogivă construită pe baza datelor din tabel. 2.11.
O histogramă poate fi convertită într-un poligon de distribuție prin găsirea punctelor medii ale laturilor dreptunghiurilor și apoi conectând aceste puncte cu linii drepte. Poligonul de distribuție rezultat este prezentat în Fig. 2.2 cu o linie punctată.
Când se construiește o histogramă a distribuției unei serii de variații cu intervale inegale, nu frecvențele sunt reprezentate de-a lungul axei ordonatelor, ci densitatea distribuției caracteristicii în intervalele corespunzătoare.
Densitatea de distribuție este frecvența calculată pe unitatea de lățime a intervalului, adică câte unități sunt în fiecare grup pe unitatea de valoare a intervalului. Un exemplu de calcul al densității de distribuție este prezentat în tabel. 2.12.
Tabel 2.12 - Distribuția întreprinderilor după numărul de angajați (cifre condiționate)
N p/p Grupuri de întreprinderi după numărul de angajați, oameni. Numărul de întreprinderi Dimensiunea intervalului, oameni. Densitatea de distribuție
O 1 2 3=1/2
1 Până la 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
TOTAL 147 ---- ----

Poate fi folosit și pentru a reprezenta grafic serii de variații curba cumulativa. Folosind un cumulat (curbă sumă), este descrisă o serie de frecvențe acumulate. Frecvențele cumulate sunt determinate prin însumarea secvențială a frecvențelor între grupuri și arată câte unități din populație au valori ale atributelor nu mai mari decât valoarea luată în considerare.


Orez. 2.4. Ogiva repartizării familiilor după mărimea spațiului de locuit per persoană

Atunci când se construiesc cumulate ale unei serii de variații de interval, variantele seriei sunt reprezentate grafic de-a lungul axei absciselor, iar frecvențele acumulate sunt reprezentate de-a lungul axei ordonatelor.

Serii cu variații continue

Seria de variație continuă - o serie construită pe baza unei caracteristici statistice cantitative. Exemplu. Durata medie a îmbolnăvirii condamnaților (zile per persoană) în perioada toamnă-iarnă a acestui an a fost:
7,0 6,0 5,9 9,4 6,5 7,3 7,6 9,3 5,8 7,2
7,1 8,3 7,5 6,8 7,1 9,2 6,1 8,5 7,4 7,8
10,2 9,4 8,8 8,3 7,9 9,2 8,9 9,0 8,7 8,5

Atunci când procesează cantități mari de informații, ceea ce este deosebit de important în realizarea dezvoltărilor științifice moderne, cercetătorul se confruntă cu sarcina serioasă de a grupa corect datele sursă. Dacă datele sunt de natură discretă, atunci, după cum am văzut, nu apar probleme - trebuie doar să calculați frecvența fiecărei caracteristici. Dacă caracteristica studiată are continuu caracter (ceea ce este mai comun în practică), atunci alegerea numărului optim de intervale de grupare a caracteristicilor nu este deloc o sarcină banală.

Pentru a grupa variabile aleatoare continue, întregul interval variațional al caracteristicii este împărțit într-un anumit număr de intervale La.

Interval grupat (continuu) serie de variații se numesc intervale ordonate după valoarea atributului (), unde numărul de observații care se încadrează în intervalul r"-lea, sau frecvențele relative (), sunt indicate împreună cu frecvențele corespunzătoare ():

Intervalele valorice caracteristice

frecvența mea

HistogramăŞi cumulate (ogiva), deja discutate în detaliu de noi, sunt un mijloc excelent de vizualizare a datelor, permițându-vă să vă faceți o idee primară a structurii datelor. Astfel de grafice (Fig. 1.15) sunt construite pentru date continue în același mod ca și pentru datele discrete, ținând cont doar de faptul că datele continue umple complet regiunea valorilor posibile, luând orice valoare.

Orez. 1.15.

De aceea coloanele de pe histogramă și cumulat trebuie să se atingă și să nu aibă zone în care valorile atributelor să nu se încadreze în toate posibilele(adică, histograma și cumulatele nu ar trebui să aibă „găuri” de-a lungul axei absciselor, care nu conțin valorile variabilei studiate, ca în Fig. 1.16). Înălțimea barei corespunde frecvenței - numărul de observații care se încadrează într-un interval dat sau frecvența relativă - proporția de observații. Intervale nu trebuie să se intersectezeși au de obicei aceeași lățime.

Orez. 1.16.

Histograma și poligonul sunt aproximări ale curbei densității probabilității (funcția diferențială) f(x) distribuția teoretică, luată în considerare în cursul teoriei probabilităților. Prin urmare, construcția lor este atât de importantă în prelucrarea statistică primară a datelor cantitative continue - după apariția lor se poate judeca legea distribuției ipotetice.

Cumulat – o curbă de frecvențe (frecvențe) acumulate dintr-o serie de variații de interval. Graficul funcției de distribuție cumulativă este comparat cu cumulul F(x), discutat și în cursul de teoria probabilității.

Practic, conceptele de histogramă și cumulat sunt asociate în mod specific cu datele continue și cu seriile lor de variație de interval, deoarece graficele lor sunt estimări empirice ale funcției de densitate a probabilității și, respectiv, funcției de distribuție.

Construcția unei serii de variații de interval începe cu determinarea numărului de intervale k.Și această sarcină este poate cea mai dificilă, importantă și controversată din problema studiată.

Numărul de intervale nu trebuie să fie prea mic, deoarece acest lucru va face histograma prea netedă ( exagerat), pierde toate caracteristicile de variabilitate ale datelor originale - în Fig. 1.17 puteți vedea cum aceleași date pe care graficele din Fig. 1.15, folosit pentru a construi o histogramă cu un număr mai mic de intervale (graficul din stânga).

În același timp, numărul de intervale nu trebuie să fie prea mare - altfel nu vom putea estima densitatea de distribuție a datelor studiate de-a lungul axei numerice: histograma va fi sub-netezită (subnetezit), cu intervale goale, neuniforme (vezi Fig. 1.17, graficul din dreapta).

Orez. 1.17.

Cum să determinați cel mai preferat număr de intervale?

În 1926, Herbert Sturges a propus o formulă pentru calcularea numărului de intervale în care este necesar să se împartă setul original de valori ale caracteristicii studiate. Această formulă a devenit cu adevărat extrem de populară - majoritatea manualelor de statistică o oferă și multe pachete de statistică o folosesc implicit. Cât de justificat este acest lucru și, în toate cazurile, este o întrebare foarte serioasă.

Deci, pe ce se bazează formula Sturges?

Luați în considerare distribuția binomială)