Paano (at Bakit) Gumamit ng Mga Outliers Function sa Excel
Ang isang outlier ay isang halaga na makabuluhang mas mataas o mas mababa kaysa sa karamihan ng mga halaga sa iyong data. Kapag gumagamit ng Excel upang pag-aralan ang data, maaaring i-out ng mga tagalabas ang mga resulta. Halimbawa, ang average na average ng isang hanay ng data ay maaaring tunay na sumasalamin sa iyong mga halaga. Nagbibigay ang Excel ng ilang mga kapaki-pakinabang na pag-andar upang matulungan ang pamahalaan ang iyong mga outliers, kaya't tingnan natin.
Isang Mabilis na Halimbawa
Sa imahe sa ibaba, ang mga nasa labas ay makatuwirang madaling makita - ang halaga ng dalawang nakatalaga kay Eric at ang halaga ng 173 na nakatalaga kay Ryan. Sa isang hanay ng data na tulad nito, sapat na madali upang makita at makitungo nang manu-mano ang mga outlier na iyon.
Sa isang mas malaking hanay ng data, hindi iyon ang magiging kaso. Ang kakayahang makilala ang mga outlier at alisin ang mga ito mula sa mga kalkulasyong pang-istatistika ay mahalaga-at iyon ang titingnan namin kung paano gawin sa artikulong ito.
Paano Makahanap ng Mga Outlier sa iyong Data
Upang hanapin ang mga outlier sa isang hanay ng data, ginagamit namin ang mga sumusunod na hakbang:
- Kalkulahin ang ika-1 at ika-3 na quartile (pag-uusapan natin kung ano ang nasa loob ng kaunti).
- Suriin ang saklaw ng interquartile (ipapaliwanag din namin ang mga ito nang medyo mas mababa).
- Ibalik ang itaas at ibabang mga hangganan ng aming saklaw ng data.
- Gamitin ang mga hangganan na ito upang makilala ang mga nakalabas na mga puntos ng data.
Ang saklaw ng cell sa kanan ng hanay ng data na nakikita sa imahe sa ibaba ay gagamitin upang maiimbak ang mga halagang ito.
Magsimula na tayo.
Unang Hakbang: Kalkulahin ang Mga Quartile
Kung hinati mo ang iyong data sa mga quarters, ang bawat isa sa mga hanay na iyon ay tinatawag na isang quartile. Ang pinakamababang 25% ng mga numero sa saklaw ay bumubuo sa 1st quartile, ang susunod na 25% ang 2nd quartile, at iba pa. Ginagawa muna namin ang hakbang na ito dahil ang pinakalawak na ginamit na kahulugan ng isang outlier ay isang data point na higit sa 1.5 mga saklaw ng interquartile (IQRs) sa ibaba ng ika-1 na quartile, at 1.5 na mga saklaw ng interquartile sa itaas ng ika-3 na quartile. Upang matukoy ang mga halagang iyon, kailangan muna nating malaman kung ano ang mga quartile.
Nagbibigay ang Excel ng isang function na QUARTILE upang makalkula ang mga quartile. Nangangailangan ito ng dalawang piraso ng impormasyon: ang array at ang quart.
= QUARTILE (array, quart)
Ang array ay ang saklaw ng mga halagang sinusuri mo. At ang quart ay isang numero na kumakatawan sa quartile na nais mong ibalik (hal., 1 para sa ika-1 na quartile, 2 para sa ika-2 na quartile, at iba pa).
Tandaan: Sa Excel 2010, inilabas ng Microsoft ang mga function na QUARTILE.INC at QUARTILE.EXC bilang mga pagpapabuti sa pagpapaandar ng QUARTILE. Ang QUARTILE ay mas paatras na katugma kapag nagtatrabaho sa maraming mga bersyon ng Excel.
Bumalik tayo sa aming halimbawa ng talahanayan.
Upang makalkula ang 1st Quartile maaari naming gamitin ang sumusunod na formula sa cell F2.
= QUARTILE (B2: B14,1)
Habang inilalagay mo ang formula, nagbibigay ang Excel ng isang listahan ng mga pagpipilian para sa quart argument.
Upang makalkula ang ika-3 na quartile, maaari kaming magpasok ng isang pormula tulad ng naunang isa sa cell F3, ngunit gumagamit ng isang tatlo sa halip na isang isa.
= QUARTILE (B2: B14,3)
Ngayon, nakuha namin ang mga quartile data point na ipinakita sa mga cell.
Pangalawang Hakbang: Suriin ang Saklaw ng Interquartile
Ang saklaw ng interquartile (o IQR) ay ang gitna ng 50% ng mga halaga sa iyong data. Kinakalkula ito bilang pagkakaiba sa pagitan ng ika-1 na quartile na halaga at ng ika-3 na quartile na halaga.
Gagamitin namin ang isang simpleng pormula sa cell F4 na nagbabawas sa ika-1 na quartile mula sa ika-3 na quartile:
= F3-F2
Ngayon, maaari naming makita ang ipinakita ang aming hanay ng interquartile.
Ikatlong Hakbang: Ibalik ang Mababang at Itaas na Mga Hangganan
Ang mas mababa at itaas na mga hangganan ay ang pinakamaliit at pinakamalaking halaga ng saklaw ng data na nais naming gamitin. Ang anumang mga halagang mas maliit o mas malaki kaysa sa mga nakagapos na halaga ay ang mga outlier.
Kalkulahin namin ang mas mababang limit na limitasyon sa cell F5 sa pamamagitan ng pag-multiply ng halaga ng IQR ng 1.5 at pagkatapos ay ibawas ito mula sa Q1 data point:
= F2- (1.5 * F4)
Tandaan: Ang mga braket sa pormulang ito ay hindi kinakailangan dahil ang bahagi ng pagpaparami ay makakalkula bago ang bahagi ng pagbabawas, ngunit ginagawang mas madaling basahin ang formula.
Upang makalkula ang itaas na nakagapos sa cell F6, paparami namin ang IQR ng 1.5 muli, ngunit sa oras na ito idagdag ito sa punto ng data ng Q3:
= F3 + (1.5 * F4)
Pang-apat na Hakbang: Kilalanin ang mga Outlier
Natapos na namin ang lahat ng aming pinagbabatayan na naka-set up na data, oras na upang makilala ang aming mga nakalabas na mga puntos ng data-ang mga mas mababa kaysa sa mas mababang halaga na nakagapos o mas mataas kaysa sa pinakamataas na halaga ng nakatali.
Gagamitin namin ang pagpapaandar na O upang maisagawa ang lohikal na pagsubok na ito at ipakita ang mga halagang tumutugon sa mga pamantayang ito sa pamamagitan ng pagpasok ng sumusunod na pormula sa cell C2:
= O (B2 $ F $ 6)
Susubukan naming kopyahin ang halagang iyon sa aming mga C3-C14 cells. Ang isang TUNAY na halaga ay nagpapahiwatig ng isang outlier, at tulad ng nakikita mo, nakakuha kami ng dalawa sa aming data.
Hindi pinapansin ang Outliers kapag Kinakalkula ang Kahulugan ng Karaniwan
Gamit ang pag-andar ng QUARTILE hayaan nating kalkulahin ang IQR at gumana kasama ang pinaka malawak na ginamit na kahulugan ng isang outlier. Gayunpaman, kapag kinakalkula ang average average para sa isang saklaw ng mga halaga at hindi pinapansin ang mga outliers, mayroong isang mas mabilis at madaling pag-andar na gagamitin. Ang diskarteng ito ay hindi makikilala ang isang outlier tulad ng dati, ngunit papayagan kaming maging may kakayahang umangkop sa kung ano ang maaari naming isaalang-alang ang aming higit na bahagi.
Ang pagpapaandar na kailangan namin ay tinatawag na TRIMMEAN, at makikita mo ang syntax para dito sa ibaba:
= TRIMMEAN (array, porsyento)
Ang array ay ang saklaw ng mga halagang nais mong i-average. Ang porsyento ay ang porsyento ng mga puntos ng data upang maibukod mula sa tuktok at ibaba ng hanay ng data (maaari mo itong ipasok bilang isang porsyento o isang decimal na halaga).
Inilagay namin ang formula sa ibaba sa cell D3 sa aming halimbawa upang makalkula ang average at ibukod ang 20% ng mga outliers.
= TRIMMEAN (B2: B14, 20%)
Mayroong mayroon kang dalawang magkakaibang mga pag-andar para sa paghawak ng mga outliers. Kung nais mong kilalanin ang mga ito para sa ilang mga pangangailangan sa pag-uulat o ibukod ang mga ito mula sa mga kalkulasyon tulad ng mga average, ang Excel ay may isang function upang umangkop sa iyong mga pangangailangan.