Rubriky
Nástroje a metody datové analytiky

Kritika dashboardu

Úkol zněl jasně: získej dashboard. Optimálně vlastní, pokud k tomu nejsme ochotní, tak vzít nějaký na internetu.

Jelikož nejsem ochotná střílet do vlastních řad, i když hledání chyb by bylo asi o dost jednoduší, tak jsem zvolila dashboard z webu.

Ale ani tato varianta nebyla jednoduchá. Nechtěla jsem vybrat dashboard, který vypadá naprosto katastrofálně, ale chtěla jsem nějaký, který někdo mohl myslet i vážně. Ale zase ne moc kvalitní, protože jsem stejně potřebovala najít alespoň 15 chyb.

Takže jsem vyřadila krásné výtvory jako třeba tento:

A nakonec se ujala dashboardu, který se věnuje filmům. Vybrala jsem si ho i proto, že je relativně jasné, k čemu slouží a lze se v něm vyznat.

Vybraný dashboard:

Zdroj: https://daxg39y63pxwu.cloudfront.net/images/blog/power-bi-microsoft-projects-examples-and-ideas-for-practice/OTT_Media_Analysis_Dashboard_Power_BI_Project_Idea.pnghttps://daxg39y63pxwu.cloudfront.net/images/blog/power-bi-microsoft-projects-examples-and-ideas-for-practice/OTT_Media_Analysis_Dashboard_Power_BI_Project_Idea.png

Seznam chyb, které zde vidím:

  • Nepořádek -> jednotlivé vizuály jsou různě veliké, různě daleko od sebe. Cílová skupina musí přeskakovat, nelze číst plynule
  • Celková vizualizace v červené barvě -> velmi agresivní volba barevného pozadí, veškeré informace jsou také v červených odstínech, takže se velmi těžko zdůrazňují zásadní informace
  • Čísla a procenta bez vysvětlení -> doplnit, co by to mělo znamenat
  • Smrt koláčovým grafům -> špatný výběr efektivního vizuálu. Navíc legenda není k přečtení, nelze poznat kolik procent má který rating. Tím, že je tento koláčový graf jediný barevnější vizuál, přitahuje zbytečnou pozornost
  • Dvojitá smrt za prstencový neboli donut graf. Zde autor zůstal věrný červeným odstínům, což nám přečtení grafu ještě více komplikuje
  • Chybí zde správný kontrast
  • Chybí bílá místa, která by kontrastovala (gestalt proximity)
  • Největší pozornost přitahuje horní třetina, jsou zde kontrastující obrázky, velké nadpisy, ale nejsou zde hlavní informace.
  • Většina lidí, čte z leva doprava, což znamená, že jejich pozornost skončí v pravém dolním rohu, kde je již zmíněný, méně důležitý koláčový graf.

Toto byly chyby, které mě nejvíce zaujali, nyní pár návrhu na zlepšení.

  • Doporučila bych využívat více kontrastu
  • Zaměřit se na to, co chceme sdělit cílové skupině
  • Uspořádání grafů by mělo být zarovnanější
  • Pokud jsou informace o „View Rating“ důležité, bylo by lepší vyvarovat se koláčového grafu, ale využít například tabulku nebo linechart
Rubriky
Nástroje a metody datové analytiky

Závěrečný projekt – datová analýza

Jak to vypadalo s kriminalitou a zatýkáním v Anglii v letech 2018/19 – 2020/21 z pohledu etnických skupin, věku a pohlaví

Využité nástroje:

  • Excel pro prozkoumání dat a úpravy
  • PowerBI pro vizualizaci a zjištění odpovědí na položené otázky

Data:

Otázky na které chci v datech najít odpověď:

  • Jak se vyvíjel počet zatčených v Anglii v letech 2018/19 – 2020/21? Je zde stoupající nebo klesající tendence?
  • Ve kterém městě proběhlo za toto období nejméně / nejvíce zatčení?
  • Byli častěji zatčeny ženy nebo muži?
  • Má některá z 5-ti hlavních etnických skupin větší počet zatčených v určité věkové kategorii oproti ostatním skupinám?
  • Ve kterých 5-ti policejních oblastech bylo zatčeno nejvíce žen ve věku nad 21 let?
  • Jak se v posledních třech letech měnilo zastoupení zatčených vzhledem k etnické skupině?

Vysvětlení a úprava datasetu:

  • Soubor s daty:
  • Data stažena ve formátu .csv, importována do excelu
  • Při nahrání dat se zobrazilo, že dataset obsahuje 450 chybových řádků. Při bližším zkoumání jsem zjistila, že ve sloupci „Number of arrestes“ chybí na řádcích 9001-9450 informace o počtu zatčených. Zjistila jsem, že tato data zde nejsou zapsána, protože policejní oblast Lancashire v roce 2018/19 nebyla schopná dodat informace o počtu zatčených
  • Vysvětlení nejasných sloupců, doplnění nových:
    • Time – financial year neboli fiskální roky (v Anglii se jedná o období od 6.dubna do 5.dubna následujícího roku
    • Ethnicicty a Ethnicity_type – etnické skupiny zatčených. Tyto sloupečky byly komplikované, protože se zde využívá 4 různých zápisů. Pro rok 2018/2019 se využilo rozdělení na etnické skupiny podle sčítání obyvatel z roku 2001 (16+1, 5+1), v dalších dvou letech se však využilo rozdělení podle sčítání z roku 2011 (18+1, 5+1)
    • Pro zjištění relevantních informací jsem si vytvořila sloupec Ethnicity_subgroup, kde jsem si veškeré etnické skupiny rozdělila do 5+1 skupin (Asian, Black, Mixed, Other, White, All, Unreported). Informace jsem získala z oficiálních stránek
      • Pro převedení informací jsem využila vzorec IF:
      • =IF([@[Ethnicity_type]]=“ONS 2011 5+1″; [@Ethnicity]; (IF([@[Ethnicity_type]]=“ONS 2001 5+1″; [@Ethnicity]; (IF([@Ethnicity]=“Any Other Asian Background“;“Asian“; (IF([@Ethnicity]=“Any Other Black Background“;“Black“;(IF([@Ethnicity]=“Any Other Ethnic Group“;“Other“;(IF([@Ethnicity]=“Any Other Mixed/Multiple Ethnic Background“;“Mixed“;(IF([@Ethnicity]=“Any Other White Background“;“White“;(IF([@Ethnicity]=“Arab“;“Other“;(IF([@Ethnicity]=“Bangladeshi“;“Asian“;(IF([@Ethnicity]=“Black African“;“Black“;(IF([@Ethnicity]=“Black Caribbean“;“Black“;(IF([@Ethnicity]=“Chinese“;“Asian“;(IF([@Ethnicity]=“Gypsy or Irish Traveller“;“White“;(IF([@Ethnicity]=“Indian“;“Asian“;(IF([@Ethnicity]=“Mixed African“;“Mixed“;(IF([@Ethnicity]=“Mixed Asian“;“Mixed“;(IF([@Ethnicity]=“Mixed Caribbean“;“Mixed“;(IF([@Ethnicity]=“Pakistani“;“Asian“;(IF([@Ethnicity]=“White Irish“;“White“;(IF([@Ethnicity]=“White British“;“White“;(IF([@Ethnicity]=“Any other asian“;“Asian“;(IF([@Ethnicity]=“Mixed White and Asian“;“Mixed“;(IF([@Ethnicity]=“Mixed White and Black African“;“Mixed“;(IF([@Ethnicity]=“Mixed White and Black Caribbean“;“Mixed“;(IF([@Ethnicity]=“Unreported“;“Unreported“;(IF([@Ethnicity]=“All“;“All“;“bug“)))))))))))))))))))))))))))))))))))))))))))))))))))
    • Sex a Gender – dva sloupce, které spolu souvisí. Sloupec Sex se využil pro získání informací před rokem 2020/21, kde byly kategorie – Female, Male, N/A for 2020/21 data. Gender se využil v období 2020/21 a rozděluje se na – Female, Male, Other, Unknown, N/A for data before 2020/21.
    • Sex and Gender – vytvořila jsem nový sloupec, kde jsem spojila informace z obou předchozích sloupců, N/A buňky jsem nahradila prázdnými a poté jsem sloupce sloučila
    • Geography – rozdělení na jednotlivé policejní oblasti. Jelikož jsem ve vizualizaci chtěla využít mapu míst, bylo nutné některé názvy upravit a dodat informace, že místo se nachází v Anglii. Například: Cleveland -> Cleveland (England).

Odpovědi na otázky:

  • Jak se vyvíjel počet zatčených v Anglii v letech 2018/19 – 2020/21? Je zde stoupající nebo klesající tendence?

V prvním fiskálním roce tohoto datasetu bylo množství zatčených osob velmi nízké, v dalších letech docházelo k postupnému nárůstu a je pravděpodobné, že počet zatčených bude i nadále růst.

  • Ve kterém městě proběhlo za toto období nejméně / nejvíce zatčení?

Nejvíce zatčení proběhlo v policejní oblasti Metropolitan police, což je Londýnská oblast mimo město Londýn. I přestože se jedná o relativně malou oblast (1 578 km2), proběhlo zde nejvíce zatčení.

Nejméně zatčení proběhlo v oblasti ve městě Londýn.

V rámci vizualizace jsem zpracovala seznam všech oblastí a jejich zobrazení na mapě.

  • Byli častěji zatčeny ženy nebo muži?

Častěji docházelo k zatýkání mužů a to ve všech třech letech.

Celkový přehled
Rok 2018/19
Rok 2019/20
Rok 2020/21
  • Má některá z 5-ti hlavních etnických skupin větší počet zatčených v určité věkové kategorii oproti ostatním skupinám?

Zde jsem využila mnou vytvořený sloupec Ethnicity_subgroup, kde jsem si veškeré zatčení rozdělila do 5-ti hlavních etnických kategorií. Díky tomu můžeme vidět, že věkové zastoupení je téměř ve stejném poměru u všech etnických skupin. Což například znamená, že nejvíce zatčených spadalo do kategorie nad 21 let. Mírný rozdíl je akorát u etnické skupiny Black a Mixed, kde je ve věkové kategorii 10-17 let zatčených více než v kategorii 18-20 let. U ostatních etnických skupin je to naopak.

  • Ve kterých 5-ti policejních oblastech bylo zatčeno nejvíce žen ve věku nad 21 let?

Nejvíce zatčených žen ve věku nad 21 let je v oblasti Metropolitan Police. Na vizuálu můžete vidět další 4 oblasti.

  • Jak se v posledních třech letech měnilo zastoupení zatčených vzhledem k etnické skupině?

Na grafu lze vidět, jak se měnil poměr zatčených, podle základních etnických skupin. Při porovnání těchto třech let můžeme vidět, že u etnických skupin White, Black a Others docházelo k postupnému poklesu. Naopak ke zvýšení došlo u etnických skupin Asian a Mixed.

Celková vizualizace:

PowerBI applikace – není nutné stahovat

Rubriky
Nástroje a metody datové analytiky

Grafy a grafy a grafy

Úkol bylo vytvoření dashbordu.

Jste analytici v shopu a od product portfolia managera  jsme dostali za úkol vytvořit dashboard, který mu jednoduše poradí, jaké produkty prodávat a co naopak omezit.

App power BI – vizualizace

Rubriky
Nástroje a metody datové analytiky

Power BI – první hodina

Power BI je velmi zajímavý nástroj. Krásně kombinuje všechny potřebné funkce pro práci s daty.

Datový set můžeme nahrát stejně jako v excelu a upravovat v Editor Power Query. Zde můžeme vyčistit data, přidávat sloupečky, měnit typ sloupců a spoustu další věcí. Pokud už náš dataset vypadá tak jak potřebujeme můžeme ho zavřít a použít data v grafické části Power BI.

Power BI má velký výběr různých grafů, které můžeme dále upravovat a různě měnit požadavky a hodnoty v osách x a y. Vše se dá barevně sladit, seřadit a vizuálně přizpůsobit.

Úžasná funkce je propojení grafů na jedné stránce, což znamená, že když například mám graf, která firma má nejvíc faktur a graf, které dny nejvíce fakturujeme, při výběru firmy se mi zvýrazní, které dny fakturuje. Dále tam můžu nastavit časovou osu a vidět jak se třeba celková tržba mění v průběhu času. A samozřejmě spousta dalších a dalších funkcí.

V rámci úkolu jsme museli odpovědět na tyto otázky:

Kolik Peněz jsme celkově vyfakturovali? (celé číslo)

Jak se vyvíjí měsíční fakturace? Vypadá to, že za chvíli zkrachujeme.

Jak si stojí jednotlivá střediska? Nejlépe je na tom Facebook, těsně za ním PPC a z velké vzdálenosti je sleduje mailing.

Kdo jsou naši nejlepší zákazníci? První místo obsadila rodinná firma Familyshare, na druhém místě je Huckberry a třetí místo získala firma Náš Svět V Datech.

Která byla největší faktura? Největší faktura měla číslo 17148987 a utržila fascinujících 654 968,00 Kč. Fakturovali jsem ji v říjnu 2016, firmě Hluku v úterý a přes středisko Facebook.

Který den v týdnu nejvíce fakturuje? Nejvíc faktur vystavujeme ve středu, poté v pátek a v pondělí. Za mě zajímavý výsledek, evidentně se v práci nepřetrhneme na začátku a na konci pracovního týdne. Ale zase fakturujeme i v sobotu a neděli, což dost obdivuji.

Jaký je trend v čase pro firmu Náš Svět v Datech? Pokud správně chápu otázku, tak tady je odpověď 😃Můžeme vidět, že firma postupně zvyšuje celkové finance. Zde jsem dala dva grafy, abychom mohli vidět, jak hezky lze ovlivnit první pocit, pokud nedáme začátek grafu na nulu.

Jaký je trend pro fakturaci Facebooku? True nám znázorňuje ukončené faktrury, false neukončené.

Které středisko má vzrůstající tendenci? Je v tom i háček? Jediné středisko, které má vzrůstající tendenci je seo. Jako háček vidím to, že všechny ostatní střediska výrazně klesly.

  • Který rok se nám nejvíce dařilo? Je odpověď vypovídající? Výrazně více se nám dařilo v roce 2016, bohužel směrodatné to není vůbec, protože naše data končí v dubnu 2017 a začínají v červenci 2016.
  • Který kvartál (kvartál, nikoliv kvartál+rok) se nám nejvíce dařilo? Je odpověď vypovídající? Nejvíce se nám dařilo v rámci 4-tého čtvrtletí. Opět nejsou data úplně vypovídající, protože nemáme v datech obsažené všechny měsíce.
  • Který den v týdnu (po, ut, st…) se nám nejvíce dařilo? Nejvíce se nám dařilo v Pátek. Docela výrazněji oproti ostatním dnům.
  • Pokud od nás odejde několik (~5) klientů, dostaneme se do problémů? Svou odpověď vysvětlete
    a podpořte
    . Na tuto otázku jsem nezjistila odpověď, netuším, jak na to. Ale vzhledem k tomu, že nám postupně klesá zisk, tak bychom neměli přijít o žádného klienta.

Zde je moje snaha o výsledek (bohužel se mi nedaří nahrání v originálním formátu, tak alespoň pdf):

Rubriky
Nástroje a metody datové analytiky

Kontingenční tabulky a grafy

Další hodina s Excelem a další zjištění jak málo o něm vím a asi ještě dlouho vědět budu.

Tentokrát jsme probrali kontingenční tabulky a naťukli jsme vizualizaci. My jsme se u tabulek vyhnuli oblíbenému Covidu a ještě oblíbenějším volbám a vrhli se na pozitivní téma dopravních nehod v Brně. Po „nasosání dat“ do excelu jsme dostali velkou spoustu informací.

Postup byl jednoduchý:

  • Najít volně přístupná data, kde bude hromada údajů (https://data.brno.cz/datasets/298c37feb1064873abdccdc2a10b605f_0/explore?location=49.205381%2C16.584046%2C10.99)
  • Stáhnout je ve formátu CSV a otevřít v Excelu
  • Zjistit, že všechna data jsou napsaná v jednom sloupečku, oddělená čárkou a tím pádem dost nepřehledná
    • Starý postup: dát „Text do sloupců“, využít oddělovat a rozdělit do sloupců
    • Lepší způsob: Data -> Načíst data -> Ze souboru -> Z textu/CSV
      • Načíst a Importovat data -> otevře se Editor Power Query (když tak se tam dá dokliknout přes Dotaz -> Upravit) 

Přes Editor Power Query se dá měnit spousta věcí, měnit formáty, odstraňovat nepotřebné sloupečky, nahrazovat a opravovat text nebo tvořit funkce přes jazyk M.

A pak hurá na kontingenční tabulky. Za mě super věc se kterou se dá fakt hodně vyhrát. Díky nim můžeme zjistit třeba tyto informace:

Děje se nějaké zavinění více v noci? Ano, lesní zvěří, domácím zvířectvem

Je o víkendu průměrně více nehod s vlivem alkoholu nebo drog? Ano

Který měsíc je nejvíce nehod? Nejvíce nehod se stalo v říjnu, ale pokud bychom vypočítali průměr na den, tak nejhorší měsíc vychází červen

A určitě ještě spousta dalších zajímavých dotazů, hrát se s tím dá docela dlouho.

Poté jsme se vrhli na vizualizaci. Prvně jsme měli nějak upravit tabulku a vytvořit pár jednoduchých grafů podle svého nejlepšího svědomí a vědomí. Poté jsem probrali principy správné vizualizace a měli tabulku a grafy vytvořit znovu a lépe. Já jsem na toto asi úplně dutá, ale snad ty grafy po opravě vypadají o trochu lépe.

Základní pravidla:

  • Musí to být jednoduché
  • Zřetelné a lehce k přečtení
  • Přemýšlet jako koncový uživatel
  • 5-10 sekund musí být vše jasné
  • Vše zarovnané do pravého úhlu (vypadají upraveně)
  • Vyvarovat se rušících elementů
  • Použít správnou vizualizaci

Za mě úplně největší objev za celou hodinu jsou „Výstřižky“. Varianta jak si rychle a jednoduše překopírovat nějakou část zobrazených informací či náhled obrázků nebo tabulek a vložit je třeba na blog 😃. Super věc, která mi přijde velmi užitečná a dost mi usnadnila život.

Rubriky
Nástroje a metody datové analytiky

První hodina s Excelem aneb tabulky, tabulky a zase tabulky

Spousta lidí si myslí, že Excelu rozumí. Akorát když se zeptáte na pokročilé funkce tak jsou schopni vykoktat akorát SUMU. Já patřím přesně do této skupiny. Excel ráda používám a vždy jsem si myslela, že mu rozumím, už od malička, kdy jsem si jednotlivé buňky vybarvovala různou barvou a vytvářela obrázky. Později jsem zjistila, že lze Excel používat i na jiné funkce.

A nyní jsem zjistila, že excel má skoro neomezené možnosti a bude mi velmi dlouho trvat, než se všechny naučím. Nicméně na první hodině jsme poodhalili roušku tajemství. Naučili jsme se spoustu užitečných příkazů. Například jednoduchou klávesovou zkratku jak se dostat na konec tabulky. CTRL+šipka dolů (+SHIFT pokud chceme sloupeček označit). Jeeee, to ušetří spoustu času, když budu zjišťovat počet řádků v Excelu.

Dále jsem probrali vytváření tabulek, filtrování informací, spojení dvou funkcí SUMIF, AVERAGEIF, COUNTIF, odebrali duplicity a naučili se zadat pomocí funkce dnešní datum.

Data jsem bohužel získat nestihli, ale to nevadí, prý stihneme příště.

Dále jsme vyhledávali v tabulce pomocí příkazu SVYHLEDAT a POZVYHLEDAT (proč je to přeložené takto, fakt netuším). Nicméně jsou to fascinující funkce a už se moc těším na další pokračování.

Přestože se mi nepodařilo dosáhnout celkových 100%, byť jednotlivé části mám na plný počet (prý excelovský vtípek), tak hodinu považuji za velmi úspěšnou.