logo Intelligent Technologies, s.r.o.

Zajímavá fakta z Výzvy vědců po datové analýze Power BI

Výzvu Vědci proti strachu a lhostejnosti podepsalo 145 profesorů, nejčastěji je zastoupená Přírodovědecká fakulta UK. Nejvíce se k výzvě připojili zástupci z UK, AV ČR a Masarykovy univerzity.

Podíváme se na aktuální Výzvu vědců pohledem datové analytiky se současnou demonstrací použití Power BI - analytické a reportingové platformy. K analýze je použita aplikace Power BI Desktop, která je k dispozici volně ke stažení bez registarce.

Potřebná data čerpáme z webu vyzvavedcu.cz, který obsahuje seznam všech akademiků, jež se k výzvě připojili a také seznam všech podporovatelů z neakademické sféry.

Power BI umí načítat obsah webových stránek a není tedy problém seznam akademiků načíst a najít v obsahu stránky datové struktury se jmény vědců. Pro snadnější vizuální orientaci na stránce a pro vyhledání elementů se jmény a tituly je dobré použít např. nástroj Chrome Developer Tools.

Tvůrci webových stránek je umístili do

ů několik ů pro titul před, za a jménem. Není problém načíst tato data do Power BI, ale načtou se jako řádky a pro intuitivní práci je potřeba dostat je do sloupců.

Pro sloučení řádků je možné použít funkci PIVOT nebo GROUP. Předtím je ale nutné identifikovat titul a jméno. Tvůrci stránek totiž při neexistujícím titulu před nebo po daný vynechávají, címž se rozbíjí jednotná struktura.

Hlavní problém pak spočívá v tom, jak vytvořit indexový sloupec v rámci jedné osoby. Pomůže např. separátní tabulka, kde se pro každého vědce označí nejmenší index řádku (je to krok GroupedRows - viz výsledné řešení .pbix v ZIPu). Toto číslo se pak odečítá od indexu řádku - výsledkem je pak sekvence čísel 0, 1, 2, 3  …

S touto fixní sekvencí pak již lze pracovat a vytvořit sloupce pro titul před, za, jméno a organizaci. Nakonec pak již stačí ručně dočistit překlepy, různé formy zápisů titulů a vytvořit sloupec s institucí, která sloučí všechny katedry a fakulty pod název univerzity.

U neakademiků se pak autoři stránek výzvy rozhodli k tomu, že jméno a tituly uvedou jako jeden spojený text. Bylo by sice možné extrahovat tituly před a po od jména, ale to by už bylo moc zdlouhavé. Proto je u neakademiků jediná použitelná metrika - tedy počet.

Výstup z analýzy:

  • akademici zapsali celkem 1718 pracovišť - katedry, fakulty, organizace a jejich kombinace)
  • nejčastěji výzvu z žen podepsaly Jany (51), až na desátém místě celkově
  • magisterský titul se vyskytuje 3x častěji než inženýrský (1287 : 455)
  • nejčastěji se vyskytují tituly Ph.D. (976) a s odstupem CSc. (200)
  • nejčastější instituce jsou UK, AV ČR a Masarykova univerzita
  • nejčastější jména jsou Jan (220), Petr (142) a Martin (112)
  • nejčastěji zastoupená je Přírodovědecká fakulta UK
  • existuje 5 používaných forem titulu Ph.D.
  • výzvu podepsalo 145 profesorů
Další články k tématům - akademik - analýza - desktop - Power BI - profesor - univerzita - vědci

Článek Intelligent Technologies, s.r.o. ze dne čtvrtek 27. srpna 2015

Další články od Intelligent Technologies, s.r.o.