logo Intelligent Technologies, s.r.o.

Zajímavá fakta z Výzvy vědců po datové analýze Power BI

Výzvu Vědci proti strachu a lhostejnosti podepsalo 145 profesorů, nejčastěji je zastoupená Přírodovědecká fakulta UK. Nejvíce se k výzvě připojili zástupci z UK, AV ČR a Masarykovy univerzity.

Podíváme se na aktuální Výzvu vědců pohledem datové analytiky se současnou demonstrací použití Power BI - analytické a reportingové platformy. K analýze je použita aplikace Power BI Desktop, která je k dispozici volně ke stažení bez registarce.

Potřebná data čerpáme z webu vyzvavedcu.cz, který obsahuje seznam všech akademiků, jež se k výzvě připojili a také seznam všech podporovatelů z neakademické sféry.

Power BI umí načítat obsah webových stránek a není tedy problém seznam akademiků načíst a najít v obsahu stránky datové struktury se jmény vědců. Pro snadnější vizuální orientaci na stránce a pro vyhledání elementů se jmény a tituly je dobré použít např. nástroj Chrome Developer Tools.

Výzva vědců - analýza Power BI

Tvůrci webových stránek je umístili do <div>ů několik <span>ů pro titul před, za a jménem. Není problém načíst tato data do Power BI, ale načtou se jako řádky a pro intuitivní práci je potřeba dostat je do sloupců.

Pro sloučení řádků je možné použít funkci PIVOT nebo GROUP. Předtím je ale nutné identifikovat titul a jméno. Tvůrci stránek totiž při neexistujícím titulu před nebo po daný <span> vynechávají, címž se rozbíjí jednotná struktura.

Hlavní problém pak spočívá v tom, jak vytvořit indexový sloupec v rámci jedné osoby. Pomůže např. separátní tabulka, kde se pro každého vědce označí nejmenší index řádku (je to krok GroupedRows - viz výsledné řešení .pbix v ZIPu). Toto číslo se pak odečítá od indexu řádku - výsledkem je pak sekvence čísel 0, 1, 2, 3  …

S touto fixní sekvencí pak již lze pracovat a vytvořit sloupce pro titul před, za, jméno a organizaci. Nakonec pak již stačí ručně dočistit překlepy, různé formy zápisů titulů a vytvořit sloupec s institucí, která sloučí všechny katedry a fakulty pod název univerzity.

U neakademiků se pak autoři stránek výzvy rozhodli k tomu, že jméno a tituly uvedou jako jeden spojený text. Bylo by sice možné extrahovat tituly před a po od jména, ale to by už bylo moc zdlouhavé. Proto je u neakademiků jediná použitelná metrika - tedy počet.

Výstup z analýzy:

Článek Intelligent Technologies, s.r.o. ze dne 27. srpna 2015 - čtvrtek

Další články od Intelligent Technologies, s.r.o.

Security Day s Paulou Januszkiewicz