Jak importuji údaje o internetovém pozorování UFO do tabulky Google

  • Peter Holmes
  • 0
  • 3351
  • 652
reklama

Pokud jde o online databáze a informace, které lze nalézt uvnitř toho, co je obecně známé jako “neviditelný web 12 nejlepších vyhledávačů k prozkoumání neviditelného webu 12 nejlepších vyhledávačů k prozkoumání neviditelného webu Google nebo Bing nemůže hledat všechno. Chcete-li prozkoumat neviditelný web, musíte použít tyto speciální vyhledávače. “, Nejsem tvůj typický uživatel. Jistě, trochu času trávím proséváním online databází na místech, jako je Národní archiv a studovna CIA FOIA, ale musím říct, že mě nic neudělá víc vzrušením, než když najdu tabulku založenou na HTML naplněnou svazky zdánlivě složitých a nepřipojených dat.

Faktem je, že tabulky údajů jsou zlatým důlem důležitých pravd. Data se často sbírají armádami sběru dat zavrčí s botami na zemi. Máte lidi z amerického sčítání lidu cestující po celé zemi pro informace o domácnosti a rodině. Máte neziskové environmentální skupiny shromažďující nejrůznější zajímavé informace o životním prostředí, znečištění, globálním oteplování a další. A pokud se chystáte do paranormální nebo Ufologie, existují také neustále aktualizované tabulky informací o pozorování podivných objektů na obloze nad námi.

Je ironií, že byste si mysleli, že by jakákoli vláda na světě měla zájem vědět, jaký druh cizího řemesla se objevuje na obloze nad jakoukoli zemí, ale zjevně ne - přinejmenším ne v USA. V Americe byla sbírka neobvyklých pozorování řemesel zařazena do týmů amatérských fandů, kteří se hrnou na nové pozorování UFO jako můry plamenem. Můj zájem o tyto pozorování ve skutečnosti nevyplývá z fascinace mimozemšťany nebo řemesla z jiných planet, ale z vědecké fascinace vzory - kde a proč více lidí vidí věci na obloze a zda tato pozorování mohou odrážet něco velmi reálného a hodně ve skutečnosti se děje více dolů na Zemi.

Abych prozkoumal objemy dat shromážděných týmy fandů UFO, vlastně jsem vyvinul způsob, jak importovat velké tabulky HTML dat do tabulky Google, a poté manipulovat a analyzovat tato data za účelem extrahování a objevování smysluplných a důležitých informací. V tomto článku vám chci ukázat, jak to udělat.

Důležitá data HTML do tabulky Google

V tomto příkladu vám ukážu, jak importovat všechna data, která by mohla být uložena v tabulce na libovolném webu na internetu, do tabulky Google. Přemýšlejte o obrovském množství dat, která jsou dnes na internetu k dispozici, ve formě tabulek HTML. Pouze na Wikipedii jsou uvedena data v tabulkách pro témata, jako je globální oteplování, americký úřad pro sčítání lidu má spoustu populačních datových souborů a trochu Googlingu vám přistane mnohem víc než to.

V mém příkladu začínám s databází v Národním zpravodajském centru UFO, která ve skutečnosti vypadá, že by to mohla být hluboká webová databáze typu dotazu, ale pokud si všimnete strukturování adres URL, je to vlastně polosložitá webová založený reportovací systém sestávající ze statických webových stránek a statických HTML tabulek - přesně to, co chceme, když hledáme importovaná data.

NUForc.org je jednou z těch organizací, která slouží jako jedno z největších zpravodajských středisek pro pozorování UFO. Není to jediný, ale je dost velký na to, aby každý měsíc našel nové datové sady s aktuálními pozorováními. Zvolíte zobrazení dat seřazených podle kritérií, jako je stát nebo datum, a všechna z nich jsou poskytována ve formě statické stránky. Pokud seřadíte podle data a potom klepnete na nejnovější datum, uvidíte, že v uvedené tabulce je statická webová stránka pojmenovaná podle formátu data.

Nyní máme vzor pro pravidelné extrahování nejnovějších informací o pozorováních z této databáze založené na HTML. Jediné, co musíte udělat, je importovat první tabulku, pomocí poslední položky (horní) identifikovat nejnovější aktualizaci a poté pomocí data tohoto zveřejnění vytvořit odkaz URL, kde existuje nejnovější tabulka dat HTML. To bude vyžadovat jen několik instancí funkce ImportHTML a poté několik kreativních využití funkcí manipulace s textem. Až budete hotovi, budete mít jednu z nejúžasnějších, samoaktualizujících se tabulek reportů. Začněme.

Import tabulek a manipulace s daty

Prvním krokem je samozřejmě vytvoření nové tabulky.

Jak tedy importujete tabulky HTML? Vše, co potřebujete, je adresa URL, kde je tabulka uložena, a číslo tabulky na stránce - obvykle první uvedená je 1, druhá je 2 atd. Protože znám adresu URL této první tabulky se seznamem dat a počtem pozorování, je možné importovat zadáním následující funkce do buňky A1.

= importhtml (“http://www.nuforc.org/webreports/ndxpost.html?”& H2,”stůl”,1)

H2 drží funkci “= hodina (nyní ())“, tabulka se proto aktualizuje každou hodinu. Toto je pravděpodobně extrémní u dat, která to občas aktualizují, takže bych se s tím mohl denně vyhýbat. Výše uvedená funkce ImportHTML přesto přináší tabulku, jak je ukázáno níže.

Než budete moci sestavit URL druhé tabulky se všemi pozorováními UFO, budete muset na této stránce udělat trochu manipulace s daty. Ale pokračujte a vytvořte druhý list v sešitu.

Než se pokusíte sestavit tento druhý list, je čas extrahovat datum postu z této první tabulky, aby se vytvořil odkaz na druhou tabulku. Problém je v tom, že datum je uvedeno jako formát data, nikoli jako řetězec. Nejprve tedy musíte použít funkci TEXT k převodu data zaúčtování na řetězec:

= text (A2,”mm / dd / rr”)

V následující buňce napravo musíte použít funkci SPLIT s “/” oddělovač pro rozdělení data na měsíc, den a rok.

= split (D2,”/”)

Vypadáš dobře! Každé číslo však musí být vynuceno na dvě číslice. To provedete v buňkách přímo pod nimi znovu pomocí příkazu TEXT.

= text (E2,”00 ")

Formát “00” (to jsou nuly) vynutí dvě číslice nebo a “0” jako zástupný symbol.

Nyní jste připraveni znovu vytvořit celou adresu URL na nejnovější tabulku nových pozorování HTML. To lze provést pomocí funkce CONCATENATE a seskupením všech bitů informací, které jste právě extrahovali z první tabulky..

= zřetězené (“http://www.nuforc.org/webreports/ndxp”,G3, E3, F3,”.html”)

Nyní na novém listu, který jste vytvořili výše (prázdný list), uděláte nový “importhtml” funkce, ale tentokrát pro první parametr odkazu na adresu URL, takže se přesunete zpět k první tabulce a kliknete na buňku s odkazem URL, který jste právě vytvořili.

Druhým parametrem je “stůl” a poslední je “1” (protože tabulka pozorování je první a pouze na stránce). Stiskněte Enter a právě jste importovali celý objem pozorování, které byly zveřejněny v dané datum.

Pravděpodobně si myslíte, že se jedná o pěkný novinový akt a všechno - myslím, koneckonců, to, co jste udělali, je extrahování stávajících informací z tabulky na internetu a jejich přenesení do jiné tabulky, i když soukromé ve vaší Účet Dokumentů Google. Ano, to je pravda. Nyní, když je to ve vašem vlastním soukromém účtu Dokumentů Google, máte však na dosah ruky nástroje a funkce pro lepší analýzu těchto dat a zahájení objevování úžasných spojení.

Použití kontingenčních zpráv k analýze importovaných dat

Nedávno jsem napsal článek o používání kontingenčních zpráv v tabulkovém procesoru Google Staňte se expertem analytiků dat přes noc pomocí nástrojů přehledů Google Spreadsheet Report Staňte se expertem analytikem dat přes noc pomocí nástrojů přehledů Google Spreadsheet Věděli jste, že jedním z největších nástrojů ze všech k vedení dat analýza je ve skutečnosti Google Spreadsheet? Důvod pro to není jen proto, že dokáže udělat téměř vše, co byste mohli chtít ... provést nejrůznější funkce pro analýzu dat. U dat, která jste importovali z Internetu, můžete udělat stejnou akrobacii analýzy dat, což vám umožní odhalit zajímavá spojení, která možná nikdo jiný neobjevil před vámi..

Například z tabulky konečných pozorování bych se mohl rozhodnout použít kontingenční zprávu, abych se podíval na počet různých jedinečných tvarů hlášených v každém stavu, v porovnání s celkovým počtem pozorování v tomto konkrétním stavu. Nakonec také odfiltruji cokoli zmíněné “mimozemšťané” v sekci komentářů, abychom snad odstranili některé z dalších položek oříšků.

To ve skutečnosti odhaluje některé docela zajímavé věci hned za pálkou, jako je skutečnost, že Kalifornie má zjevně nejvyšší počet pozorovaných pozorování jakéhokoli jiného státu, spolu s rozlišením vykazování nejvyššího počtu tvarů řemesel v zemi. Ukazuje také, že Massachusetts, Florida a Illinois jsou také velkými hitery v oddělení pozorování UFO (alespoň v nejnovějších údajích)..

Další skvělou věcí na Tabulce Google je široká škála grafů, které máte k dispozici, včetně Geo-Map, která vám umožní rozvrhnout “horká místa” dat v grafickém formátu, který skutečně vyniká a tato spojení v datech je zcela zřejmá.

Pokud o tom přemýšlíte, je to opravdu jen špička ledovce. Pokud nyní můžete importovat data z datových tabulek na kterékoli stránce na internetu, jen pomyslete na možnosti. Získejte nejnovější čísla akcií nebo nejnovějších 10 nejlepších knih a autorů na seznamu bestsellerů New York Times nebo nejprodávanějších automobilů na světě. Existují tabulky HTML na téměř jakémkoli tématu, které si dokážete představit, a v mnoha případech jsou tyto tabulky často aktualizovány.

ImportHtml vám dává možnost připojit tabulku Google k Internetu a odkrýt data, která existují. Může se stát vaším vlastním osobním centrem informací, které můžete použít k manipulaci a masáži do formátu, se kterým můžete skutečně pracovat. Je to jen jedna další velmi zajímavá věc, která se mi líbí v Tabulce Google.

Už jste někdy importovali data do svých tabulek? Jaké zajímavé věci jste v těchto datech objevili? Jak jste data použil? Podělte se o své zkušenosti a nápady v níže uvedené sekci komentářů!

Image Credits: Business Graph




Bisher hat noch niemand einen Kommentar zu diesem Artikel abgegeben.

O moderní technologii, jednoduché a cenově dostupné.
Váš průvodce ve světě moderních technologií. Naučte se, jak používat technologie a pomůcky, které nás každý den obklopují, a naučte se, jak objevovat na internetu zajímavé věci.