Visualizzazione dei dati della terza onda

Comprensione della convergenza di strumenti, pubblico e modalità

Questo è un resoconto del mio keynote della Conferenza degli arazzi del 2018 (sopra). Puoi vedere le diapositive (da cui ho derivato molte delle immagini seguenti) con le note dei relatori qui.

Immagina com'è stato fare la visualizzazione dei dati 30 anni fa. È il 1988 e stai usando Excel 2.0 per grafici semplici come grafici a torta e grafici a linee, o forse qualcosa come SPSS per esplorazioni più complicate e Arc / Info per la visualizzazione di dati geospaziali. Alcuni tipi di grafici che sono diventati piuttosto onnipresenti, come la mappa degli alberi, non sono ancora stati inventati. Ma nel 1988, The Visual Display of Quantitative Information di Edward Tufte aveva già cinque anni.

Riprese di analisti che utilizzano Excel 2.0 per realizzare grafici a torta c. 1988

Ora, immagina come è stato fare la visualizzazione dei dati 15 anni fa. Non c'erano D3, né tableau, né ggplot o prefuse / Flare. Se volessi eseguire la visualizzazione in rete, potresti utilizzare il Cytoscape appena pubblicato, sebbene fosse incentrato sulla bioinformatica. Le opzioni geospaziali erano più avanzate, con ArcGIS che forniva sempre più funzionalità cartografiche nelle sue numerose cassette degli attrezzi rosse.

La differenza nelle tradizioni alla base della visualizzazione dei dati geospaziali e della visualizzazione dei dati di rete: nel 2003 era già la versione 8.0 di ArcGIS mentre quello stesso anno vide il rilascio del primo moderno strumento di visualizzazione dei dati di rete: Cytoscape.

So quanto è cambiata la visualizzazione dei dati perché ho trascorso gli ultimi dieci anni a realizzare prodotti di visualizzazione dei dati in un modo o nell'altro. Grandi lavori rivolti al pubblico come ORBIS e Kindred Britain, nonché una minore visualizzazione dei dati pubblici per divertimento o per supportare ricerca, analisi ed esplorazione. Insieme al lavoro pratico per la visualizzazione dei dati, ho scritto un libro sulla libreria di visualizzazione dei dati più potente al mondo oggi: D3. E poi ho scritto di nuovo quel libro. Nell'ultimo anno ho realizzato la mia biblioteca di grafici, Semiotic. Ho anche condotto un sondaggio annuale per i professionisti della visualizzazione dei dati negli ultimi due anni. E lungo la strada ho scritto sulla visualizzazione dei dati qui su Medium.

Non è per questo che sono stato invitato a tenere un keynote a Tapestry. Sono stato invitato perché faccio commenti incendiari sui social media e nelle interviste e occasionalmente nei colloqui. Ho detto a lungo che dovremmo essere più a nostro agio con la critica nella visualizzazione dei dati, ma senza contesto le osservazioni che faccio potrebbero sembrare arbitrarie e meschine.

Quindi sono stato felice di avere l'opportunità di dare un contesto ed esprimere la mia preoccupazione per la convergenza di strumenti e modalità ma nessuna corrispondente riorganizzazione del pensiero e della pratica. Sembra che stiamo ancora parlando e valutando la visualizzazione dei dati come se fosse il 1988 o il 2003 quando il numero di persone che eseguono la visualizzazione dei dati, le capacità dei loro strumenti e le aspettative del loro pubblico è aumentato notevolmente.

Continuiamo a dividere la comunità di visualizzazione dei dati in vecchie categorie come gli analisti che utilizzano gli strumenti di BI per creare report, gli sviluppatori che usano il codice per creare visualizzazioni personalizzate, i giornalisti che creano storie basate sui dati o che i data scientist sfruttano l'analisi dei dati esplorativi. All'interno o tra questi gruppi abbiamo artisti dei dati, scienziati professionisti, analisti aziendali e produttori di strumenti del genere che potremmo vedere immortalati nei cartoni animati di Susie Lu. Queste categorie di pratiche si associano direttamente a strumenti e modalità particolari che, in ritardo, hanno iniziato a trasformarsi.

1a onda: chiarezza

E quindi vorrei offrire che c'era, nel senso moderno della visualizzazione dei dati, una prima ondata centrata su Edward Tufte che enfatizzava la chiarezza, la semplicità e la mappatura diretta 1-a-1 dei punti dati evitando la maggior trasformazione possibile . Da questa era vediamo l'ascesa di combinazioni di colori spartane - spesso focalizzate su colori neutri o desaturati con un unico colore straordinario - l'importanza delle etichette e dei titoli in linguaggio naturale e una sorta di idealizzazione della carta perfetta immediatamente leggibile, accessibile e fruibile . Una sorta di grafico come frase con chiare strutture e regole come potresti vedere in The Elements of Style.

Onda 1: chiarezza

2a onda: sistemi

La seconda ondata si è concentrata sulla sistematizzazione della codifica delle informazioni necessarie per lo sviluppo di strumenti per produrre la visualizzazione dei dati. È incentrato sul lavoro più influente su questo argomento: The Grammar of Graphics di Leland Wilkinson. Invece del grafico come analogia linguistica, è il grafico come estrusione da una specifica valida. La Grammatica della Grafica aspirava a consentire alle persone di creare un insieme di grafica e se diamo un'occhiata a qualsiasi libreria di visualizzazione dei dati, la mia inclusa, e vediamo quella filosofia in azione.

Questi strumenti e librerie pubblicizzano enormi quantità di esempi e non c'è più l'uso attento di colore e testo, sostituito da una lettera d'amore alla geometria. L'intero approccio "ad esempio" è così radicato in questi strumenti che Mike Bostock ha scritto un intero pezzo su di esso.

Wave 2: Systems

D3, come tutti gli strumenti di questo periodo, è direttamente ispirato o fortemente influenzato da The Grammar of Graphics. Semiotico, Victory, Highcharts, Plotly: tutti questi provengono o sono essi stessi fortemente influenzati da D3. Le due g in Grammatica della grafica è dove ggplot prende il nome. Leland Wilkinson, l'autore, era un ricercatore principale del Tableau. La grammatica della grafica si concentra in modo estremamente nitido sulla codifica dei dati tramite canali sulla geometria. Questo è un sistema per codificare la grafica dai dati, in cui gli attributi dei dati corrispondono e influenzano dinamicamente la lunghezza, l'angolo, il colore o la posizione (o qualsiasi altro carattere grafico) in base ai dati e alle modifiche dei dati.

Wave 2 consisteva nel prendere questi sistemi teorici e produrre gli strumenti necessari a qualsiasi professionista della visualizzazione dei dati per creare qualsiasi espressione grafica basata sui dati. È fantastico per gli ingegneri e gli architetti di software che cercano di creare librerie per consentire la visualizzazione dei dati, ma non necessariamente per i professionisti che creano prodotti di visualizzazione dei dati. Ecco perché abbiamo visto una tale proliferazione di strumenti e librerie per la visualizzazione dei dati, ma un concomitante aumento della grafica orribile che si presentano come grafici.

La ricerca di una specifica perfetta per la codifica degli attributi dei dati attraverso canali grafici è un mezzo per raggiungere un fine. Ma la potenza e il successo dei sistemi costruiti durante questo periodo sono finiti a loro stessi, che si scontrano con un precetto di base della Grammatica della Grafica:

Questo sistema è in grado di produrre una grafica orribile. ... Tuttavia, questo sistema non può produrre una grafica senza significato.

Con questo, Wilkinson significa che esiste una relazione logica tra la grafica e i dati, ma solo perché la grafica ha una sorta di "ricetta" non significa che sia in qualche modo "non insignificante". La visualizzazione dei dati è una forma di comunicazione e se produci grafici orribili significa che sono illeggibili e significa che sono privi di significato.

La visualizzazione dei dati è una forma di comunicazione e se produci grafici orribili significa che sono illeggibili e significa che sono privi di significato.

La visualizzazione di 2nd Wave Data, con la sua mancanza di enfasi sul design a favore dei sistemi, ha prodotto una foresta di dashboard e report orribili. Ogni dipartimento di ingegneria in ogni azienda ha almeno un brutto grafico in tempo reale scritto con un framework basato su D3. Ogni dirigente ha una dozzina di dashboard tableau pieni di schede e viste degli stessi grafici a linee desaturati a 10 colori. Vediamo schermate di ciò che è apparentemente un'analisi esplorativa dei dati rilasciata nei documenti o integrata nei dashboard senza alcun senso di ottimizzazione. Tutto ciò accade nonostante la crescente parità di funzionalità tra le tecnologie.

3a ondata: convergenza

Abbiamo un disperato bisogno di rivalutare e rinominare le nostre modalità. 5 o 10 anni fa, che tipo di visualizzazione dei dati hai realizzato, che si tratti di una dashboard, un notebook, un rapporto o un pezzo di comunicazione su misura, era molto diverso a seconda della lingua, della libreria o dello strumento che stavi utilizzando. Non è più così.

Dobbiamo immaginare nuovi approcci che riconoscano che la convergenza non sta avvenendo solo nelle capacità degli strumenti, ma anche nelle aspettative degli utenti che non sono più disposti ad accettare la necessità di uscire da una modalità per ottimizzare un'altra. Ciò implica spostare la nostra enfasi dai singoli grafici alla costruzione, valutazione e consegna dei prodotti in cui tali grafici compaiono.

La piattaforma per notebook nteract si fa pubblicità non solo agli utenti di notebook tradizionali (ricercatori e data scientist) ma a un vasto pubblico interessato a qualcosa di più del semplice

I taccuini stanno diventando più simili a dashboard, i dashboard stanno diventando più simili allo storytelling e in generale c'è una crescente impollinazione incrociata e convergenza tra media / modalità. Puoi creare splendide grafiche con R, puoi avere grafici gerarchici in Tableau, puoi facilmente distribuire rapporti e-mail dalla tua dashboard personalizzata.

In Netflix, stiamo sperimentando notebook analitici progettati non per l'analisi dei dati esplorativi ma per la visualizzazione dei dati esplicativi e le esigenze di collaborazione e comunicazione richieste in quella modalità. Le tecniche di storytelling comuni al data journalism sono fondamentali per le parti interessate che sono diventate sofisticate nei loro gusti e si aspettano animazioni ispirate e cornici di riferimento personalizzate.

Ci sono sempre più tendenze che dobbiamo comprendere meglio:

  • Una volta i tipi di grafici esoterici, come le treemap e i diagrammi di nodo-collegamento, ora sono così accessibili da apparire ovunque, e ora ci vuole un diagramma davvero strano per essere dichiarato xenografico.
  • I notebook vengono utilizzati come dashboard e anche come artefatti nel processo di ingegneria e trasformazione dei dati.
  • La visualizzazione dei dati in R è cresciuta quasi quanto la visualizzazione dei dati negli strumenti di BI o nelle applicazioni personalizzate.
  • Le persone stanno diventando più a loro agio con la visualizzazione stilizzata dei dati (imprecisa ma anche ISOTYPE).

Dove siamo diretti?

Tutti questi fattori contribuiscono a ciò che penso definirà una terza ondata di visualizzazione dei dati in cui convergono modalità come notebook, dashboard e storytelling long-form, così come gli strumenti per crearli e l'alfabetizzazione del pubblico per cui sono fatti. Questo è successo da qualche tempo e abbiamo reagito, ma penso che sia tempo di considerare attivamente cosa significhi.

Grafici Clickbait

Ciò richiede che ci allontaniamo dall'aspettativa di realizzare grafici isolati ottimizzati per una leggibilità immediata. Al momento valutiamo e celebriamo la visualizzazione dei dati progettata e ottimizzata per una singola visita. Va bene, ma dobbiamo anche promuovere e valutare e comprendere meglio la visualizzazione dei dati progettata e ottimizzata per più visite. UI e UX devono essere preoccupazioni di prima classe e l'interattività non può essere solo un attributo della geometria. Per fare ciò, dobbiamo allontanarci dal modello del genio isolato creando una visualizzazione dei dati su misura e introdurre le migliori pratiche dai progetti collaborativi comuni alla più ampia comunità di sviluppo software.

Foster Critique

È facile sminuire un grafico a torta 3D o l'ultima "straordinaria mappa". Questo potrebbe sembrare il modo in cui è stato posizionato l'ultimo punto, ma non lo è, è un tentativo di spingerci a essere in grado non solo di celebrare ciò che è bello della visualizzazione dei dati, ma anche di dire onestamente ciò che è cattivo. Dobbiamo fare di più se vogliamo andare avanti come comunità. Ma le critiche sono difficili - difficili da ascoltare e difficili da dare bene.

Parte del motivo per cui siamo così cattivi nel dare, prendere e incoraggiare la critica è che la visualizzazione dei dati è stata a lungo una ricerca individualistica. L'altra ragione per cui non siamo così bravi in ​​critica è che la nostra è una comunità di festeggiamenti. Ma la celebrazione non è un atto del tutto positivo quando si separa ed esotica potenti meccanismi per far progredire la comunicazione attraverso l'implicazione che sono disponibili solo per giornalisti o liberi professionisti.

In parte, penso che ciò abbia a che fare con la nostra enfasi sui singoli canali nella letteratura accademica. Siamo molto a nostro agio nel criticare i grafici a torta perché sappiamo che gli angoli sono cattivi nella codifica del valore. Ma mancano le linee guida su come valutare in modo più olistico, quindi non siamo in grado di spiegare perché alcune scelte di codifica, sebbene non ottimali in isolamento, potrebbero rivelarsi utili nella pratica. Inoltre, non sappiamo come valutare l'appello, quindi ci manca la lingua o la struttura per spiegare perché alle persone piacciono i cerchi di dimensioni in trame d'api e trame di simboli graduati con la stessa facilità con cui possiamo spiegare perché i cerchi sono una cattiva scelta per codificare il valore.

Riprogettazione della carta di Giorgia Lupi di Alberto Cairo da The Functional Art.

Un altro motivo per cui non siamo bravi in ​​critica è che abbiamo questo modello di critica molto importante (sostenuto da Alberto Cairo, nonché da Fernanda Viegas e Martin Wattenberg) che implica il modo migliore per criticare un viz è quello di rifarlo. Sebbene questo sia un approccio prezioso, è così costoso nel lavoro e negli investimenti intellettuali che lo rende naturalmente meno comune della semplice segnalazione di cose che non funzionano in un prodotto di visualizzazione dei dati. Insieme a questo approccio, dobbiamo promuovere e accrescere il nostro livello di comfort con forme meno critiche di critica.

Non possiamo semplicemente farlo scrivendo un sacco di articoli di riflessione sulla critica, anche se sarebbe bello avere alcune tassonomie di critica come se avessimo tassonomie di grafici. Dobbiamo lavorare attivamente per sviluppare la nostra comunità in modo da essere un luogo dove dare, ricevere e modellare un discorso critico. Il recente pezzo di Ben Jones sulla costruzione di una sana comunità di visualizzazione dei dati fornisce alcune buone indicazioni basate sull'esperienza del mondo reale che tutti noi dovremmo seguire.

Comprendi il design

Alcuni risultati relativi al design del sondaggio sulla visualizzazione dei dati del 2018.

Le risposte al sondaggio e la conversazione indicano che il design è un tema importante per migliorare le pratiche di visualizzazione dei dati. Ma i professionisti hanno espresso confusione sul significato del design. Intendiamo la progettazione grafica? Progettazione dell'interfaccia utente? Concetti generali di pensiero progettuale? Progettazione delle informazioni? C'è una mancanza di approcci progettuali carnosi nella visualizzazione dei dati che possono essere insegnati e appresi dai professionisti della carriera iniziale.

Colori e gif deliziosi come quelli trovati nella visualizzazione dei dati Dragonball Z di Nadieh Bremer o semplici hack come l'interruzione di linea in

Abbraccia l'economia dell'attenzione

Penso che il giorno della "coscienza dell'occhio" si stia avvicinando rapidamente.
- Otto Neurath

Quando sono arrivato a Netflix da Stanford, ho pensato ingenuamente che, poiché si trattava di un'azienda, i dipendenti sarebbero stati costretti a utilizzare e apprendere la visualizzazione dei dati che avevo realizzato. Ho scoperto rapidamente che non era il caso. La cultura di Netflix era contraria a tali misure dittatoriali, ma ancora di più, le mie parti interessate stavano cercando di prendere decisioni critiche e i miei prodotti di visualizzazione dei dati erano in competizione con una dozzina o più di altre dashboard e report.

Di conseguenza, il lavoro che stiamo svolgendo internamente su Netflix sfrutta immagini, gif, colori giocosi e nuovi metodi visivi per deliziare gli utenti. Mentre il divieto generale contro chartjunk è una buona regola, come tutte le cose può essere applicato in modo troppo rigoroso. Un approccio più decorativo che riconosca l'esistenza di un'economia dell'attenzione anche in un'organizzazione basata sui dati porterà a una visualizzazione dei dati più efficace.

Nuovo sangue

Abbiamo già attraversato un periodo disordinato in cui la nostra comunità sentiva il bisogno di allontanarsi radicalmente dalla leadership più vecchia, al punto che essere bloccati su Twitter da Edward Tufte è diventato una sorta di rito di passaggio. Non dovremmo farlo per ascoltare e amplificare nuove voci. Dobbiamo identificare e promuovere attivamente nuove voci nella leadership della visualizzazione dei dati.

Chi sono i leader per una visualizzazione dei dati della terza ondata? Chi sta approfittando delle nuove opportunità offerte dalla convergenza di modalità, pubblico e strumenti? Che aspetto ha quel nuovo lavoro? Sono notebook con funzionalità di dashboard e storytelling basato sui dati come Boba Science di Krist Wongsuphasawat? Sono nuovi approcci agli strumenti per la creazione di grafici come Charticulator? O l'uso di R per creare grafici di visualizzazione dei dati per le notizie, come quello visto nel lavoro di John Burn-Murdoch? O il dataviz stile Giorgia Lupi in Tableau come ha fatto Neil Richards? O è il confine sfocato tra visualizzazione dei dati, marginalità, vignetta e testo visto in INFO WE TRUST di RJ Andrews? O è il fantastico approccio disegnato a mano di Mona Chalabi? O è qualcos'altro?

Una cosa è certa, abbiamo esempi di coloro che hanno ottimizzato per le migliori pratiche del passato, ora abbiamo bisogno di coloro che incaricano una nuova ondata di visualizzazione dei dati.