Dataset Strutturati

Un dataset strutturato è un dataset in cui i dati contenuti presentano una certa organizzazione interna che può semplificare la ricerca di informazioni al loro interno.

Dataset Strutturati
Dataset Strutturati

Un dataset strutturato è un dataset in cui i dati contenuti presentano una certa organizzazione interna che può semplificare la ricerca di informazioni al loro interno.

Vediamo insieme i più utilizzati nel machine learning.

Il formato CSV

Lavorando in questo settore imparerai presto che il che il CSV è in assoluto il formato di dataset più popolare grazie alla sua versalità.

Il CSV è l'acronimo di Comma Separated Values, ovvero formato da valori separati da virgola. Il CSV è un formato molto semplice che dispone gli esempi su righe diverse e utilizza la virgola per separare le proprietà.

Fig.1 Esempio CSV

Grazie a questa organizzazione è possibile dare un aspetto tabulare a un documento CSV, che semplifica di molto la visualizzazione e la ricerca di informazioni.

Il Formato TSV

Un altro formato abbastanza popolare è il TSV, acronimo di Tab Separated Values, ovvero Valori separati da tab e, come dice il nome stesso, utilizza il carattere di Tabulazione per separare le diverse proprietà.

Fig.2 Esempio TSV

Per per tutto il resto è identico al CSV.

Il Formato JSON

Fig.3 Esempio JSON

JSON è un formato di file molto utilizzato nello sviluppo web, soprattutto nella parte di comunicazione client - server.

Inoltre è il tipo di file dei documenti di database non relazionali come Mongo DB.

È molto più versatile e meno schematico rispetto ai files CSV, perché le proprietà non vengono definite globalmente ma internamente ad ogni esempio.

Questo vuol dire che due esempi diversi possono avere tipologie di proprietà diverse.

Il Formato XML

Fig.4 Esempio formato XML

XML è un linguaggio di markup generico, anch'esso utilizzato nella comunicazione client - server, anche se in realtà a tutt'oggi è stato in gran parte sostituito dal formato JSON, il quale risulta più versatile.

XML si basa sull'utilizzo di tag racchiusi tra i segni di minore < e maggiore >, che possono essere definiti a piacimento per identificare ed organizzare le informazioni.

Il Formato HTML

Anche HTML è un linguaggio di markup come XML, ma è utilizzato principalmente per creare pagine web.

Infatti ogni browser riceve codice HTML dai server, lo interpreta e restituisce le pagine web su cui poi navighiamo.

A differenza degli XML, i tag del HTML sono già definiti dallo standard del linguaggio.

Il Formato SQL

Fig.5 Esempio Query SQL

SQL è un linguaggio estremamente famoso tra gli amministratori di database e da chi si occupa di analisi dei dati in generale.

Esso fornisce una serie di comandi per interrogare i database eseguendo query sui dati anche molto complesse.

Excel

Excel è un software con cui tutti abbiamo avuto a che fare almeno una volta nella vita.

Capostipite dei fogli di calcolo elettronici, presenta anch'essa una struttura tabulare che lo rende un buon formato per un dataset.