Insider Risk Management Data Protection

    Dati strutturati vs. dati non strutturati

    I dati strutturati sono dati quantitativi, formattati e memorizzati all'interno di uno schema fisso, mentre i dati non strutturati sono dati qualitativi, non elaborati e memorizzati nel loro formato nativo.

    by Beth Miller

    Key Points

    • Questo blog è stato originariamente pubblicato sul sito web di Code42, ma con l'acquisizione di Code42 da parte di Mimecast, ci assicuriamo che sia disponibile anche per i visitatori del sito web di Mimecast. 
    • La comprensione dei dati strutturati, non strutturati e semi-strutturati aiuta le organizzazioni a scegliere i metodi di archiviazione e di analisi appropriati in base ai casi d'uso.
    • Il monitoraggio proattivo e gli strumenti basati sull'AI sono fondamentali per salvaguardare i dati non strutturati, garantire la conformità e mitigare i rischi di sicurezza in modo efficiente.

    Dati strutturati e non strutturati: Una rapida panoramica

    In breve, i dati strutturati sono dati quantitativi, formattati e memorizzati all'interno di uno schema fisso, mentre i dati non strutturati sono dati qualitativi, non elaborati e memorizzati nel loro formato nativo. Mentre i dati strutturati possono essere costituiti da valori testuali e numerici, come nomi, indirizzi e numeri di telefono, i dati non strutturati non devono essere inseriti in un record fisso con regole di schema rigide. Pertanto, è più probabile che si tratti di rich media, video, audio o file di testo di grandi dimensioni che non si adattano bene a tabelle e colonne. Le differenze tra dati strutturati e non strutturati diventano più chiare grazie al confronto, di cui parleremo più avanti.

    Che cosa sono i dati strutturati?

    I dati strutturati sono informazioni che aderiscono a un formato standard e fisso. I dati strutturati sono costituiti da tipi di dati impostati all'interno di uno schema definito, in genere all'interno di un sistema di gestione di database relazionali (RDBMS) come MySQL, PostgreSQL o Microsoft SQL Server. Grandi quantità di dati strutturati provenienti da più archivi di dati, come l'applicazione della sua organizzazione e l'istanza di Salesforce, possono risiedere in un data warehouse.

    I pro dei dati strutturati

    I dati strutturati rimangono un modo necessario per raccogliere e archiviare i dati, grazie a diversi vantaggi:

    • I dati strutturati sono facili da usare e da analizzare, perché gli utenti sanno quali domande possono porre e hanno chiare aspettative su come il database risponderà.
    • I dati strutturati sono più semplici da condividere con gli utenti non tecnici, facilitando la democratizzazione dei dati. Con SQL e i numerosi strumenti di business intelligence costruiti su di esso, i non sviluppatori possono visualizzare e analizzare i dati strutturati con un'assistenza tecnica minima.
    • L'impostazione, la raccolta e l'archiviazione di database strutturati è relativamente facile e poco costosa, con una varietà di RDBMS disponibili. Ad esempio, l'avvio di un'istanza di SQLite richiede un tempo, un costo e un know-how tecnico minimi.

    Contro dei dati strutturati

    Nonostante alcuni chiari vantaggi, l'utilizzo dei dati strutturati può anche comportare alcune sfide:

    • Apportare modifiche allo schema in un secondo momento può comportare un notevole sovraccarico, richiedendo un'analisi dell'impatto che richiede molto tempo e migrazioni rischiose.
    • Il tentativo di archiviare i dati che si adattano allo schema è possibile, ma i dati devono subire una trasformazione, oppure lo schema deve cambiare per accettare i dati.
    • La modellazione strutturata dei dati funziona bene quando si tratta di rappresentare informazioni semplici, ma spesso non è in grado di catturare la complessità delle relazioni del mondo reale. Ad esempio, i dati strutturati sono ottimi per archiviare le informazioni contrattuali di base tra un'organizzazione e i suoi clienti, ma potrebbero non descrivere accuratamente i molti tipi di interazioni e comunicazioni tra l'organizzazione, il cliente e i suoi prodotti.

    Che cosa sono i dati non strutturati?

    I dati non strutturati sono informazioni archiviate nel loro formato nativo, senza alcuna applicazione per organizzarle. I dati non strutturati sono facili da raccogliere e archiviare senza rispettare un formato predefinito. Da un lato, il fatto di non dover applicare uno schema rende molto più semplice l'archiviazione delle informazioni, soprattutto dei dati che non si traducono facilmente in testo e numeri, come i file video e audio. D'altra parte, i dati non strutturati sono difficili da ricercare, filtrare o combinare con altri set di dati senza questa formattazione rigorosa.

    I pro dei dati non strutturati

    I dati non strutturati stanno diventando sempre più popolari grazie alle loro qualità positive.

    • I dati non strutturati consentono un'archiviazione rapida e semplice, perché non è necessario trattare i dati per farli corrispondere a uno schema. Le organizzazioni non devono investire tempo e sforzi per creare uno schema e scrivere metodi per trasformare i dati per adattarli allo schema.
    • Salvare le informazioni nel loro formato grezzo è relativamente economico. Soprattutto con l'archiviazione in cloud, le organizzazioni non hanno bisogno di fare investimenti significativi per iniziare a raccogliere e archiviare i dati non strutturati. L'archiviazione di dati non strutturati può essere rapida come la configurazione di un bucket s3.
    • I dati non strutturati spesso includono informazioni che potrebbero essere utili in un secondo momento, ma che potrebbero non avere un'applicazione diretta nel momento attuale. Tuttavia, può sempre decidere come elaborarli e analizzarli in seguito.

    Contro dei dati non strutturati

    Anche se la raccolta e l'archiviazione dei dati non strutturati sono poco costose, i costi associati possono aumentare rapidamente.

    • Sebbene siano facili da archiviare, i dati non strutturati richiedono competenze per essere analizzati. In genere, i data scientist devono utilizzare metodi sofisticati come l'elaborazione del linguaggio naturale.
    • I dati non strutturati sono economici da archiviare, ma costosi da elaborare. Più dati non strutturati raccoglie la sua organizzazione, maggiore sarà la potenza di calcolo necessaria per elaborare i dati prima che siano disponibili per l'analisi.
    • I dati non strutturati possono contenere dati sensibili o riservati, senza un modo chiaro per identificare, classificare ed etichettare questi file. La conformità a normative come il GDPR può diventare più complicata quando le organizzazioni hanno bisogno di aiuto per trovare tutte le istanze in cui vivono i dati sensibili.

    Confronto fianco a fianco tra dati strutturati e dati non strutturati

    Questa tabella fornisce un riepilogo immediato delle differenze tra dati strutturati e non strutturati:

    CategoriaDati strutturatiDati non strutturati
    DefinizioneInformazioni quantitative che rientrano in uno schema specificoInformazioni qualitative senza una struttura particolare, nel loro formato nativo (grezzo).
    EsempiNomi, date, indirizzi, informazioni sulla carta di credito, finanzeFoto, video, attività sui social media, email
    Archiviazione dei datiDatabase relazionale o magazzino datiLago di dati
    Analisi dei datiSQL, data mining, cluster, regressioniElaborazione del linguaggio naturale e apprendimento automatico
    Casi d'usoMemorizzazione, accesso e analisi dei dati dei clienti o dei dipendenti, delle informazioni contabili, ecc.Analizzare il comportamento degli utenti sui social media, capire il comportamento di navigazione dei clienti

    Che cosa sono i dati semi-strutturati?

    I dati semi-strutturati incorporano alcuni aspetti dei dati strutturati che li rendono organizzati, ricercabili e analizzabili, ma mancano delle regole rigorose dei dati strutturati. Come suggerisce il nome, i dati semi-strutturati si collocano tra i dati strutturati e quelli non strutturati. I dati semi-strutturati possono includere un'organizzazione all'interno di un file o di un documento, ma l'archiviazione non impone uno schema.

    Poiché incorpora elementi di dati strutturati e non strutturati, i dati semi-strutturati possono apparire all'interno di un record di dati strutturati attraverso un formato come XML o un blob JSON. Questi record sono ancora ricercabili tramite SQL, ma richiedono una sintassi più avanzata per l'interrogazione. Oltre agli RDBMS modificati, i dati semi-strutturati possono vivere anche all'interno di database NoSQL come MongoDB.

    Migliori pratiche per proteggere i dati strutturati e non strutturati

    Ora che abbiamo esaminato le differenze tra questi due tipi di dati, vediamo i modi migliori per proteggerli entrambi. Identificare e classificare i dati strutturati è relativamente semplice. Può applicare controlli di accesso a qualsiasi dato sensibile e monitorare se qualcuno sposta, condivide o modifica i dati.

    I dati non strutturati, invece, sono più difficili da proteggere. I dati sensibili potrebbero essere nascosti nel formato nativo e non ricercabile di questi file, e un programma informatico avrà maggiori difficoltà a cercare, segnalare ed etichettare qualsiasi istanza di informazioni di identificazione personale (PII) o altri tipi di dati sensibili. La ricerca di dati sensibili all'interno di questi tipi di file audio, video o di testo di grandi dimensioni richiede più risorse informatiche e, in generale, è più costosa.

    Piuttosto che affidarsi ai tradizionali metodi di segnalazione e monitoraggio comuni con i dati strutturati, una pratica migliore è che un'organizzazione monitori tutte le modifiche e i movimenti dei dati in entrambi i tipi. Se qualche modifica o condivisione sembra sospetta, può indagare per determinare se l'attività deriva da un comportamento.

    Fortunatamente, sempre più applicazioni stanno nascendo per rispondere a questa sfida. Gli strumenti di intelligenza artificiale e aziendale possono tracciare tutti i movimenti e le modifiche dei dati. Osservando tutti i movimenti dei dati, i team di sicurezza possono identificare le azioni potenzialmente dannose prima che una perdita diventi una violazione. Questo approccio offre anche maggiori sfumature alle pratiche di sicurezza della sua organizzazione, al di là dei controlli di accesso di base, che possono frustrare gli utenti e spingerli ad aggirare qualsiasi protezione.

    Si abboni a Cyber Resilience Insights per altri articoli come questi.

    Riceva tutte le ultime notizie e le analisi del settore della cybersecurity direttamente nella sua casella di posta elettronica.

    Iscriviti con successo

    Grazie per essersi iscritto per ricevere gli aggiornamenti del nostro blog

    Ci terremo in contatto!

    Back to Top