Condividi tramite


Elenco di controllo della preparazione per il data mining

Anche se i componenti aggiuntivi data mining rendono abbastanza semplice e divertente creare ed sperimentare modelli, quando è necessario ottenere risultati ripetibili e interattivi, è necessario consentire un tempo adeguato per formulare i requisiti aziendali di base e per ottenere e preparare i dati. Questa sezione fornisce un elenco di controllo per pianificare l'indagine e descrive i problemi comuni.

Elenco di controllo per la preparazione dei dati

Ho identificato un output chiaramente definito.
Disporre di un piano per l'uso dei risultati. Diversi tipi di modelli hanno output diversi. Un modello di serie temporale genera valori per una sequenza futura, facilmente comprensibili e su cui è possibile agire. Altri modelli generano set complessi che devono essere analizzati da esperti di materia per produrre il massimo valore.

  • Qual è l'output desiderato?

  • È possibile definire l'output come una singola colonna o un valore o un altro risultato interattivo?

  • Quali sono i criteri per sapere che il modello è stato utile?

  • Come si useranno e interpreteranno tali risultati?

  • È possibile eseguire il mapping dei nuovi dati di input ai risultati previsti?

Conosco il significato, i tipi di dati e la distribuzione dei dati di input.
Dedicare del tempo all'esplorazione e alla comprensione dei dati di origine. È importante che gli utenti che esaminano il modello comprendano il tipo di dati di input usati e sanno come interpretare i tipi di dati e la variabilità, nonché l'equilibrio e la qualità.

  • Quanti dati sono disponibili? Sono disponibili dati sufficienti per la modellazione?

    Non deve essere una quantità enorme - una quantità più piccola e bilanciata può essere meglio.

  • I dati provenienti da più origini o da una singola origine?

  • I dati sono già elaborati e puliti? Sono disponibili più dati di input?

  • Sai come è stato manipolato prima di riceverlo: come potrebbero essere stati troncati, riepilogati o convertiti i dati?

  • I dati di input hanno alcuni risultati di esempio che possono essere usati per il training?

Capisco il livello di integrità dei dati che abbiamo e il livello di cui abbiamo bisogno.
I dati non valido possono influire sulla qualità del modello o impedire la compilazione del modello. Si dovrebbe avere una buona comprensione sia della distribuzione che del significato dei dati e del modo in cui è venuto a questo stato. È necessario comprendere se è possibile o appropriato semplificare i dati tramite l'etichettatura, il troncamento dei tipi di dati numerici o il riepilogo.

  • Etichette dati: sono chiare e corrette?

  • Tipi di dati: sono appropriati e sono stati modificati?

  • Sono stati ordinati, puliti o eliminati dati errati?

    Hai verificato che non ci sono duplicati?

  • Come gestire i valori mancanti? I valori mancanti hanno un significato?

  • Sono state verificate le origini per verificare se sono stati introdotti errori nel processo di importazione?

    Dove è archiviato l'input? Quanto tempo rimane disponibile?

    Esiste un dizionario dati? È possibile crearne uno?

  • Se sono stati combinati i set di dati, è stata verificata la presenza di più colonne che rappresentano gli stessi dati?

So da dove vengono archiviati i dati di origine, da dove provengono e come vengono elaborati. Se necessario, il processo può essere ripetuto facilmente.
I set di dati occasionali sono adatti per gli esperimenti, ma se si vuole spostare il modello in produzione, è consigliabile pensare in anticipo al modo in cui il processo di pulizia può essere applicato ai dati operativi. Inoltre, se si dispone di dati operativi, è necessario sapere come potrebbe essere stato modificato prima di averlo ottenuto, è necessario sapere come è stato arrotondato, o riepilogato, certamente.

  • Vuoi essere in grado di ripetere l'esperimento?

  • Quali strumenti verranno usati per preparare i dati in un formato che supporta l'analisi dei dati? Può essere automatizzato o è necessario che qualcuno riveda e pulisca in Excel?

  • Se si tratta di dati di origine da un altro sistema, sarà possibile acquisire e tenere traccia dei filtri applicati?

  • Il framework di elaborazione dati può anche applicare algoritmi di Machine Learning, eseguire test e visualizzare i risultati?

È stata concordata la granularità desiderata delle stime e i dati sono stati modificati per restituire tali unità.
Decidere la granularità dei risultati desiderati prima di preparare i dati, ad esempio, si vogliono stimare le vendite per giorno o per ogni trimestre? È possibile configurare strutture di dati diverse per gli stessi dati per gestire diversi livelli di riepilogo.

  • Qual è l'unità di misura o unità di tempo corrente?

    Quale unità si vuole usare nei risultati?

  • È possibile definire un'unità di base (ad esempio giorno/ora/min/chiamata all'istruzione) per tutti i dati di input?

    Vuoi aggregare verso unità superiori?

  • Le categorie sono etichettate in modo coerente? È facile aggiungere o rimuovere categorie?

Il nostro design sperimentale è ripetibile e riproducibile.
Prendere in considerazione le strategie per analizzare e convalidare i risultati e pianificare l'acquisizione di uno snapshot dei dati per assicurarsi di poter tracciare gli effetti dei dati. Se si utilizza un seme casuale, i risultati possono differire in modo sottile. Ciò può rendere difficile confrontare e convalidare i modelli.

  • Se si apportano numerose modifiche personalizzate ai dati, cosa accade alla successiva compilazione del modello?

  • È già stata definita una procedura manuale o un processo approvato da usare per elaborare l'input e ottenere gli output desiderati?

  • Hai deciso di utilizzare un seed per il modello?

Abbiamo la conoscenza del dominio per convalidare i risultati o avere accesso a esperti in materia che possono consigliare.
È necessario tempo per convalidare le variabili, il modello e i risultati. Ottenere l'aiuto degli esperti per valutare interazioni e risultati. Tuttavia, non lasciare che i presupposti sovraseppongano l'evidenza. Essere aperti a risultati nuovi e imprevisti.

  • Le informazioni sul dominio sono disponibili per filtrare i dati e ridurre il rumore di input?

  • Gli esperti di dominio possono comprendere i risultati e suggerire miglioramenti?

Vedere anche

Scelta dei dati per il data mining