OBIETTIVI E PROGRAMMA
Se l’analisi di grossi quantitativi di dati sta diventando sempre di più una necessità, non solo nel campo del marketing, ma anche di settori come la medicina e la diagnostica, da alcuni anni ci si sta ponendo il problema di quali siano le metodologie migliori per trarre quanta più informazione utile possibile dai grandi dataset che possono essere reperiti in vari modi su Internet (ad esempio, nel caso di analisi di social media) o fanno parte del patrimonio di un’azienda.
Di conseguenza, anche dal lato dell’organizzazione dei dati sono nati dei framework particolari per la gestione di queste grosse quantità di dati, il più recente dei quali è Spark, che può essere utilizzato con molti linguaggi di programmazione, dei quali R è il più recente. Per questa ragione molte possibili analisi dati possono venire implementate tramite i due pacchetti per la gestione di Spark in linguaggio R, che sono SparkR e sparklyr.
OBIETTIVI
In questo corso impareremo a lavorare con i Big Data utilizzando Spark, il framework per il calcolo distribuito più popolare al mondo, usato in produzione da giganti come Amazon, Microsoft, Oracle, Verizon e Cisco.
PROGRAMMA
Questo corso ha una durata complessiva di 12 ore.
Cap.01 Introduzione
- Lezione 1.1 Cosa sono i Big Data | 04:54 minuti
- Lezione 1.2 I vantaggi dei Big Data | 06:55 minuti
- Lezione 1.3 Le tecnologie per i Big Data- Hadoop MapReduce | 08:13 minuti
- Lezione 1.4 Le tecnologie per i Big Data- Spark | 06:28 minuti
Cap.02 Installazione di Spark in locale con VirtualBox
- Lezione 2.1 Usare VirtualBox per Creare una Macchina Virtuale | 06:24 minuti
- Lezione 2.2 Installare Ubuntu sulla Macchina Virtuale | 03:59 minuti
- Lezione 2.3 Installare Pip e Jupyter Notebook | 04:43 minuti
- Lezione 2.4 Installare Java e Scala | 02:01 minuti
- Lezione 2.5 Installare Spark sulla Machina Virtuale | 07:12 minuti
Cap.03 Creare una macchina virtuale AWS EC2
- Lezione 3.1 Creare una Macchina Virtuale con AWS EC2 | 06:03 minuti
- Lezione 3.2 Installare Spark sulla Machina Remota | 10:12 minuti
Cap.04 Creare un Cluster con AWS EMR
- Lezione 4.1 Creazione di un Cluster con AWS EMR (Elastic Map Reduce) | 10:06 minuti
Cap.05 Utilizzare Spark con DataBricks
- Lezione 5.1 Utilizzare Spark con DataBricks | 10:21 minuti
- Lezione 5.2 Importare i Notebook su DataBricks | 01:53 minuti
Cap.06 Il Resilient Distributed Dataset (RDD)
- Lezione 6.1 Introduzione al RDD | 05:03 minuti
- Lezione 6.2 Azioni del RDD | 08:55 minuti
- Lezione 6.3 MapReduce sul RDD | 07:57 minuti
- Lezione 6.4 Trasformazioni sul RDD | 06:41 minuti
- Lezione 6.5 RDD con chiave e valore | 12:52 minuti
Cap.07 Analisi di 225 Milioni di Recensioni su Amazon [Laboratorio]
- Lezione 7.1 Procuriamoci il Dataset | 03:22 minuti
- Lezione 7.2 Contiamo il numero di valutazioni | 05:40 minuti
- Lezione 7.3 Contiamo il numero di libri | 02:30 minuti
- Lezione 7.4 Contiamo il numero di valutazioni per libro | 02:55 minuti
- Lezione 7.5 Troviamo i 10 libri più valutati | 05:58 minuti
- Lezione 7.6 Calcoliamo la valutazione media per ogni libro | 11:49 minuti
- Lezione 7.7 Troviamo i 10 libri con la valutazione più alta | 06:55 minuti
- Lezione 7.8 Troviamo i 10 recensori più critici | 06:21 minuti
Cap.08 Il DataFrame
- Lezione 8.1 Introduzione al DataFrame | 03:43 minuti
- Lezione 8.2 Creazione di un DataFrame | 06:22 minuti
- Lezione 8.3 Modificare lo Schema di un DataFrame | 03:36 minuti
- Lezione 8.4 Operare su Righe e Colonne | 08:45 minuti
- Lezione 8.5 Filtri, Aggregazione e Ordinamento | 11:57 minuti
- Lezione 8.6 Query SQL su un DataFrame | 04:35 minuti
- Lezione 8.7 (Opzionale) Query SQL di Selezione | 13:14 minuti
Cap.09 Analisi di 28 milioni di Recensioni di Film [Laboratorio]
- Lezione 9.1 Procuriamoci il Dataset MovieLens | 03:00 minuti
- Lezione 9.2 Creiamo il DataFrame | 06:18 minuti
- Lezione 9.3 Correggiamo lo Schema | 07:24 minuti
- Lezione 9.4 Contiamo il numero di Recensioni Totali e la Media per Utente | 04:51 minuti
- Lezione 9.5 Troviamo l’Utente che ha Scritto piu? Recensioni | 02:21 minuti
- Lezione 9.6 Troviamo i 10 Film che hanno ricevuto più Recensioni | 02:38 minuti
- Lezione 9.7 Troviamo i 10 Film con le Recensioni più Positive e più Negative | 09:48 minuti
- Lezione 9.8 Troviamo le 10 Recensioni più Recenti | 01:16 minuti
- Lezione 9.9 Troviamo i Film più Visti ogni Anno | 13:53 minuti
- Lezione 9.10 Aggiungiamo Titolo e Genere alla lista dei Film più Visti | 06:46 minuti
Cap.10 Time Series – Analisi delle Azioni di Apple [Laboratorio]
- Lezione 10.1 Procuriamoci il Valore Giornaliero delle Azioni di Apple | 02:19 minuti
- Lezione 10.2 Creiamo il DataFrame e Correggiamo lo Schema | 08:39 minuti
- Lezione 10.3 Troviamo i Valori Massimi e Minimi | 02:39 minuti
- Lezione 10.4 Troviamo i giorni in cui il Valore è stato inferiore ai 100 $ | 03:13 minuti
- Lezione 10.5 Troviamo il Valore Massimo per ogni Anno | 02:38 minuti
- Lezione 10.6 Troviamo l’Anno con i Volumi Maggiori | 01:58 minuti
- Lezione 10.7 Calcoliamo la Variazione delle Azioni dopo il rilascio dell’iPhone | 07:26 minuti
Cap.11 Machine Learning con Spark MLlib
- Lezione 11.1 Cosa è il Machine Learning | 05:56 minuti
- Lezione 11.2 I problemi del Machine Learning | 04:21 minuti
- Lezione 11.3 La Regressione Lineare e Logistica | 14:37 minuti
- Lezione 11.4 (Opzionale) L’algoritmo Gradient Descent | 07:58 minuti
- Lezione 11.5 Introduzione a Spark MLlib | 05:08 minuti
Cap.12 Kaggle e le sue API
- Lezione 12.1 Introduzione a Kaggle | 03:48 minuti
- Lezione 12.2 Creazione di un Account | 02:37 minuti
- Lezione 12.3 Utilizzare le API di Kaggle | 02:32 minuti
- Lezione 12.4 Scaricare un Dataset con le API | 01:56 minuti
- Lezione 12.5 Scaricare il Dataset di una Competizione con le API | 04:12 minuti
Cap.13 Machine Learning Supervisionato – Regressione
- Lezione 13.1 Procuriamoci il Dataset | 05:24 minuti
- Lezione 13.2 Vettorizzazione delle Features | 04:07 minuti
- Lezione 13.3 Applichiamo la Normalizzazione | 03:30 minuti
- Lezione 13.4 Creare un modello di Regressione Lineare | 03:53 minuti
- Lezione 13.5 Valutazione del Modello | 01:08 minuti
- Lezione 13.6 Metriche – Mean Squared Error | 01:15 minuti
- Lezione 13.7 Metriche – Root Mean Squared Error e Mean Absolute Error | 02:11 minuti
- Lezione 13.8 Metriche – R2 – Coefficiente di Determinazione | 01:53 minuti
- Lezione 13.9 Eseguire Predizioni con il Modello | 06:06 minuti
Cap.14 Machine Learning Supervisionato – Classificazione
- Lezione 14.1 Procuriamoci il Dataset di Tumori al Seno | 02:12 minuti
- Lezione 14.2 Creiamo il DataFrame | 03:25 minuti
- Lezione 14.3 Vettorizzazione delle Features | 04:11 minuti
- Lezione 14.4 Applichiamo la Standardizzazione | 02:27 minuti
- Lezione 14.5 Codifichiamo il Target | 03:03 minuti
- Lezione 14.6 Creare un Modello di Regressione Logistica | 01:47 minuti
- Lezione 14.7 Metriche – L’Accuracy | 01:49 minuti
- Lezione 14.8 Metriche – Precision e Recall | 02:46 minuti
- Lezione 14.9 Testiamo il modello sulle nuove Agobiopsie | 05:13 minuti
Cap.15 Sentiment Analysis sulle Recensioni di Yelp [Laboratorio]
- Lezione 15.1 Sentiment Analysis | 10:34 minuti
- Lezione 15.2 Procuriamoci il Dataset | 04:00 minuti
- Lezione 15.3 Creiamo il DataFrame | 08:01 minuti
- Lezione 15.4 Rimuoviamo la Punteggiatura | 04:43 minuti
- Lezione 15.5 Eseguiamo la Tokenizzazione | 01:56 minuti
- Lezione 15.6 Rimuoviamo le Stop Words | 01:55 minuti
- Lezione 15.7 Creiamo un modello Bag of Words | 07:46 minuti
- Lezione 15.8 Codifichiamo il Target | 03:06 minuti
- Lezione 15.9 Il Problema dell’Overfitting | 03:15 minuti
- Lezione 15.10 Applichiamo la Regolarizzazione | 02:24 minuti
- Lezione 15.11 Il Problema delle Classi Sbilanciate | 02:21 minuti
- Lezione 15.12 Bilanciamo il DataFrame e Creiamo il Modello | 05:28 minuti
- Lezione 15.13 Carichiamo il Dataset su un Bucket S3 | 05:00 minuti
- Lezione 15.14 Creiamo il Cluster con EMR | 09:45 minuti
- Lezione 15.15 Il Modello TF IDF | 03:44 minuti
- Lezione 15.16 Cerchiamo delle Recensioni su TripAdvisor | 07:39 minuti
- Lezione 15.17 Preprocessiamo le nuove Recensioni | 03:08 minuti
- Lezione 15.18 Testiamo il modello sulle nuove Recensioni | 02:30 minuti
Cap.16 Spark Streaming
- Lezione 16.1 Introduzione a Spark Streaming e al DStream | 04:26 minuti
- Lezione 16.2 Esempio di Echo Streaming | 05:57 minuti
- Lezione 16.3 Processare il DStream | 02:51 minuti
- Lezione 16.4 Esempio di Monitor di Keywords | 04:27 minuti
- Lezione 16.5 Creare uno Stato per il DStream | 05:18 minuti
- Lezione 16.6 Salvare il DStream in una Tabella SQL Temporanea | 03:56 minuti
Cap.17 Analisi in Tempo Reale dei Tweets pubblicati su Twitter [Laboratorio]
- Lezione 17.1 Creiamo un Account Sviluppatore su Twitter | 06:45 minuti
- Lezione 17.2 Creiamo la nostra Twitter App | 03:23 minuti
- Lezione 17.3 Creiamo lo Stream dei Tweets | 08:26 minuti
- Lezione 17.4 Creiamo una Data Source Custom con un Socket | 06:55 minuti
- Lezione 17.5 Eseguiamo lo Stream dei Tweets con Spark | 04:05 minuti
- Lezione 17.6 Estraiamo gli Hashtags dai Tweets | 02:39 minuti
- Lezione 17.7 Creiamo un DataFrame con gli Hashtags piu? popolari | 12:05 minuti
- Lezione 17.8 Salviamo i Tweets in una Tabella SQL Temporanea | 04:46 minuti
- Lezione 17.9 Mostriamo gli Hashtags in un Grafico Dinamico | 09:00 minuti
- Lezione 17.10 (Bonus) Mostriamo gli Hashtags in un Grafico Dinamico | 04:10 minuti
RICHIEDI INFORMAZIONI
PROCEDURA DI ISCRIZIONE
Per iscriversi al corso basta semplicemente cliccare sul pulsante “Aggiungi al Carrello” per verificare eventuali promozioni in corso e seguire la procedura guidata di registrazione e pagamento.
E’ possibile pagare sia tramite Carta di Credito/Paypal (senza costi aggiuntivi) oppure Bonifico Bancario (in caso di pagamento con Bonifico Bancario il corso sarà disponibile solo dopo avvenuto accredito presso la nostra Banca, in genere dai 3/5 giorni lavorativi).
Se si ha un Coupon sconto consigliamo di procedere come indicato sopra per l’iscrizione, una volta arrivati sulla pagina che mostra prezzo finale, occorre inserire il codice coupon qui e cliccare su “Verifica”. Successivamente, avviata la procedura di iscrizione, è necessario inserire nuovamente il coupon qui e cliccare su “Applica”, così il coupon sarà calcolato nel prezzo finale.
MODALITA’ DI ACCESSO E UTILIZZO
Il corso online è fruibile sulla nostra piattaforma attraverso tutti i dispositivi: smartphone, tablet e pc collegati ad internet, l’accesso è sempre disponibile (24/24). Il corso ha una validità di 6 mesi dalla data di iscrizione e dovrà essere completato entro tale termine.
Per accedere al corso, una volta acquistato (vedi modalità di iscrizione) basta cliccare sulla scritta in alto del sito “Accedi”.
Accedendo all’Area Utente con PC/Notebook o Tablet il pulsante “Accedi” è in alto a destra, come nell’immagine qui disponibile.
Se accediamo all’Area Utente da Smartphone, il pulsante “Accedi” è nella voce di menù a destra; occorre cliccare quindi l’icona del menù (cerchiata in rosso nell’immagine qui sotto) per visualizzarlo.
Si accede quindi al proprio account (usando le credenziali di registrazione) dove è disponibile l’accesso al corso online scelto, nella sezione “PROSPETTO CORSI” evidenziata in rosso nell’immagine qui sotto.
ATTESTATO E BENEFIT
A conclusione del percorso formativo sarà possibile scaricare nella propria area utente un certificato di frequenza personalizzato.
Richiedi informazioni
Campi richiesti