Indice degli argomenti

  • Introduzione

    •  

  • Introduzione al sistema SAS

    •  Lavagna condivisa

    • Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.
      Eventuali dubbi o richieste devono essere poste tramite il Forum di questa settimana.

      1. Leggere il file di dati braziltourism.csv e importarli in un dataset permanente.
    • Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.
      Eventuali dubbi o richieste devono essere poste tramite il Forum di questa settimana.

      1. Leggere il file di dati attend.dat e importarli in un dataset permanente.
    • Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.
      Eventuali dubbi o richieste devono essere poste tramite il Forum di questa settimana.

      Leggere il file di dati wheat.txt e importarli in un dataset permanente.

    • In questo forum è necessario effettuare almeno un intervento in cui si descrive il processo risolutivo applicato, le principali  problematiche incontrate e specificare il livello di difficoltà (Basso - Medio - Alto).

    • Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.
      Eventuali dubbi o richieste devono essere poste tramite il Forum di questa settimana.

      1. Leggere il file di dati balloon.txt e importarli in un dataset permanente.

    • Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.
      Eventuali dubbi o richieste devono essere poste tramite il Forum di questa settimana.

      Creare un dataset temporaneo di nome compito con variabili nome, cognome, datanascita, altezza, peso con dati presi da altezze.csv.

      1. Importare i dati in un dataset permanente
      2. Aggiungere una variabile BMI=peso/altezza2 , dove l’altezza è in metri e il peso in kg.
      3. Sapendo che 1 pollice = 2.54 centimetri, aggiungere una variabile altezza_pollici che esprime l’altezza in pollici
      4. visualizzare il dataset
      5. Aggiungere una variabile tipo che vale “inferiore” se BMI < 18.5, “normopeso” se BMI è fra 18.5 e 20, “superiore” se BMI è maggiore di 20.
      6. Ottenere un secondo dataset con le sole persone con BMI<20

    • In questo forum è necessario effettuare almeno un intervento in cui si descrive il processo risolutivo applicato, le principali  problematiche incontrate e specificare il livello di difficoltà (Basso - Medio - Alto).

    • Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.
      Eventuali dubbi o richieste devono essere poste tramite il Forum di questa settimana.

      Si utilizzi il file regioni.csv per ottenere i dati grezzi su cui lavorare:

      1. Creare un dataset permanente per tali dati
      2. Dividere i dati in 3 dataset per regioni con meno di 10000 kmq, con oltre 20000 kmq e le rimanenti
      3. Calcolare la densità di ogni regione
      4. Esportare uno dei dataset in un file di testo con dati separati da ;

  • Calcolare statistiche

    • kalvidres icon
      Kaltura Video Resource
    • kalvidres icon
      Kaltura Video Resource
    • Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.
      Eventuali dubbi o richieste devono essere poste tramite il Forum di questa settimana.

      Il dataset gareauto contiene l’esito di alcune gare automobilistiche. Lo stato di una gara è Running se il pilota ha completato la gara.

      1. Per ogni pilota, calcolare i punti totali (intesi come somma di punti e bonus) ottenuti.
      2. Per ogni pilota calcolare il numero medio (e deviazione standard) di punti totali ottenuti per ogni gara a cui ha partecipato.
      3. Come il punto precedente, ma solo relativamente alle gare completate.
      4. Per ogni pilota calcolare la somma totale di premi vinti, di giri percorsi e di punti base ottenuti.

    • url icon
      URL
      Soluzione Nascar ( programma SAS) URL
    • kalvidres icon
      Kaltura Video Resource
      Soluzione: Nascar (Video) Kaltura Video Resource
    • In questo forum è necessario effettuare almeno un intervento in cui si descrive il processo risolutivo applicato, le principali  problematiche incontrate e specificare il livello di difficoltà (Basso - Medio - Alto).

    • Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.
      Eventuali dubbi o richieste devono essere poste tramite il Forum di questa settimana.

      Utilizzando il file dieta.csv nel formato CSV, le cui variabili sono CODICE NOME SQUADRA PESOINIZ PESOFIN ETA SESSO, si calcoli:

      1. Media e deviazione standard del peso alla fine della cura, stratificato per squadra.
      2. Creare un dataset contenente media e deviazione standard rispetto alle squadre, come ottenuto al punto 1.
      3. Modificare il dataset in modo da avere per ogni persona il peso perso, sia in assoluto che in percentuale sul peso iniziale
      4. Il numero di persone che hanno perso almeno il 7% del peso stratificato per sesso (queste persone hanno ottenuto l’obiettivo minimo).
      5. Per ogni squadra la percentuale di pazienti che hanno raggiunto l’obiettivo minimo. Si stampi l’elenco delle squadre in ordine decrescente di percentuale.
      6. Costruire un dataset contenente il numero di persone per squadra che non hanno raggiunto l’obiettivo (le squadre che hanno solo persone che hanno raggiunto l’obiettivo possono essere omesse)

    • Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.
      Eventuali dubbi o richieste devono essere poste tramite il Forum.

      Si richiede di scrivere un programma SAS per l’analisi dei dati, secondo i seguenti punti. I dati grezzi che si trovano nel file rappresentano dei dati storici riguardanti alcuni dati di vari modelli di auto e sono associabili alle seguenti variabili:

      • MPG: consumo medio misurato come miglia percorse con un gallone di benzina.
      • CILINDRI: numero di cilindri del motore.
      • LUNGHEZZA: lunghezza veicolo (in pollici).
      • POTENZA: potenza del motore in HP.
      • PESO: in libbre.
      • ACCELERAZIONE: tempo (in sec.) per andare da 0 a 60 miglia/ora.
      • ANNO: anno introduzione modello.
      • ORIGINE: 1=americana, 2=europea, 3=giapponese.
      • MODELLO: nome del modello e casa costruttice.

      Risolvere i seguenti punti.

      1. Leggere i dati in ingresso e memorizzarli in un dataset SAS permanente.
      2. Tenendo conto che 1 miglio = 1.60935 km e 1 gallone = 4.4 litri, esprimere il consumo medio con litri necessari per percorrere 100 km.
      3. Calcolare media, deviazione standard e skewness della variabile POTENZA stratificata per ANNO.
      4. Costruire una tabella a 2 entrate i cui assi rappresentino l’origine del costruttore l’anno di introduzione del modello, e il dato in ogni cella del dataset deve essere il numero di modelli introdotti nell’anno da un costruttore con determinata origine. Nella tabella devono essere presenti le varie ripartizioni percentuali. Ad esempio nella cella con etichetta (72,2) si troverà il numero di modelli introdotti nel 1972 da costruttori europei, inoltre nella tabella si deve avere la percentuale di modelli introdotti nel 1972.

    • kalvidres icon
      Kaltura Video Resource
      Soluzione esercizio Auto (Video) Kaltura Video Resource
    • Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.
      Eventuali dubbi o richieste devono essere poste tramite il Forum.

      Il file FEMA2.csv contiene i dati relativi ad alcuni interventi eseguiti in seguito ad alcune emergenze negli Stati Uniti. I nomi di variabili sono contenuti nella prima riga del file.

      1. Leggere i dati in ingresso e memorizzarli in un data set SAS permanente.
      2. Salvare, in un dataset temporaneo, solo le prime 3 variabili del data set letto. Stampare le osservazioni dello stato Texas del dataset originale, visualizzando la data nel formato europeo (prima il giorno e dopo il mese) e 0 o 1 a seconda che il proponente sia nel campo dell’istruzione o meno.
      3. Calcolare media, massimo e minimo della variabile Amount (che rappresenta lo stanziamento) stratificata per County.
      4. Ripetere il punto precedente solo sulle osservazioni dell’anno 2008.
      5. Creare un nuovo dataset temporaneo contenente solo le osservazioni relative allo Stato del Texas. Nel nuovo dataset creare una nuova variabile StanziamentoMedio che contiene il rapporto fra i fondi stanziati e il numero di progetti.

    • In questo forum è necessario effettuare almeno un intervento in cui si descrive il processo risolutivo applicato, le principali  problematiche incontrate e specificare il livello di difficoltà (Basso - Medio - Alto).

      1. Determinare quale stato ha ricevuto la quantità maggiore di fondi totali (quindi bisogna determinare per ogni stato il totale dei fondi ricevuti).
      2. Determinare come i fondi siano stati ripartiti, sia in valore assoluto che in percentuale, rispetto allo stato e al fatto che il richiedente sia nel campo dell’istruzione.
      3. Creare un nuovo data set con i risultati ottenuti al punto precedente.
      4. Leggere il file di dati FEMA2.txt contenente, per ogni tipologia di emergenza, un valore di severità associato.
      5. Fondere il nuovo dataset con quello originale.

  • ODS, Fusione dataset

    • Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.

      Si analizzino i dati del file fl2000.csv, rappresentati i voti espressi in Florida nell’elezione presidenziale del 2000. Le variabili sono: county, technology, columns, numero, oltre ad codice che indica se si tratta di schede bianche, nulle o assegnate ad uno dei candidati, secondo la seguente tabella.

      codice significato
      1 schede bianche
      2 schede nulle
      3 Bush
      4 Gore
      5 Browne
      6 Nader
      7 Harris
      8 Hagelin
      9 Buchanan
      10 McReynolds
      11 Phillips
      12 Moorehead
      13 Chote
      14 McCharthy

      Ad esempio, la riga

      Alachua,Optical,1,5,658 

      indica che nella contea Alachua con metodo Optical e dove la scheda ha 1 colonna, il candidato Browne ha ottenuto 658 voti.

      1. Calcolare il numero totale di voti raccolti da ogni candidato (escluse schede bianche e nulle).
      2. Calcolare la percentuale di voti raccolti da ogni candidato (escluse schede bianche e nulle).
      3. Per ogni contea, determinare il candidato che ha ottenuto il numero massimo di voti.
      4. Calcolare il numero totale di voti per candidato distinto per tipo di colonne nella scheda (columns) e modalità di conteggio (technology). Rappresentare le informazioni in due tabelle (una per columns, una per technology).
      5. Aggiungere al dataset una variabile che contenga i voti non validi (intesi come somma del numero di schede bianche e del numero di schede nulle). Determinare in quale contea si è verificato il numero massimo di voti non validi. ? Determinare in quale contea si è verificata la percentuale più elevata di voti non validi rispetto al numero totale di voti.
      6. Determinare il numero di contee in cui i voti attribuiti al candidato Nader sono stati almeno il 2% dei voti validi (quindi escludendo le schede bianche o nulle).

    • In questo forum è necessario effettuare almeno un intervento in cui si descrive il processo risolutivo applicato, le principali  problematiche incontrate e specificare il livello di difficoltà (Basso - Medio - Alto).

    • Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.
      Eventuali dubbi o richieste devono essere poste tramite il Forum di questa settimana.

      Scrivere un programma SAS per l’analisi dei dati presenti nel file satellite.txt, secondo i seguenti punti. I dati grezzi che si trovano nel file rappresentano i risultati di prove di alcuni prodotti elettronici. I dati sono associabili alle seguenti variabili:

      • PRODOTTO: il nome del prodotto a cui si riferisce l’osservazione.
      • NUMSATELLITE: numero progressivo del satellite a cui si riferisce l’osservazione.
      • ALTITUDINE: altitudine rilevata per il satellite.
      • AZIMUTH: azimuth rilevata per il satellite.
      • MEDIO: valore medio del rapporto segnale/rumore (SNR) rilevato.
      • MINIMO: valore minimo del rapporto segnale/rumore (SNR) rilevato.
      • MASSIMO: valore massimo del rapporto segnale/rumore (SNR) rilevato.

      Risolvere i seguenti punti.

      1. Leggere i dati in ingresso e memorizzarli in un dataset SAS temporaneo.
      2. Calcolare il valore medio di altitudine e azimuth stratificato per satellite (variabile NUMSATELLITE).
      3. Calcolare media, deviazione standard e skewness della variabile minimo.
      4. Aggiungere al dataset una variabile SCARTO che contenga la differenza fra MASSIMO e MINIMO.
      5. Calcolare, per ogni satellite, il valore medio della variabile scarto, e stampare i satelliti in ordine crescente di tale valore medio.
      6. Aggiungere al dataset iniziale una variabile di nome ALTITUDINE_MEDIA contenente i dati ottenuti al punto 2 relativi alla variabile ALTITUDINE. Notare che lo stesso valore deve essere aggiunto a tutte le osservazioni che si riferiscono allo stesso satellite.

    • Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.
      Eventuali dubbi o richieste devono essere poste tramite il Forum di questa settimana.

      Si richiede di scrivere un programma SAS per l’analisi dei dati secondo i seguenti punti.

      I dati grezzi che si trovano nel file rappresentano le velocità medie del vento registrate dal 1961 al 1978 in alcune stazioni metereologiche, nel seguente formato: ANNO, MESE, GIORNO, poi seguono le rilevazioni (per il giorno in esame) delle 12 stazioni metereologiche.

      1. Leggere i dati in ingresso e memorizzarli in un dataset SAS permanente.
      2. Determinare, tramite una analisi delle frequenze, il numero di rilevazioni effettuate dalla prima stazione per ogni anno.
      3. Calcolare per ogni stazione il valore medio rilevato. Quale ha ottenuto il valore minimo?
      4. Costruire una tabella a 2 entrate in cui su un asse sono rappresentati gli anni e sull’altro asse sono rappresentate le stazioni metereologiche. Ogni cella della tabella deve essere la somma delle velocità rilevate dalla stazione nell’anno in esame.
      5. Dalla tabella a 2 entrate calcolata al punto 5, estrarre i casi (anno e stazione) relativi a valori percentuali maggiori del 0,6%. Nel risultato non devono comparire dati riepilogativi di righe o colonne (ovvero, sia anno che stazioni non devono essere mancanti).

    • Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.
      Eventuali dubbi o richieste devono essere poste tramite il Forum di questa settimana.

      Si richiede di scrivere un programma SAS per l’analisi dei dati presenti nel file japan.zip secondo i punti che seguono.

      I dati grezzi che si trovano nel file japan.csv riportano alcune rilevazioni relative ai livelli di radioattività misurati in Giappone nel periodo 9/3/2011 – 16/4/2011. Ogni osservazione è relativa ad una misurazione e le variabili sono presenti nella prima riga del file. Il file StationLocations.csv contiene id dati identificativi delle varie stazioni di rilevazione.

      1. Leggere i dati del file in ingresso e memorizzarli in un dataset SAS permanente, tenendo conto che valori negativi di SA e RA corrispondono a dati mancanti.
      2. Calcolare media, massimo e deviazione standard della variabile RA stratificata per STATION_COD.
      3. Determinare come le precipitazioni rilevate (RA) siano distribuite rispetto ai vari giorni di rilevazione.
      4. Creare un nuovo dataset temporaneo contenente solo le osservazioni relative a radiazioni (SA) non mancanti.

    • Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.
      Eventuali dubbi o richieste devono essere poste tramite il Forum di questa settimana.

      1. Calcolare le precipitazioni medie rilevate in ogni giorno/stazione, emettendo il risultato in un nuovo dataset. Il nuovo dataset dovrebbe quindi avere variabili GIORNO, STAZIONE, RA_MEDIA.
      2. In quale stazione è stato rilevato il minimo valore di RA_MEDIA nel punto precedente?
      3. Per ogni stazione determinare la media della variabile SA relativamente alle osservazioni con data fino al 11/3/2011.
      4. Aggiungere al dataset una variabile INCREMENTO_SA ottenuta come differenza fra SA e la media di SA ottenuta al punto precedente. La variabile INCREMENTO_SA deve avere valore mancante in tutte le osservazioni fino al 11/3/2011.

      1. Gli studenti dovranno consegnare un breve programma in SAS, su cui non riceveranno feedback.
        Eventuali dubbi o richieste devono essere poste tramite il Forum di questa settimana.

        1. Leggere i dati del file StationLocations.csv e memorizzarli in un dataset SAS permanente. Notare che in questo file le stazioni hanno una variabile STATION_ID che è un numero progressivo che inizia con 1.
        2. Nel dataset otttenuto al punto precedente aggiungere una variabile DISTANZA_Q che contiene il quadrato della distanza dal punto con latitudine 37.422972 e longitudine 141.032917, ottenuta applicando la formula 802(latitudine - 37.422972)2 + 1112(longitudine - 141.032917)2
        3. Per ogni sito (SITE_ID), determinare il numero di stazioni presenti.
        4. Fondere i due dataset contenenti i due file di dati grezzi letti, sfruttando la condivisione della variabile STATION_COD.

      2. kalvidres icon
        Kaltura Video Resource
        Soluzione esercizio Giappone (video) Kaltura Video Resource
      3. Si richiede di scrivere un programma SAS per l’analisi dei dati presenti nei file multe.csv e codici.csv  secondo i punti che seguono.

        1. Leggere i dati del file multe.csv in un dataset permanente. Se non specificato, ogni operazione deve essere eseguita su tale dataset. Ogni osservazione corrisponde ad una multa comminata. Le variabili sono presenti nel file.
        2. Controllare se sono presenti valori mancanti.
        3. Creare una nuova variabile ANNO ottenuta prendendo la parte intera di MARKED TIME diviso 100.
        4. Costruire un nuovo dataset permanente che contiene le osservazioni dove RP STATE PLATE è diverso da CA.
        5. Calcolare media, minimo e deviazione standard di FINE AMOUNT stratificato per RP STATE PLATE.
        6. Individuare quale RP STATE PLATE ha avuto il valore medio di FINE AMOUNT (calcolato al punto precedente) più basso.
        7. Indicare, sia in valore assoluto che in percentuale, come il numero di multe sia ripartito fra i vari tipi di infrazione (VIOLATION DESCRIPTION).
        8. Emettere i risultati del punto precedente in un nuovo dataset temporaneo.
        9. Leggere i dati del file codici.csv in un dataset temporaneo.
        10. Fondere i dataset al punto precedente con quello originale, sfruttando il campo AGENCY.
      4. kalvidres icon
        Kaltura Video Resource
        Soluzione Multe Kaltura Video Resource