1920-1-E4102B004: merge | e-Learning

Buongiorno, nel rivedere la soluzione della prova d'esame mi è sorto un dubbio sulla logica del comando 'merge'.

Nello specifico, nel punto 10 della prova, fondendo i due dataset, il LOG da come risultato:

'NOTE: There were 63 observations read from the data set WORK.CODICI.

NOTE: There were 12143 observations read from the data set A.MULTE.

NOTE: The data set WORK.FUSIONE has 12191 observations and 21 variables.'

Non ho capito perchè nel dataset finale ci sono più righe rispetto al dataset A.MULTE.

Ri: merge

di Simone Scolaro - martedì, 5 maggio 2020, 00:55

Perchè ci sono delle agency (dalla 59 in poi) a cui non corrisponde nessuna multa, quindi non erano presenti nel dataset multe. Però nella fusione compaiono.
Se scorre tutto il dataset risultante dalla fusione le trova tutte in fondo le osservazioni in più. Il fatto che siano in fondo dipende solo dal fatto che quelle che sono senza multe sono quelle dalla 59 in poi. Se la numero 10 non avesse fatto multe, la troverebbe in mezzo.

Ri: merge

di Simone Scolaro - martedì, 5 maggio 2020, 02:11

Anzi, in effetti ce ne sono anche in mezzo se le cerca bene, ad esempio con una print e una where ticket_number = .