Treball correlació
-
Upload
aleixgarces -
Category
Business
-
view
33 -
download
1
Transcript of Treball correlació
1
Anàlisi de dades Treball:
Correlació entre variables Universitat Pompeu Fabra
Maria Delgado Henri Hicham
Miquel Bargalló Aleix Garcés
2
Índex
1. Introducció
2. Variables categòriques amb variables categòriques
2.1 Marca de mòbil i districte
3. Variables categòriques amb variables numèriques
3.1 Marca de mòbil i edat
3.2 Tipus de tarifa i despesa mensual
3.3 Despesa mensual i companyia telefònica
4. Variables numèriques amb variables numèriques
4.1 Despesa mensual i edat
4.2 Hores d’ús del mòbil i edat
4.3 Hores d’ús de la tablet i edat
4.4 Hores d’ús del mòbil i hores de temps lliure
5. Conclusió
3
1. Introducció
En la primera part del treball vam analitzar una sèrie de variables relacionades amb
l’ús del smartphone per tal de tenir informació sobre aquest àmbit com per exemple la
marca de mòbil, la companyia telefònica o les hores d’ús del mòbil entre d’altres.
En la segona part d’aquest treballem estudiarem les diverses correlacions que
existeixen entre les variables que vam analitzar a la primera part. Les correlacions que
podem trobar les podem dividir de tres tipus:
-‐ Variable categòrica amb variable categòrica. En concret nosaltres hem
comparat el districte de residencia de cada persona amb la marca de mòbil que tenien.
-‐ Variable categòrica amb variable numèrica. En àmbit nosaltres hem comparat
la marca de mòbil i l’edat, el tipus de tarifa i la despesa mensual i també la despesa
mensual i la companyia telefònica.
-‐ Variable numèrica amb variable numèrica. En aquesta part hem comparat la
despesa mensual i l’edat, les hores d’ús del mòbil i l’edat, les hores d’ús de la tablet i
l’edat i les hores d’ús del mòbil i les hores de temps lliure.
4
2. Variables categòriques amb variables categòriques
2.1 Marca de mòbil i districte
Aquesta relació que hi ha entre les variables dels districtes de Barcelona segons la
marca de mòbil ha sigut molt feble. Podríem dir que no hi ha una relació entre la
marca de mòbil i els districtes.
Si la nostre intenció era trobar que pels districtes més rics podíem trobar una
preferència per mòbils de preus més alts (com és el cas de Apple), hem observat que
no passa. Això demostra que les empreses de mòbils s’adapten a les diferents
demandes que existeixen en el mercat; es a dir, que tenen diferents tipus de mòbils
segons les disposicions a pagar dels clients i les seves preferències.
MARCA DE MÒBIL I DISTRICTEFr
eqüè
ncia
abso
luta
0
6
12
18
24
30
AppleSam
sung
Blackberry Google HTC
Huawei LG Nokia
Altres
8
12
11
66
11
2
3
65
3
11
11
1
13
111
21
2
2
11
21
2
42
11
1
1114
3
224
Sarrià-Sant Gervasi Sants-Montjuïc Sant Martí Sant AndreuNou Barris Les Corts Horta-Guinardó GràciaEixample Ciutat Vella Altres
5
3. Variable categòrica amb numèrica
3.1 Marca de mòbil i edat
En la relació de les variables marques de mòbil i Edat hem pogut observar una sèrie de
punts interesants. En primer lloc, podem observar que les marques que en el primer
informe ens demostrava que eren les més utilitzades per la població (Samsung i Apple)
no tenen cap correlació amb edats determinades. Es a dir, són utilitzades per totes les
edats. Però si agafavem intervals d’edat segons marques determinades, podiem
observar certes coses.
Per exemple, per la marca Apple podiem comprovar que era més atractiva pels més
joves. Una dada que ho demostrava ens la donava el diagrama de caixa, que indicava
que el 50% dels casos es trobaven entre els 18 i els 27 anys, o fins i tot, que el 75% dels
casos es trobaven entre 14 i els 27 anys. Això pot demostrar qui son els clients més
importants per la marca Apple de telefons mobils.
MARCA DE MÒBIL I EDAT
• Apple predomina en les franges de 17 a 30!
• Samsung la trobem al llarg de totes les edats
Freq
üènc
ia ab
solut
a
0
4
8
12
16
Edat
12 15 17 19 21 23 25 27 29 32 37 42 45 48 52 55 62 68 70 72 82
AppleSamsungNokiaBlackberryHuaweiLGGoogleHTCAltres
6
En el cas de la marca Samsung, no podíem observar una franja d’edat tant concreta. La
separació entre el primer quartil i el tercer quartil (que ens indica on podem trobar un
50% de les dades) es trobaven en 18 i en 42 respectivament. Això ens fa intuir que la
marca Samsung en canvi no es trobava tant enfocada cap a una edat determinada.
Resums resistents
Mínim 18
Q1 20
Mediana 24,5
Q3 46,25
Màxim 55
7
TIPUS DE TARIFA I DESPESA MENSUAL
40
50
60
70
30
20
10
0
Contracte
Prepag
ament
ContracteQ
uant
itat
09
18273645
0 a 10€ 10 a 20€ 20 a 30€ 30 a 40€ 40 a 50€ 50 a 60€
Prepagament
Qua
ntita
t
09
18273645
0 a 10€ 10 a 20€ 20 a 30€ 30 a 40€ 40 a 50€ 50 a 60€
3.2 Tipus de tarifa i despesa mensual
La comparació entre aquestes dues variables ens mostra que la gran majoria dels
usuaris enquestats prefereixen les tarifes de contracte per davant de les de
prepagament. Dintre d'aquesta modalitat, si volguéssim afegir un producte o servei
nou en el mercat, caldria tenir en compte que una gran part de la nostra mostra esta
disposada a gastar-‐se entre 20 i 30€ al mes per als seus serveis de telefonia mòbil.
8
3.3 Despesa mensual i companyia telefònica
Una comparació interessant que vam considerar va ser la de despesa mensual en
relació amb la companyia telefònica que es tenia contractada. Tal i com ja hem
mencionat anteriorment, es pot veure que la majoria de contractes estandarditzats es
troben entre 20€ i 30€ i així ho compleixen totes les companyies principals excepte
Yoigo. Hi ha altres companyies alternatives com la Racc on els consumidors gasten
molt menys degut als contractes més reduïts.
Hem adjuntat un diagrama de caixes on es pot veure que la major part dels valors de
les principals companyies es troben compresos en l’interval 20-‐30€ i veiem que les
mitjanes(els punts blaus), són bastant semblants.
També veiem valors atípics en totes les companyies compresos entre 50€ fins a 70€
així com també valors atípics que representen mínims com en el cas de la companyia
Movistar.
9
4. Variables numèriques amb variables numèriques
4.1 Despesa mensual i edat
En aquest diagrama de dispersió es posen en relació dues variables numèriques. En
l’eix de les Y tenim la despesa mensual en mòbil mentre que en l’eix de les X tenim
l’edat de les persones enquestades.
Podem veure que no hi ha cap forma definida dels punts. Així veiem com la correlació
és de 0,09. Per tant, veiem que hi ha molt poca relació entre les dues variables. Per
altra banda, veiem com l’equació de la recta de regressió és de Y=20,56+0,05X. Així,
veiem que té una pendent positiva però molt feble. També veiem que l’error de
regressió és de 19,44, per tant, els valors no s’ajusten gaire a la tendència que mostra
la recta ja que és un valor molt elevat.
La força d’aquest diagrama és molt baixa ja que, per un costat, veiem que els punts no
conformen cap tendència ni forma i per altra, perquè la correlació està molt propera a
0(0,09). Cal reafirmar que R² ens indica que no existeix cap mena de dependència
entre edat i despesa ja que el valor és de 0,01.
Aquest fet té lògica, ja que no per ser més gran s’hauria de gastar més en el consum de
tarifes de mòbil ja que ,avui en dia, les tarifes estan molt estandarditzades i, per tant,
moltes volten aproximadament entre els valors de 20€ i 30€.
10
Hi ha alguns valors atípics que es troben en l’interval de 50€-‐60€. Així, aquest fet es
podria explicar per la contractació d’una tarifa específica per alguna feina concreta que
requereixi cobertura a l’estranger etc...
4.2 Hores setmanals d’ús del mòbil i edat
En aquest cas, la variable dependent és la variable numèrica «hores d'ús del mòbil»,
representada a l'eix de les y. Contràriament, la variable independent és la variable
categòrica «edat», representada a l'eix de les x. En aquest anàlisi, però, l'edat serà
utilitzada com a variable numèrica.
Tenim una mostra de 100 dades. Fent un primer cop d'ull als resultats obtinguts a
l'Odstats tenim que la mitjana d'hores d'ús del mòbil es troba en les 26,02 hores
setmanals, mentre que la mitjana de la variable edat dels enquestats és de 30,99 anys.
En aquest gràfic de dispersió, podem apreciar com la nostra mostra no té cap
forma definida. Si tractem de traçar una recta de regressió, aquesta ens sortirà de la
forma Y=38,38 – 0,4X. Té una associació negativa a que els valors per sota de la
mitjana d'una de les variables acompanyen als valors per sobre de la mitjana de l'altra
variable.
11
La correlació té un valor de -‐0,36; un valor que també ens ajuda a veure que la nostra
disperssió té una associació negativa. Pel que fa a la força de la nostra mostra, podem
afirmar que aquesta és feble per dos motius: el primer és perquè visualment podem
apreciar com els punts es troben bastant separats de la recta de regressió, i segon
perquè el valor -‐0,36, que està més proper de 0 que de -‐1, ens indica aquesta feblesa.
La R² ens indica la dependència que existeix entre la variable x i la y. En la nostra
mostra té un valor de 0,13; un valor més proper a 0 que a 1. Això ens indica que les
variables no dependen fortament una de l'altra, és a dir, que el nombre d'hores d'ús
del mòbil a la setmana que realiza la nostra mostra no depèn de l'edat dels usuaris.
L'error de regressió, amb un valor de 18,35, és bastant elevat. Això ens indica que els
valors de la nostra mostra no s'ajusten completament a la recta de regressió.
Una part important de l'estudi és comprovar la influència dels valors atípics. Tenim
alguns quatre usuaris que fan un ús de 80 hores de mòbil setmanals, i volem
comprovar si aquests valors són influents en la nostra mostra.
En aquest anàlisi, trobem valors més allunyats de la recta de regressió que altres, però
si es consideren valors atípics s'ha de tenir en compte que la majoria d'ells són no
influents, perquè en cas de suprimir-‐los, el pendent de la nostra recta no varia.
12
4.3 Hores setmanals d'ús de tablet o ordinadors i edat
En aquest cas, la variable dependent és la variable numèrica «hores d'ús de tablets o
ordinadors», representada a l'eix de les y, mentre que la variable independent és la
variable categòrica «edat», que l'hem representada a l'eix de les y.
Tenim una mostra de 100 dades. Fent un primer cop d'ull als resultats obtinguts a
l'Odstats tenim que la mitjana d'hores d'ús de la tablet o ordinador es troba en les
21,33 hores setmanals, mentre que la mitjana de la variable edat dels enquestats és de
30,99 anys. En el següent gràfic de dispersió, podem apreciar com aquest no té una
forma definida. Podem veure com concentra, un major nombre de valors entre la x=13
i la x=28, però això no ens indica una forma clara de la mostra, perquè tenim bastants
valors que s'allunyen de la recta de regressió.
La correlació dóna una xifra de -‐0.18, el que ens indica que és feble perquè el valor es
troba molt proper a -‐1. La proximitat dels punts de la mostra a la recta de regressió és
bastant escassa, excepte en algunes concentracions puntuals de valors. Això també
ens ve a indicar, però aquest cop de manera visual, que l'associació entre les variables
és molt feble.
La correlació també ens indica que l'associació entre les variables és negativa, perquè
el valor és < 0 i perquè ho podem apreciar a la recta de regressió representada en el
diagrama de dispersió. La R², que ens indica la dependència entre les variables x i y, en
aquest cas és de 0,03. Aquest valor encara és més baix que el de les hores d'ús
13
setmanal del mòbil. Al trobar-‐se tant proper a 0, ens indica que les variables no
depenen, per res, l'una de l'altra, és a dir que el nombre d'hores a la setmana que els
usuaris utilitzen mòbils o tablets no té a veure amb la seva edat.
L'error de regressió, amb un valor de 13,63, ens indica que els valors de la mostra no
s'ajusten completament a la recta de regressió. Si fem un petit estudi dels valors
atípics que ens apareixen en el nostre diagrama de disperssió, podrem aclarir si
aquests són influents o no en la nostra mostra.
Per exemple, si analitzem els casos 14 i 54 ens donarem compte que, si prescindim de
tots dos valors, la nostra recta de regressió canvia molt. Passa a tenir un pendent de -‐
0,14 a un pendent de -‐0,09. Això ens indica que tant el valor 14 com el valor 54 són
influents per a la nostra mostra.
Si prescindim del valor 51, ens donarem compte que també és un valor atípic bastant
influent, perquè el pendent de la nostra recta de regressió passa de -‐0,14 a -‐0,17.
14
4.4 Hores d’ús del mòbil i hores de temps lliure
Aquest diagrama de dispersió correspon a la comparació de dues variables numèriques
que són les hores de mòbil (en el eix de las Y) i les hores de temps lliure (en el eix de
las X). Podem apreciar una correlació de 0,27, el que significa que és gairebé
inexistent. Pel que fa a la recta de regressió és de Y=16,6 + 0,23X, el que significa que
el pendent és positiu però quasi bé ni influeix, i l’error de regressió és de 18,96, el que
representa que la recta no s’ajusta gens a les dades obtingudes realment.
Això es pot verificar mirant la R² que és de 0,07, i per tant no existeix ningun tipus de
relació entre aquestes variables. Això es pot explicar perquè actualment el telèfon
mòbil es pot utilitzar en qualsevol moment del dia i no necessàriament mentre algú té
temps lliure, sinó que mentre es treballa també es pot consultar el mòbil amb llibertat.
Finalment cal destacar que hi ha una sèrie de valors atípics que són un ús del mòbil en
més de 80 hores setmanals però que tampoc tenen cap relació amb les hores lliures
d’aquestes persones.
15
5. Conclusió
Després d’analitzar tots els resultats obtinguts creiem que en gairebé cap de les dades
analitzades en podem extreure unes conclusions a partir de les quals trobem un
problema o una necessitat concreta. Tot i així, per tal de decidir quin producte o servei
podríem dur a terme hem decidit mirar generalment tots els resultats i comprovar de
quina manera podríem satisfer a la majoria de la població.
Hem analitzat que la majoria de gent que utilitza el mòbil tenen entre 15 i 30 anys, i
aquest target en concret destaca per un ús elevat del mòbil però en canvi els ingressos
econòmics són més reduïts i això es veu reflectit per en la despesa mensual (entre 20 i
30€) probablement degut a que la majoria d’aquesta gent són estudiants i el seu
capital econòmic és inferior respecte a gent que treballi. A partir d’aquestes dades
podem determinar que probablement aquesta gent necessitaria una tarifa econòmica
més acord a les seves necessitats i per aquest motiu creiem que un bon producte seria
oferir una tarifa destinada a estudiants, amb un preu reduït d’aproximadament uns
20€ i amb unes característiques concretes com 5Gb de internet, trucades i missatges
il·∙limitats. Tot això seria possible degut a que el cost marginal de qualsevol companyia
per afegir un més internet o més trucades a qualsevol client és gairebé nul.