Treball correlació

16
1 Anàlisi de dades Treball: Correlació entre variables Universitat Pompeu Fabra Maria Delgado Henri Hicham Miquel Bargalló Aleix Garcés

Transcript of Treball correlació

  1  

       

Anàlisi  de  dades  Treball:    

Correlació  entre  variables  Universitat  Pompeu  Fabra  

                               

Maria  Delgado  Henri  Hicham  

Miquel  Bargalló  Aleix  Garcés  

 

  2  

 Índex  

   1.  Introducció  

2.  Variables  categòriques  amb  variables  categòriques  

  2.1  Marca  de  mòbil  i  districte  

3.  Variables  categòriques  amb  variables  numèriques  

  3.1  Marca  de  mòbil  i  edat  

  3.2  Tipus  de  tarifa  i  despesa  mensual  

  3.3  Despesa  mensual  i  companyia  telefònica  

4.  Variables  numèriques  amb  variables  numèriques  

  4.1  Despesa  mensual  i  edat  

  4.2  Hores  d’ús  del  mòbil  i  edat  

  4.3  Hores  d’ús  de  la  tablet  i  edat  

  4.4  Hores  d’ús  del  mòbil  i  hores  de  temps  lliure  

5.  Conclusió  

         

  3  

1.  Introducció  

En   la  primera  part  del   treball   vam  analitzar  una   sèrie  de   variables   relacionades   amb  

l’ús  del  smartphone  per  tal  de  tenir  informació  sobre  aquest  àmbit  com  per  exemple  la  

marca  de  mòbil,  la  companyia  telefònica  o  les  hores  d’ús  del  mòbil  entre  d’altres.  

 

En   la   segona   part   d’aquest   treballem   estudiarem   les   diverses   correlacions   que  

existeixen  entre  les  variables  que  vam  analitzar  a  la  primera  part.  Les  correlacions  que  

podem  trobar  les  podem  dividir  de  tres  tipus:  

-­‐   Variable   categòrica   amb   variable   categòrica.   En   concret   nosaltres   hem  

comparat  el  districte  de  residencia  de  cada  persona  amb  la  marca  de  mòbil  que  tenien.  

-­‐  Variable  categòrica  amb  variable  numèrica.  En  àmbit  nosaltres  hem  comparat  

la  marca  de  mòbil   i   l’edat,  el   tipus  de  tarifa   i   la  despesa  mensual   i   també   la  despesa  

mensual  i  la  companyia  telefònica.  

-­‐  Variable  numèrica  amb  variable  numèrica.  En  aquesta  part  hem  comparat   la  

despesa  mensual  i  l’edat,  les  hores  d’ús  del  mòbil  i  l’edat,  les  hores  d’ús  de  la  tablet  i  

l’edat  i  les  hores  d’ús  del  mòbil  i  les  hores  de  temps  lliure.  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  4  

2.  Variables  categòriques  amb  variables  categòriques  

2.1  Marca  de  mòbil  i  districte  

 

Aquesta   relació   que   hi   ha   entre   les   variables   dels   districtes   de   Barcelona   segons   la  

marca   de  mòbil   ha   sigut  molt   feble.     Podríem   dir   que   no   hi   ha   una   relació   entre   la  

marca  de  mòbil  i  els  districtes.  

 

Si   la   nostre   intenció   era   trobar   que   pels   districtes   més   rics   podíem   trobar   una  

preferència  per  mòbils  de  preus  més  alts  (com  és  el  cas  de  Apple),  hem  observat  que  

no   passa.   Això   demostra   que   les   empreses   de   mòbils   s’adapten   a   les   diferents  

demandes  que  existeixen  en  el  mercat;  es  a  dir,  que   tenen  diferents   tipus  de  mòbils  

segons  les  disposicions  a  pagar  dels  clients  i  les  seves  preferències.      

 

 

 

 

 

 

MARCA DE MÒBIL I DISTRICTEFr

eqüè

ncia

abso

luta

0

6

12

18

24

30

AppleSam

sung

Blackberry Google HTC

Huawei LG Nokia

Altres

8

12

11

66

11

2

3

65

3

11

11

1

13

111

21

2

2

11

21

2

42

11

1

1114

3

224

Sarrià-Sant Gervasi Sants-Montjuïc Sant Martí Sant AndreuNou Barris Les Corts Horta-Guinardó GràciaEixample Ciutat Vella Altres

  5  

3.  Variable  categòrica  amb  numèrica  

3.1  Marca  de  mòbil  i  edat  

En  la  relació  de  les  variables  marques  de  mòbil  i  Edat  hem  pogut  observar  una  sèrie  de  

punts   interesants.  En  primer   lloc,  podem  observar  que   les  marques  que  en  el  primer  

informe  ens  demostrava  que  eren  les  més  utilitzades  per  la  població  (Samsung  i  Apple)  

no  tenen  cap  correlació  amb  edats  determinades.  Es  a  dir,    són  utilitzades  per  totes  les  

edats.   Però   si   agafavem   intervals   d’edat   segons   marques   determinades,   podiem  

observar  certes  coses.    

 

 Per  exemple,  per   la  marca  Apple  podiem  comprovar  que  era  més  atractiva  pels  més  

joves.  Una  dada  que  ho  demostrava  ens  la  donava  el  diagrama  de  caixa,  que  indicava  

que  el  50%  dels  casos  es  trobaven  entre  els  18  i  els  27  anys,  o  fins  i  tot,  que  el  75%  dels  

casos  es   trobaven  entre  14   i  els  27  anys.  Això  pot  demostrar  qui   son  els   clients  més  

importants  per  la  marca  Apple  de  telefons  mobils.  

 

MARCA DE MÒBIL I EDAT

• Apple predomina en les franges de 17 a 30!

• Samsung la trobem al llarg de totes les edats

Freq

üènc

ia ab

solut

a

0

4

8

12

16

Edat

12 15 17 19 21 23 25 27 29 32 37 42 45 48 52 55 62 68 70 72 82

AppleSamsungNokiaBlackberryHuaweiLGGoogleHTCAltres

  6  

 En  el  cas  de  la  marca  Samsung,  no  podíem  observar  una  franja  d’edat  tant  concreta.  La  

separació  entre  el  primer  quartil  i  el  tercer  quartil  (que  ens  indica  on  podem  trobar  un  

50%  de  les  dades)  es  trobaven  en  18  i  en  42  respectivament.  Això  ens  fa  intuir  que  la  

marca  Samsung  en  canvi  no  es  trobava  tant  enfocada  cap  a  una  edat  determinada.  

 

Resums  resistents  

Mínim   18  

Q1   20  

Mediana   24,5  

Q3   46,25  

Màxim   55  

 

 

 

 

 

 

  7  

TIPUS DE TARIFA I DESPESA MENSUAL

40

50

60

70

30

20

10

0

Contracte

Prepag

ament

ContracteQ

uant

itat

09

18273645

0 a 10€ 10 a 20€ 20 a 30€ 30 a 40€ 40 a 50€ 50 a 60€

Prepagament

Qua

ntita

t

09

18273645

0 a 10€ 10 a 20€ 20 a 30€ 30 a 40€ 40 a 50€ 50 a 60€

3.2  Tipus  de  tarifa  i  despesa  mensual  

La   comparació   entre   aquestes   dues   variables   ens   mostra   que   la   gran   majoria   dels  

usuaris   enquestats   prefereixen   les   tarifes   de   contracte   per   davant   de   les   de  

prepagament.   Dintre   d'aquesta  modalitat,   si   volguéssim   afegir   un   producte   o   servei  

nou  en  el  mercat,  caldria  tenir  en  compte  que  una  gran  part  de  la  nostra  mostra  esta  

disposada  a  gastar-­‐se  entre  20  i  30€  al  mes  per  als  seus  serveis  de  telefonia  mòbil.  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  8  

3.3  Despesa  mensual  i  companyia  telefònica  

Una   comparació   interessant   que   vam   considerar   va   ser   la   de   despesa   mensual   en  

relació   amb   la   companyia   telefònica   que   es   tenia   contractada.   Tal   i   com   ja   hem  

mencionat  anteriorment,  es  pot  veure  que  la  majoria  de  contractes  estandarditzats  es  

troben   entre   20€   i   30€   i   així   ho   compleixen   totes   les   companyies   principals   excepte  

Yoigo.   Hi   ha   altres   companyies   alternatives   com   la   Racc   on   els   consumidors   gasten  

molt  menys  degut  als  contractes  més  reduïts.    

 

 

Hem  adjuntat  un  diagrama  de  caixes  on  es  pot  veure  que  la  major  part  dels  valors  de  

les   principals   companyies   es   troben   compresos   en   l’interval   20-­‐30€   i   veiem   que   les  

mitjanes(els  punts  blaus),  són  bastant  semblants.    

 

També  veiem  valors  atípics  en   totes   les   companyies   compresos  entre  50€   fins  a  70€  

així  com  també  valors  atípics  que  representen  mínims  com  en  el  cas  de  la  companyia  

Movistar.  

 

 

  9  

4.  Variables  numèriques  amb  variables  numèriques  

4.1  Despesa  mensual  i  edat  

En   aquest   diagrama  de   dispersió   es   posen   en   relació   dues   variables   numèriques.   En  

l’eix  de   les  Y  tenim  la  despesa  mensual  en    mòbil  mentre  que  en   l’eix  de   les  X  tenim  

l’edat  de  les  persones  enquestades.  

 Podem  veure  que  no  hi  ha  cap  forma  definida  dels  punts.  Així  veiem  com  la  correlació  

és  de  0,09.  Per   tant,  veiem  que  hi  ha  molt  poca   relació  entre   les  dues  variables.  Per  

altra  banda,  veiem  com   l’equació  de   la   recta  de   regressió  és  de  Y=20,56+0,05X.  Així,  

veiem   que   té   una   pendent   positiva   però   molt   feble.     També   veiem   que   l’error   de  

regressió  és  de  19,44,  per  tant,  els  valors  no  s’ajusten  gaire  a  la  tendència  que  mostra  

la  recta  ja  que  és  un  valor  molt  elevat.    

 

La  força  d’aquest  diagrama  és  molt  baixa  ja  que,  per  un  costat,  veiem  que  els  punts  no  

conformen  cap  tendència  ni  forma  i  per  altra,  perquè  la  correlació  està  molt  propera  a  

0(0,09).   Cal   reafirmar   que   R²     ens   indica   que   no   existeix   cap  mena   de   dependència  

entre  edat  i  despesa  ja  que  el  valor  és  de  0,01.    

 

Aquest  fet  té  lògica,  ja  que  no  per  ser  més  gran  s’hauria  de  gastar  més  en  el  consum  de  

tarifes  de  mòbil    ja  que  ,avui  en  dia,  les  tarifes  estan  molt  estandarditzades  i,  per  tant,  

moltes  volten  aproximadament  entre  els  valors  de  20€  i  30€.    

  10  

Hi  ha  alguns  valors  atípics  que  es   troben  en   l’interval  de  50€-­‐60€.  Així,  aquest   fet  es  

podria  explicar  per  la  contractació  d’una  tarifa  específica  per  alguna  feina  concreta  que  

requereixi  cobertura  a  l’estranger  etc...    

 

4.2  Hores  setmanals  d’ús  del  mòbil  i  edat  

En  aquest  cas,   la  variable  dependent  és   la  variable  numèrica  «hores  d'ús  del  mòbil»,  

representada   a   l'eix   de   les   y.   Contràriament,   la   variable   independent   és   la   variable  

categòrica   «edat»,   representada   a   l'eix   de   les   x.   En   aquest   anàlisi,   però,   l'edat   serà  

utilitzada  com  a  variable  numèrica.  

 

Tenim   una  mostra   de   100   dades.   Fent   un   primer   cop   d'ull   als   resultats   obtinguts   a  

l'Odstats   tenim   que   la   mitjana   d'hores   d'ús   del   mòbil   es   troba   en   les   26,02   hores  

setmanals,  mentre  que  la  mitjana  de  la  variable  edat  dels  enquestats  és  de  30,99  anys.  

 

 

  En   aquest   gràfic   de   dispersió,   podem  apreciar   com   la   nostra  mostra   no   té   cap  

forma  definida.  Si  tractem  de  traçar  una  recta  de  regressió,  aquesta  ens  sortirà  de   la  

forma   Y=38,38   –   0,4X.   Té   una   associació   negativa   a   que   els   valors   per   sota   de   la  

mitjana  d'una  de  les  variables  acompanyen  als  valors  per  sobre  de  la  mitjana  de  l'altra  

variable.  

  11  

La  correlació  té  un  valor  de  -­‐0,36;  un  valor  que  també  ens  ajuda  a  veure  que  la  nostra  

disperssió  té  una  associació  negativa.  Pel  que  fa  a  la  força  de  la  nostra  mostra,  podem  

afirmar  que  aquesta  és   feble  per  dos  motius:  el  primer  és  perquè  visualment  podem  

apreciar   com   els   punts   es   troben   bastant   separats   de   la   recta   de   regressió,   i   segon  

perquè  el  valor  -­‐0,36,  que  està  més  proper  de  0  que  de  -­‐1,  ens  indica  aquesta  feblesa.  

 

La   R²   ens   indica   la   dependència   que   existeix   entre   la   variable   x   i   la   y.   En   la   nostra  

mostra  té  un  valor  de  0,13;  un  valor  més  proper  a  0  que  a  1.  Això  ens   indica  que   les  

variables  no  dependen  fortament  una  de   l'altra,  és  a  dir,  que  el  nombre  d'hores  d'ús  

del  mòbil  a   la   setmana  que   realiza   la  nostra  mostra  no  depèn  de   l'edat  dels  usuaris.  

L'error  de  regressió,  amb  un  valor  de  18,35,  és  bastant  elevat.  Això  ens  indica  que  els  

valors  de  la  nostra  mostra  no  s'ajusten  completament  a  la  recta  de  regressió.  

 

Una   part   important   de   l'estudi   és   comprovar   la   influència   dels   valors   atípics.   Tenim  

alguns   quatre   usuaris   que   fan   un   ús   de   80   hores   de   mòbil   setmanals,   i   volem  

comprovar  si  aquests  valors  són  influents  en  la  nostra  mostra.  

 

En  aquest  anàlisi,  trobem  valors  més  allunyats  de  la  recta  de  regressió  que  altres,  però  

si   es   consideren   valors   atípics   s'ha   de   tenir   en   compte   que   la  majoria   d'ells   són   no  

influents,  perquè  en  cas  de  suprimir-­‐los,  el  pendent  de  la  nostra  recta  no  varia.  

 

 

 

 

  12  

4.3  Hores  setmanals  d'ús  de  tablet  o  ordinadors  i  edat  

En  aquest  cas,  la  variable  dependent  és  la  variable  numèrica  «hores  d'ús  de  tablets  o  

ordinadors»,   representada  a   l'eix  de   les   y,  mentre  que   la   variable   independent  és   la  

variable  categòrica  «edat»,  que  l'hem  representada  a  l'eix  de  les  y.  

 

Tenim   una  mostra   de   100   dades.   Fent   un   primer   cop   d'ull   als   resultats   obtinguts   a  

l'Odstats   tenim  que   la  mitjana   d'hores   d'ús   de   la   tablet   o   ordinador   es   troba   en   les  

21,33  hores  setmanals,  mentre  que  la  mitjana  de  la  variable  edat  dels  enquestats  és  de  

30,99  anys.  En  el   següent  gràfic  de  dispersió,  podem  apreciar   com  aquest  no   té  una  

forma  definida.  Podem  veure  com  concentra,  un  major  nombre  de  valors  entre  la  x=13  

i  la  x=28,  però  això  no  ens  indica  una  forma  clara  de  la  mostra,  perquè  tenim  bastants  

valors  que  s'allunyen  de  la  recta  de  regressió.  

 

 

La  correlació  dóna  una  xifra  de  -­‐0.18,  el  que  ens  indica  que  és  feble  perquè  el  valor  es  

troba  molt  proper  a  -­‐1.  La  proximitat  dels  punts  de  la  mostra  a  la  recta  de  regressió  és  

bastant   escassa,   excepte   en   algunes   concentracions   puntuals   de   valors.   Això   també  

ens  ve  a  indicar,  però  aquest  cop  de  manera  visual,  que  l'associació  entre  les  variables  

és  molt  feble.  

 

La  correlació  també  ens  indica  que  l'associació  entre  les  variables  és  negativa,  perquè  

el  valor  és  <  0  i  perquè  ho  podem  apreciar  a  la  recta  de  regressió  representada  en  el  

diagrama  de  dispersió.  La  R²,  que  ens  indica  la  dependència  entre  les  variables  x  i  y,  en  

aquest   cas   és   de   0,03.   Aquest   valor   encara   és   més   baix   que   el   de   les   hores   d'ús  

  13  

setmanal   del   mòbil.   Al   trobar-­‐se   tant   proper   a   0,   ens   indica   que   les   variables   no  

depenen,  per  res,  l'una  de  l'altra,  és  a  dir  que  el  nombre  d'hores  a  la  setmana  que  els  

usuaris  utilitzen  mòbils  o  tablets  no  té  a  veure  amb  la  seva  edat.  

 

L'error  de  regressió,  amb  un  valor  de  13,63,  ens  indica  que  els  valors  de  la  mostra  no  

s'ajusten   completament   a   la   recta   de   regressió.   Si   fem   un   petit   estudi   dels   valors  

atípics   que   ens   apareixen   en   el   nostre   diagrama   de   disperssió,   podrem   aclarir   si  

aquests  són  influents  o  no  en  la  nostra  mostra.  

 Per  exemple,  si  analitzem  els  casos  14  i  54  ens  donarem  compte  que,  si  prescindim  de  

tots  dos  valors,  la  nostra  recta  de  regressió  canvia  molt.  Passa  a  tenir  un  pendent  de  -­‐

0,14  a  un  pendent  de  -­‐0,09.  Això  ens   indica  que  tant  el  valor  14  com  el  valor  54  són  

influents  per  a  la  nostra  mostra.  

 

Si  prescindim  del  valor  51,  ens  donarem  compte  que  també  és  un  valor  atípic  bastant  

influent,  perquè  el  pendent  de  la  nostra  recta  de  regressió  passa  de  -­‐0,14  a  -­‐0,17.  

   

 

 

 

 

 

 

 

  14  

4.4  Hores  d’ús  del  mòbil  i  hores  de  temps  lliure  

Aquest  diagrama  de  dispersió  correspon  a  la  comparació  de  dues  variables  numèriques  

que  són  les  hores  de  mòbil  (en  el  eix  de  las  Y)  i  les  hores  de  temps  lliure  (en  el  eix  de  

las   X).   Podem   apreciar   una   correlació   de   0,27,   el   que   significa   que   és   gairebé  

inexistent.  Pel  que  fa  a  la  recta  de  regressió  és  de  Y=16,6  +  0,23X,  el  que  significa  que  

el  pendent  és  positiu  però  quasi  bé  ni  influeix,  i  l’error  de  regressió  és  de  18,96,  el  que  

representa  que  la  recta  no  s’ajusta  gens  a  les  dades  obtingudes  realment.  

 Això  es  pot  verificar  mirant  la  R²  que  és  de  0,07,  i  per  tant  no  existeix  ningun  tipus  de  

relació   entre   aquestes   variables.   Això   es   pot   explicar   perquè   actualment   el   telèfon  

mòbil  es  pot  utilitzar  en  qualsevol  moment  del  dia  i  no  necessàriament  mentre  algú    té  

temps  lliure,  sinó  que  mentre  es  treballa  també  es  pot  consultar  el  mòbil  amb  llibertat.  

 

Finalment  cal  destacar  que  hi  ha  una  sèrie  de  valors  atípics  que  són  un  ús  del  mòbil  en  

més  de  80  hores  setmanals  però  que  tampoc  tenen  cap  relació  amb   les  hores   lliures  

d’aquestes  persones.  

 

 

 

 

 

  15  

5.  Conclusió  

Després  d’analitzar  tots  els  resultats  obtinguts  creiem  que  en  gairebé  cap  de  les  dades  

analitzades   en   podem   extreure   unes   conclusions   a   partir   de   les   quals   trobem   un  

problema  o  una  necessitat  concreta.  Tot  i  així,  per  tal  de  decidir  quin  producte  o  servei  

podríem  dur  a  terme  hem  decidit  mirar  generalment  tots  els  resultats  i  comprovar  de  

quina  manera  podríem  satisfer  a  la  majoria  de  la  població.  

 

Hem  analitzat  que  la  majoria  de  gent  que  utilitza  el  mòbil  tenen  entre  15  i  30  anys,   i  

aquest  target  en  concret  destaca  per  un  ús  elevat  del  mòbil  però  en  canvi  els  ingressos  

econòmics  són  més  reduïts  i  això  es  veu  reflectit  per  en  la  despesa  mensual  (entre  20  i  

30€)   probablement   degut   a   que   la   majoria   d’aquesta   gent   són   estudiants   i   el   seu  

capital   econòmic   és   inferior   respecte   a   gent   que   treballi.   A   partir   d’aquestes   dades  

podem  determinar  que  probablement  aquesta  gent  necessitaria  una  tarifa  econòmica  

més  acord  a  les  seves  necessitats  i  per  aquest  motiu  creiem  que  un  bon  producte  seria  

oferir   una   tarifa   destinada   a   estudiants,   amb   un   preu   reduït   d’aproximadament   uns  

20€   i  amb  unes  característiques  concretes  com  5Gb  de   internet,  trucades   i  missatges  

il·∙limitats.  Tot  això  seria  possible  degut  a  que  el  cost  marginal  de  qualsevol  companyia  

per  afegir  un  més  internet  o  més  trucades  a  qualsevol  client  és  gairebé  nul.  

 

 

               

  16