Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de...

21
Boletín da SGAPEIO. Novembro de 2017. Número 47 Editorial Esther López Vizcaíno – Presidenta da SGAPEIO. Colaboración Software Actividades da SGAPEIO Novas do IGE Traballos de Estatística e IO Coñecéndonos Estatística recreativa Dirección: Paula Raña Míguez Comunicación coa SGAPEIO: www.sgapeio.es [email protected] [email protected] Twitter @sgapeio LinkedIn Sgapeio Depósito Legal: LU-191-1995 - I.S.S.N.:1695-7083 Estimados socios e socias, Neste editorial toca a despedida de seis compañeiras e un compañeiro que durante os últimos catro anos formaron parte do Consello Executivo (CE) da SGAPEIO. Tamén é hora de dar a benvida aos novos membros que se integraron en novembro de 2017. Como presidenta da SGAPEIO no período 2014-2017, só me vén á cabeza unha palabra: agradecemento. Agradezo o traballo de todos os membros do CE deste último periodo, que estiveron achegando ideas e traballando para levar a cabo todas as actividades que a SGAPEIO propuxo. Así que, dende aquí, moitas grazas pola vosa constante colaboración! Como en toda despedida, toca facer balance daquilo que se fixo, pero tamén, e moi importante, daquilo que, dende o meu punto de vista, queda por facer e que considero interesante para o futuro da nosa sociedade. Considero que nos últimos anos se fixo un importante esforzo para que os profesores de ESO/Bacharelato volvesen confiar na SGAPEIO e nas súas actividades. Existen datos concretos que o avalan, como pode ser a participación nos Concursos da Incubadora de Sondaxes e Experimentos e a asistencia ás distintas Xornadas de formación que se organizaron en colaboración con AGAPEMA. Estas son dúas actividades que se consolidaron nestes últimos anos e penso que deberían seguir manténdose no futuro. Outro feito que merece a pena destacar é a colaboración, que parece xa consolidada, da SGAPEIO coa Sociedade Portuguesa de Estatística (SPE). Celebráronse tres Encontros de Biometría en colaboración coa SPE, o último deles en Santiago de Compostela no ano 2016 e agora estase a organizar un novo que terá lugar en Aveiro no ano 2018. Ademais, está en marcha a iniciativa de firmar un convenio de colaboración coa SPE, que formalice, entre outros aspectos, as actividades que realizamos conxuntamente. Os tempos de cambio e a sociedade dixital na que estamos inmersos fixo, tamén, que a SGAPEIO incrementase a súa presenza nas redes, e así agora estamos en Twitter e Linkedin e temos o boletín dixital INFORMEST, que publicamos trimestralmente. Animamos a todos os socios e socias a seguir participando nas redes sociais e a achegar colaboracións para o noso boletín. Aproveitando que neste ano cumprimos 25 anos e que xa cumpría unha actualización, fixemos unha renovación do noso logotipo e da imaxe institucional. Trátase dunha nova imaxe e dun novo logo moderno e adaptado aos tempos que corren, aínda que conservando as nosas marcas de identidade como sociedade: e as mesmas cores. A pesar de todas estas actividades que se fixeron, notamos un certo estancamento nas incorporacións de xente nova, dato que nos provoca certo grao de preocupación. Considero fundamental revitalizar a participación da xente nova na Sociedade. Tamén penso que a SGAPEIO debería ser quen de manter unha oferta anual de un ou dous cursos nos que os seus socios e socias estivesen interesados e, tamén, aumentar as relacións co mundo empresarial. Como se pode observar existen aínda cousas por desenvolver nos vindeiros anos e, de seguro, que estímulos e ganas para levalos a bo porto non han faltar. Doulles a benvida aos compañeiros que formarán o novo CE, que, como xa saben, teñen a colaboración de todos nós para que a SGAPEIO siga sendo un punto de referencia na divulgación e na promoción da Estatística e a Investigación Operativa. 1| Informest

Transcript of Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de...

Page 1: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Boletín da SGAPEIO. Novembro de 2017. Número 47

Editorial

Esther López Vizcaíno – Presidenta da SGAPEIO.

Colaboración

Software

Actividades da SGAPEIO

Novas do IGE

Traballos de Estatística e IO

Coñecéndonos

Estatística recreativa

Dirección:

Paula Raña Míguez

Comunicación coa

SGAPEIO:

[email protected]@sgapeio.esTwitter @sgapeioLinkedIn Sgapeio

Depósito Legal:

LU-191-1995 - I.S.S.N.:1695-7083

Estimados socios e socias,

Neste editorial toca a despedida de seis compañeiras e un compañeiro que durante osúltimos catro anos formaron parte do Consello Executivo (CE) da SGAPEIO. Taméné hora de dar a benvida aos novos membros que se integraron en novembro de 2017.Como presidenta da SGAPEIO no período 2014-2017, só me vén á cabeza unha palabra:agradecemento. Agradezo o traballo de todos os membros do CE deste último periodo,que estiveron achegando ideas e traballando para levar a cabo todas as actividades que aSGAPEIO propuxo. Así que, dende aquí, moitas grazas pola vosa constante colaboración!Como en toda despedida, toca facer balance daquilo que se fixo, pero tamén, e moiimportante, daquilo que, dende o meu punto de vista, queda por facer e que considerointeresante para o futuro da nosa sociedade. Considero que nos últimos anos se fixoun importante esforzo para que os profesores de ESO/Bacharelato volvesen confiar naSGAPEIO e nas súas actividades. Existen datos concretos que o avalan, como pode sera participación nos Concursos da Incubadora de Sondaxes e Experimentos e a asistenciaás distintas Xornadas de formación que se organizaron en colaboración con AGAPEMA.Estas son dúas actividades que se consolidaron nestes últimos anos e penso que deberíanseguir manténdose no futuro.

Outro feito que merece a pena destacar é a colaboración, que parece xa consolidada, daSGAPEIO coa Sociedade Portuguesa de Estatística (SPE). Celebráronse tres Encontrosde Biometría en colaboración coa SPE, o último deles en Santiago de Compostela noano 2016 e agora estase a organizar un novo que terá lugar en Aveiro no ano 2018.Ademais, está en marcha a iniciativa de firmar un convenio de colaboración coa SPE,que formalice, entre outros aspectos, as actividades que realizamos conxuntamente.

Os tempos de cambio e a sociedade dixital na que estamos inmersos fixo, tamén, quea SGAPEIO incrementase a súa presenza nas redes, e así agora estamos en Twittere Linkedin e temos o boletín dixital INFORMEST, que publicamos trimestralmente.Animamos a todos os socios e socias a seguir participando nas redes sociais e a achegarcolaboracións para o noso boletín.

Aproveitando que neste ano cumprimos 25 anos e que xa cumpría unha actualización,fixemos unha renovación do noso logotipo e da imaxe institucional. Trátase dunhanova imaxe e dun novo logo moderno e adaptado aos tempos que corren, aínda queconservando as nosas marcas de identidade como sociedade: ♯ e as mesmas cores.

A pesar de todas estas actividades que se fixeron, notamos un certo estancamentonas incorporacións de xente nova, dato que nos provoca certo grao de preocupación.Considero fundamental revitalizar a participación da xente nova na Sociedade. Taménpenso que a SGAPEIO debería ser quen de manter unha oferta anual de un ou douscursos nos que os seus socios e socias estivesen interesados e, tamén, aumentar asrelacións co mundo empresarial.

Como se pode observar existen aínda cousas por desenvolver nos vindeiros anos e, deseguro, que estímulos e ganas para levalos a bo porto non han faltar. Doulles a benvidaaos compañeiros que formarán o novo CE, que, como xa saben, teñen a colaboración detodos nós para que a SGAPEIO siga sendo un punto de referencia na divulgación e napromoción da Estatística e a Investigación Operativa.

1| Informest

Page 2: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Colaboración

Estatística no cinepor José María Sorando Muzás

José María Sorando é Catedrático de Matemáti-cas de Educación Secundaria. Ademais da docen-cia, adícase á didáctica e divulgación das Matemá-ticas. Autor de máis de 85 publicacións, 6 exposi-cións, máis dun cento de conferencias en congresose diferentes cursos e autor da web “Matemáticasen tu mundo”. Gañador, entre outros, do PremioSantillana de Experiencias docentes 2010.

A presenza das matemáticas no cine e nos seriais de te-levisión é desigual no tocante aos contidos. Adoita tra-tarse de simples cálculos aritméticos, sendo frecuentesos erros, como na vida mesma. Cando se quere mostraro talento do protagonista, a miúdo soe ser presentadocomo unha “calculadora humana”, identificando de for-ma equívoca o pensamento matemático co cálculo men-tal. Para outros propósitos fóra do común recórrese aosnúmeros primos, á serie de Fibonacci ou ao número π,talvez por seren os conceptos matemáticos máis sofis-ticados ao alcance do cidadán medio; pode tratarse declaves esotéricas e incluso como medio de comunicaciónextraterrestre. O cálculo de probabilidades é citado en si-tuacións de risco. Hai pouca xeometría, case sempre enpizarras escolares. O cálculo diferencial, tamén en piza-rras, pero agora de científicos, como elemento exclusivodunha elite intelectual. E a estatística no cine? Vexamos.

Onde menos se conta, salta a lebre

De forma inesperada, no serial infantil Bob Esponxa en-contramos unha alusión aos tests de hipóteses. No epi-sodio Patricio intelixente (8o – tempada 4. 2005) BobEsponxa e Patricio, xogan nos campos de medusas, atéque Patricio cae por un acantilado. Bob Esponxa baixacorrendo, atopa a cabeza que se desprendeu do corpo doseu amigo e vólvella a colocar. Algo se activa no cerebrodo simple Patricio, facendo que se volva intelixente e faledunha forma descoñecida nel.

− Veña Patricio, fagamos algo divertido!

− ¡Oh! Que che parece se preparamos unhas estatís-ticas acerca da observación dos fenómenos e ex-presamos hipóteses sobre eles?

− Estaba pensando máis en saltar á corda, carreirascunha soa perna ou xogar ao agáchate, agácha-te!. . .

Sirva este anecdótico fragmento para constatar un tó-pico e prexuízo moi común: as matemáticas como algoaburrido, que só lle pode interesar a alguén moi listo,

o que o fai estraño perante os demais. É tarefa de do-centes e divulgadores espertar nos nosos concidadáns esadurmida “ollada matemática” que descubra como as ma-temáticas están na vida cotiá; como poden axudarnos acomprender mellor a realidade e a tomar decisións ade-cuadas; como, en definitiva, son necesarias para todos.A estatística debería ocupar un lugar de privilexio ne-se descubrimento, por ser a parte das matemáticas quetraballa de forma máis directa con esa realidade.

Bromas e confusións

Hai no cine máis citas estatísticas espurias, buscando ohumor ou como reflexo dunha ignorancia.

Broméase coa media aritmética en Los Simpson. No epi-sodio Jacques, El Rompecorazones (no 9 – tempada 1.1990), Marge vai xogar aos birlos. Para xogar debe poñero calzado axeitado. O encargado pregúntalle:

− Que número calza, por favor?

− O 43.

− 43? –di o encargado, que non encontra zapatos donúmero solicitado–. Apañarase cun 44 e un 42?

En La última noche (Spike Lee. 2002), sorpresivamentefálase de percentís:

− Sabes que? Estás no percentil 62, aí é onde estás.

− E iso que?

− O percentil 62? É a túa clasificación. Todos ossolteiros de Nova York competimos polas mesmasmulleres, os heteros, claro.

− E eu estou no percentil 62? Son mellor que o 62 %dos solteiros de Nova York? Pero peor que o 38 %?

− Que o 37, non existe o 100.

− E como calculaches o 62?

− Entendelo é toda unha ciencia.

Informest | 2

Page 3: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Colaboración

− Entendelo ten algo de ciencia? Ben, parece moicientífico. . . dime, cal é a túa clasificación?

− Queres sabelo? Estou xusto no percentil 99.

Tamén cre saber estatística Jean de Florette, un notarioconvertido en agricultor, protagonista de El manantialde las colinas (Claude Berry. 1986):

Jean: Non temos, propiamente dita, unha estación dechoivas. Segundo as estatísticas dos últimos 50anos establecidas polo Observatorio de Marsella:abril, 5 días de choiva; maio, 6 días; xuño, 4 días;xullo, 2 días; agosto, 3 e setembro, 6. . . de media.

Chega unha longa seca e Jean novamente dialoga sobreo tema:

Jean: Creo que esta noite pode chover.

Ugolin: Por que? Nótao na súa reuma?

Jean: Non, afortunadamente non teño reuma, pero oceo, que nos tiña que ter dado 6 días de choivaen maio, só nos deu 3. Desde primeiros de xuñotiña que ter chovido 2 veces. Débenos, polo tanto,5 días de choiva. E esa débeda na contabilidadeceleste, ten que ser pagada nas próximas 48 horas.

Despois, as choivas seguen sen chegar e berra exaltado:

Jean: Pero onde se viu unha seca ininterrompida de 36días?. . . Aquí é matematicamente imposible!

En El Apartamento (Billy Wilder. 1960), o seguinte diá-logo ofrécenos unha das típicas chanzas a propósito damedia:

− Estiven lendo unha estatística sobre accidentes eenfermidades. O cidadán neoiorquino entre os 20e os 50 ten dous arrefriados e medio por ano.

− Que gran responsabilidade a miña!

− Por que?

− Porque como eu non me arrefrío, para que non fa-llen as estatísticas outro infeliz ten que ter cincoarrefriados.

En serio e en broma, a mesma confusión: considerar ainformación estatística como leis deterministas de obri-gado cumprimento, a curto prazo e pequena escala. Arealidade non está lonxe. Abonda escoitar declaraciónspúblicas e conversas privadas.

Citas con fundamento

Pero tamén hai producións, moi poucas, que introducena estatística nas súas tramas, de forma correcta e consentido. En teleseries, con amplísima vantaxe, destacaNumb3rs. Nos 119 episodios das súas seis tempadas(2005-2010) pode haber tantas matemáticas ou máisque no resto da ficción televisiva e, desde logo, máissolventes. Charlie, o protagonista matemático, axúdalleao seu irmán, axente do FBI, na resolución de casoscriminais. Recibe datos de cada caso. Para a súa inter-pretación a miúdo recorre ao estudo estatístico e soeconcluír facendo predicións en termos de probabilidade.Vémoslle utilizar, por exemplo: a regresión á media, aminería de datos, a curiosa Lei de Benford, a análise es-tatística lingüística, etc. A única obxección, desde o nosopunto de vista, é que eses recursos matemáticos, aíndaque pertinentes en cada caso, son moi pouco explicadose talvez o telespectador medio os vexa novamente comofórmulas máxicas dun tipo estraño.

No cine, tan só coñezo dous títulos estimables: Money-ball e Ciudad Mágica.

Estatística descritiva

Moneyball: Rompiendo las reglas (Bernett Miller. 2011)conta a historia real de Billy Beane, manager dos Ath-letics de Oakland, os “A´s”, un equipo de béisbol mo-desto. Beane rebélase contra a desigualdade económicaque contamina a competición deportiva. Coñece a PeterBrand, un economista que desenvolveu un minuciosométodo para a análise de xogadores.

Os clásicos observadores do béisbol recomendan fichaxesen función do estilo ou calidade individual, pero taméndo palmarés e da imaxe, con termos tan subxectivos co-mo “virtuosismo”, “ter boa estrela” ou “estar de sorte”.Brand obvia eses aspectos persoais para, no canto deles,cuantificar a aportación de cada xogador ao seu equipo,elaborando un número índice que ten en conta todas assúas estatísticas de pasadas temporadas. Propón “noncomprar xogadores, senón vitorias”. Para el, cada xoga-dor vale “non o seu prezo no mercado, senón a súa apor-tación ao xogo”. E aínda engade: “Valóranse aparenciase prexuízos. As matemáticas están por riba de todo iso”.

3| Informest

Page 4: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Colaboración

Beane aplica os criterios de Brand, para escándalo xerale elabora un padrón repleto de xogadores infravaloradossegundo o índice de Brand, descartados por outros equi-pos. Como di, “un corral de patiños feos”. Na temporada2002 os “A´s” encadean unha xeira de 20 vitorias conse-cutivas, batendo o récord histórico, e chega aos play-offspolo título. Conseguirano dous anos máis tarde.

Entre os eloxios recibidos por esta película escoitei:“Moneyball ten o mérito de ser unha película sobre omenos cinematográfico, sobre estatísticas” (Cadea Ser04-02-12). Quen así se expresou non apreciaba o fondoépico da historia: o intento de vencerlle ao diñeiro apli-cando a intelixencia. Nesta nova versión do combate deDavid contra Goliat, as armas do débil son matemáticas.

E non obstante, a estatística xa estaba presente nobéisbol de forma más exhaustiva que en ningún outrodeporte, con rexistros completos temporada a tempo-rada. O béisbol préstase especialmente a isto dadas assúas especiais características. Cada xogador cumpre un-ha función moi específica no seu posto e non cabe aversatilidade doutros deportes de equipo onde os xoga-dores se dispersan polo terreo e poden cumprir funciónsvarias. O novo era pasar de considerar a calidade indivi-dual a valorar o potencial de eficiencia no equipo.

Esas técnicas reciben o nome de sabermetría. Toma oseu nome da SABR ou Sociedade para a Investigacióndo Béisbol Americano e cítase tamén en Numb3rs e enLos Simpson, onde vemos a Lisa, adestradora de béisbol,rodeada de libros de estatística.

Hoxe en día, co big data e a aplicación de modelos ma-temáticos, xa é usual falar no deporte de planificaciónde índices de eficiencia e de optimización de recursos.

Estatística inferencial

A trama de Ciudad Mágica (William A. Wellman. 1947)xira arredor da representatividade das mostras.

Rip Smith dirixe unha empresa que se dedica aos sondeosde opinión. Ao bordo da bancarrota, descobre casualmen-te que os resultados que se obteñen na pequena cidadede Grandview son unha réplica exacta dos obtidos paratodos os Estados Unidos. É o que repetidamente chamao “milagre matemático”, a salvación para a súa empresa,que lle permitirá ofrecer resultados válidos cun custo erapidez moi vantaxosos fronte á competencia. Rip planeatrasladarse cos seus colaboradores a Grandview e esta-blecerse baixo unha falsa identidade de vendedores deseguros, para así conseguir información de forma perma-nente sen que os veciños sospeiten cal é a súa finalidade.

Rip intégrase rapidamente na vida da cidade, chegandoa ser moi apreciado e namórase dunha xornalista. Estadescobre o propósito de Rip e publícao no diario local.A nova corre por todo o país e Grandview pasa a sercoñecida como a cidade modelo da nación. Nada volveráser o mesmo. A cobiza duns e outros traerán o rápidoascenso e a estrepitosa caída da cidade. Como non podíafaltar nun filme de Hollywood en posguerra, hai un finalde esperanza. É esta “unha película das de antes”: enbranco e negro, onde os personaxes son elegantes e cor-teses, a honradez triunfa e o amor redime. Na películadise que en Grandview as porcentaxes de homes e mulle-res, de brancos e negros, de republicanos e demócratas,etc. son réplicas exactas das que se dan para o conxuntoda nación. Desta forma xustifícase aceptablemente a súafiel representatividade como mostra.

Cando a cámara se detén na relación de datos podemoscomprobar que as porcentaxes que atenden a cada crite-rio suman 100 (que menos!. . . anque no cine non semprese coidan eses detalles numéricos). Os cálculos son rea-lizados á man, sobre un gran cuadrante, por un contableá vella usanza, con manguitos e viseira. Pensemos queen 1947 aínda faltaban algúns anos para a extensióndas calculadoras mecánicas de oficina e 25 anos para ascalculadoras electrónicas de peto.

As predicións da película obtéñense como porcentaxesfixas (estimadores puntuais) e non mediante intervalosde confianza, como é habitual nos estudos demoscópicos.

Por último, exponse como a consciencia de estar sendoobservados, nese caso cunha presión mediática excesiva,altera o comportamento dos cidadáns de Grandview e o“milagre matemático” comeza a fallar.

Usos e abusos políticos

Moitas situacións dramáticas que reflicte o cine partende conflitos e dilemas éticos. Algúns deles teñen que vercoa utilización das estatísticas polo poder e a súa re-percusión social. Unha das máis vulgares manipulaciónsprodúcese cando o cuestionario é indutor das respostas.Na serie da BBC Yes, Prime Minister (1986-1987) dia-logan así dous asesores do primeiro ministro:

Informest | 4

Page 5: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Colaboración

− O Partido realizou unha enquisa e vese que os vo-tantes están a favor de restablecer o Servizo Mili-tar.

− Temos outra enquisa que demostra que os votan-tes están en contra do Servizo.

− Non poden estar a favor e en contra.

− Claro que si, é que non che fixeron nunca enqui-sas?

− Si, pero non unha enquisa política. Non saberíaque contestar.

− Ti xa sabes como funciona iso. Visítate unha se-ñorita moi guapa e queres quedar ben, non queresfacer o ridículo.

− Non.

− E comeza a facerche preguntas: Preocúpalle o grannúmero de mozos que están sen traballo?

− Si.

− E preocúpalle tamén o aumento da delincuenciaxuvenil?

− Si.

− Parécelle que falta disciplina nas escolas públicas?

− Si.

− Pensa que os mozos aceptarían un maior nivel deliderazgo e de autoridade? Que son capaces deaceptar un reto?

− Si.

− Estaría a favor de restablecer o Servizo Militar?

− Si.

− Está claro que si, despois do que me dixeches nonpodes contestar que non. Eles non publican as pri-meiras preguntas e só mencionan a derradeira.

− É iso o que fan realmente?

− Home, os que son honrados talvez non, pero nonhai moitos deses. E a señorita tería conseguido oresultado oposto se tivese querido.

− Como?

− Preocúpalle o perigo dunha guerra?

− Si.

− Preocúpalle a carreira de armamentos?

− Si.

− Atopa perigoso darlles armas aos mozos e apren-derlles a matar?

− Si.

− Parécelle mal obrigarlle á xente a usar armas seeles non queren?

− Si.

− Vostede oporíase ao restablecemento do ServizoMilitar?

− Si.

− Velaí, é así como se encargan as enquisas para oMinisterio de Defensa.

O anterior diálogo sería xocoso se non fose polo seuparecido coas enquisas que realizan algúns medios decomunicación politicamente belixerantes entre os seuspropios lectores (neste caso engádese a falta de re-presentatividade da mostra), concluíndo cunha alegrexeneralización dos resultados.

Menos evidente, pero por isto máis efectiva, é a argu-cia política de actuar preferentemente sobre os aspectosque máis inflúen nas estatísticas oficiais, en detrimen-to doutros talvez máis importantes. Na aclamada serieThe Wire (2002-2008), as autoridades locais de Balti-more necesitan estatísticas que reflictan unha reduciónda delincuencia nas rúas. Tamén necesitan estatísticasque reflictan melloras nos resultados das probas estataisrealizadas nas escolas públicas e no absentismo escolar.Unhas e outras serán argumentos ao seu favor na próxi-ma campaña electoral.

As autoridades policiais e escolares tamén necesitan esasmelloras estatísticas, por imperativo dos seus superiorespolíticos e por conveniencia: para seguir a súa carreirapersoal no corpo, nun caso, e para asegurar a subvenciónescolar, noutro.

Eses intereses comúns levan a que se emitan ordes per-versas, tanto no mundo escolar como no policial. Naescola, as clases dedícanse a que os alumnos memoricenas preguntas e respostas do exame, unha vez aseguradoque serán as mesmas do ano anterior; e son utilizadosconserxes para recoller nas rúas aos alumnos absentistase levalos á clase só até que se teña alcanzado a datade cómputo de ausencias, a partir da cal se lles permiteausentarse para que non molesten. Na policía, interróm-pense investigacións de longo percorrido que levaríanaté os narcos xefes para dedicarse ás redadas cos peque-nos traficantes e así aumentar o número de detencións.Incluso se retrasa o descubrimento dun bo número decadáveres, vítimas dos narcos, ao feito de que computencomo asasinatos no mandato dun alcalde ou outro.

As estatísticas reflicten a realidade para permitirnos,coñecéndoa, actuar sobre ela. En The Wire, é sobre asestatísticas que se actúa, con desprezo da realidade quese vive e da ética. Os números son neutrais, pero o usoque deles se fai non o é. Por iso, a formación estatísticae lóxica na etapa de educación obrigatoria é unha nece-sidade imprescindible para o libre exercicio da cidadanía.Cando se carece desa formación, como escribira DarrellHuff: “a maxia dos números anula o sentido común”.

Unha vez máis, paradoxicamente, o cine é unha grandeficción que nos permite reflexionar sobre a realidade.

5| Informest

Page 6: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Software

Xornadas de RMa José Ginzo Villamayor

IV Xornada de Usuarios de R en Galicia

O día 19 de outubro, tivo lugar na facultade deMatemáticas da Universidade de Santiago de Compostela(USC) a IV Xornada de Usuarios de R en Galicia. Estivoorganizada pola Oficina de Software Libre do CIXUG, epatrocinada pola AMTEGA (Xunta de Galicia). Co ob-xectivo de promocionar e difundir o coñecemento libre dalinguaxe estatística R e mostrar as súas aplicacións, le-váronse a cabo relatorios durante todo o día e mais doustalleres. A xornada pretende ser un punto de encontropara todas aquelas persoas interesadas en intercambiaras súas experiencias e atopar colaboracións do resto dacomunidade. Pódese dicir que esta IV Xornada, é comose fose a V, xa que nos anos 2013 e 2015, celebráronsea I e II Xornada de Usuarios de R en Galicia e no ano2014, organizáronse as VI Jornadas de usuarios de R (anivel nacional).

O comité organizador estivo formado por Roberto Mar-tín Souto coordinador da Oficina de Software Libre doCIXUG (consorcio das tres Universidades Galegas), Ra-fael Rodríguez Gayoso, Concello de Santiago de Com-postela e Ma José Ginzo Villamayor do Departamentode Estatística, Análise Matemática e Optimización daUSC. O comité científico estivo constituído por Ma Jo-sé Ginzo Villamayor e Miguel Ángel Rodríguez Muíños(da Dirección Xeral de Saúde Pública da Consellería deSanidade). A mesa de apertura estivo formada por Ma

Elena Vázquen Cendón (Decana da Facultade de Mate-máticas - USC), Rosa Ma Crujeiras Casais (Vicerreitorade Comunicación e Coordinación da USC), Miguel ÁngelRodríguez Muíños e Roberto Martín Souto.

O programa da Xornada contou con doce relatorios se-guido por dous talleres paralelos.

“Utilización do software R na unión de rexistrosadministrativos” impartida por Noa Veiguela Fer-nández do Instituto Galego de Estatística (IGE).

A finalidade desta charla é presentar o procede-mento do que se serve o IGE para lograr a unióndos rexistros administrativos cando non podencontar co DNI da persoa. Neses casos empreganvariables comúns en dous rexistros, coma o nomee apelidos da persoa, o seu sexo, data de nace-mento e concello de residencia, que soen figuraren case todas as bases de datos que se manexanno IGE. Para tratar de casar variables, que podendiferir para unha mesma persoa dun rexistro a ou-tro, empregáronse as librarías stringdist e fuzzyjoindo software libre de programación R.

“Cálculo da adxudicación dos premios de fin decarreira (2017)” impartida por Marcos FernándezArias, Pablo Espido Noya (coautor), ambos da

Xunta de Galicia.

Mostrouse brevemente como se programa e calcu-la mediante R a adxudicación dos premios fin decarreira universitarios da Comunidade Autónomade Galicia.

“Xeración de música determinista con R” impar-tida por Miguel Ángel Rodríguez Muiños (Conse-llería de Sanidade), Alejandro Rodríguez Antolín(coautor).

Explicación do proxecto DETMUS e comentario deaspectos técnicos de programación con R e as súasutilidades fóra dos “usos tradicionais” do mencio-nado software.

“Novo entorno para Big Data con R: sparklyr” im-partida por Aurora Baluja González do Comple-jo Hospitalario Universitario de Santiago (CHUS),Javier López Cacheiro (coautor) do Centro de Su-percomputación de Galicia (CESGA).

A tecnoloxía que permite a lectura e escritura demacrodatos (“Big Data”) experimentou un espec-tacular avance nos últimos anos, coa aparición deplataformas open source. O paquete sparklyr,lanzado en 2016 por RStudio, permite unha co-municación directa coa API de Spark para “data-frames”, empregando a sintaxe de R.

“R en paralelo e HPC” impartida por Diego Mai-rena Díaz do Cesga, Andrés Gómez (coautor -CESGA), Aurelio Rodríguez (coautor - CESGA),Santiago Cerviño (coautor - Instituto Español deOceanografía), Javier López Cacheiro (coautor -CESGA).

O emprego de R en paralelo permite unha reduciónconsiderable do tempo de execución da maioría dosprogramas. Se combinamos isto cos recursos duncentro HPC, podemos obter un gran rendemento,tanto na execución de scripts propios, como noemprego de certas aplicacións que fan uso de R.

“R como pedra angular de proxectos de DataScience” impartida por Daniel Prieto Rodríguez(Minsait by Indra).

Os proxectos de Data Science divídense en variasfases que van desde os estadíos iniciais de deseñoda modelización ata a posta en produción. Nesterelatorio mostraron como R convive co resto de ele-mentos do ecosistema deste tipo de proxectos encada unha das fases. Noutras palabras, amosouseunha pequena aproximación ao uso aplicado de Rdentro do ecosistema de ferramentas, na realidadeempresarial dunha industria de distribución.

Informest | 6

Page 7: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Software

“Predición de Series Temporais en Datasets Mul-tidimensionais de Situacións de Negocio MedianteParalelización Agradable en R Server” impartidapor Antonio Soto Rodríguez de SolidQ.

Aplicación de distintos modelos preditivos de se-ries temporais para predicir a un horizonte finitoun determinado valor facendo n-particións incone-xas altamente paralelizables do conxunto de datosdispoñible co uso de R Server, e xerando unha se-rie temporal única para cada partición. Especifica-mente predise o número de recollidas de usuariosde taxi na cidade de Nova York, por orixe, destino,tipo de pago, duración do traxecto e outras dimen-sións, pero o problema é facilmente trasladado aoutras situacións de negocio.

“Análise da incidencia da leucemia granulocíticaempregando a estimación non paramétrica de con-xuntos de nivel” impartida por Paula SaavedraNieves da Universidade de Vigo (UVigo).

Un problema fundamental en epidemioloxía é de-terminar se as zonas nas que se concentran os ca-sos dunha enfermidade se corresponden coas re-xións máis poboadas ou, polo contrario, existenáreas de risco nas que a súa incidencia é maior.A estimación non paramétrica de conxuntos de ni-vel é unha ferramenta estatística útil para abordareste tipo de cuestións. A partir dun conxunto dedatos reais, analizaron a incidencia da leucemiagranulocítica en Lancashire e Greater Manchesterestimando conxuntos de nivel con R.

“RStudio como ferramenta para desenvolvemen-to de material docente interactivo e multimedia”impartida por Alejandro Quintela del Río da Uni-versidade da Coruña (UDC).

Ademais de servir para a realización de progra-mas e material científico reproducible, mostrara-se a versatilidade de Rstudio para a creación dematerial docente (clases e apuntamentos). Nelespoden incluírse elementos multimedia (vídeos, ani-macións, táboas e gráficos interactivos), códigohtml, código latex, e facilitar o proceso de aprendi-zaxe creando titoriais e preguntas. Ao poder con-verterse directamente nunha páxina web, os apun-tamentos serán accesibles a través de internet aosalumnos, ademais de poder publicarse en pdf ouword.

“Debuxando curvas ROC en R” impartida por ArísFanjul Hevia (USC).

O obxectivo desta charla foi explicar brevementeque librarías existen para tratar as curvas ROC e

cales son as súas principais funcións. Falouse dosdistintos métodos que hai para estimar estas cur-vas, como atopar os puntos de corte óptimos paraa toma de decisións, como calcular rexións de con-fianza e como comparar dúas ou máis destas cur-vas. Ademais, expuxéronse problemas con datosreais como exemplo de aplicación destas técnicas.

“A ecoloxía na súa revolución da cantidade masivade datos” impartida por Miguel Branco (UVigo).

Os estudos de biodiversidade a escala global e oscambios nas guías editoriais e planos gobernamen-tais, que obrigan á publicación de datos, xeraron naúltima década grandes fontes de información liga-da á ecoloxía. Para o seu aproveitamento, creáron-se librarías en R que cobren tanto os pasos de ob-tención, integración e meta-análise dos datos co-mo a súa publicación. Así, librarías como “taxize” e“phyloseq” permiten a obtención de censos de or-ganismos; outras, como “rfigshare”, a publicaciónde estudos de campo e outras, como “aRxiv”, apublicación de artigos, froito dos estudos.

“Web Scraping” impartida por José Luis JuncalPérez.

Extracción de datos a un ficheiro CSV, con forma-to definido polo cliente, de diversas webs abertasao público.

Para rematar houbo dous talleres, un, para aqueles quese inician con R e o outro, para usuarios máis avanzados:“Taller práctico e básico de R” impartido por Arís Fan-jula Hevia, Ma José Ginzo Villamayor (coautor) ambasda USC e o “Taller Web Scraping” impartido por JoséLuis Juncal Pérez. Os talleres, ademais de actividadesda xornada, enmárcanse dentro das actividades da Aulade Matemáticas da Facultade de Matemáticas, coa quecolabora estreitamente a CIXUG.

Pódese dicir que a Xornada acadou unha alta participa-ción, con 102 persoas inscritas, así mesmo, os talleres deR e Web Scraping, de case 2 horas de duración, contaroncon 39 e 29 asistentes, respectivamente.

Quero rematar agradecendo, no nome do Comité Or-ganizador e Científico, a colaboración de todas as per-soas (poñentes, moderadores, asistentes á xornada, twi-teros . . . ) que fixeron posible esta IV Xornada, e as con-tribucións dos patrocinadores e colaboradores. Grazas ta-mén á OSL pola iniciativa de organizala.

Información Adicional

Para máis información sobre a IV Xornada de Usuarios de R en Galicia véxase a páxina web: https://www.r-users.gal/, onde se

poderán atopar as presentacións e vídeos da xornada.

7| Informest

Page 8: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Actividades da SGAPEIO

Actividades da SGAPEIO

XIII Congreso Galego de Estatística e Investigación Operativa.Ferrol, 26-28 de outubro de 2017.

por Salvador Naya e Javier Tarrío

Durante o 26, 27 e 28 celebrouse no Campus de Esteirode Ferrol o XIII congreso da Sociedade, cun total de 110asistentes de diferentes países como A República Domi-nicana, Ecuador, Colombia ou USA, e doutras comuni-dades como a andaluza, País Vasco, Asturias, Castela ouValencia.

O congreso, organizado polo Departamento de Mate-máticas da Universidade de A Coruña, por encargo daSGAPEIO, contou co apoio de diferentes grupos deinvestigación e outras entidades, como os grupos deinvestigación MODES e CITIC da Universidade de ACoruña, o Concello de Ferrol, a Deputación de A Coruñae de empresas de Ferrolterra como Navantia, CándidoHermida e Intaf. Ademais do grande apoio recibido polaArmada para as visitas culturais á Exponav, ao Arsenalde Ferrol e a unha das fragatas F100.

No contexto científico o congreso tivo un total de catroconferencias plenarias completadas con sesións de co-municacións orais e pósteres e cunha mesa sobre controldimensional. Ademais, tamén se ofreceu a posibilidadede facer dous cursos. O primeiro, sobre “R markdown”impartido por Manuel Oviedo de la Fuente (ITMATI)e Rubén Fernández Casal (UDC), e un segundo cur-so, destinado a profesores de ensino medio, coordinadopola profesora Covadonga Rodríguez Moldes (IES Mu-gardos). Este segundo curso contou, como relatores, cosprofesores Manuel Alfredo Mosquera Rodríguez e TomásR. Cotos Yáñez, ambos da Universidade de Vigo, conDolores Pilar García Agra (IES de Ordes) e as profesorasgañadoras da última convocatoria do concurso nacionalde Incubadora de Sondeos e Experimentos, da SEIO,Milagros Diéguez Taboada (CPI As Revoltas, Cabanade Bergantiños) e Paula Blanco Mosquera (CPI de SanVicente. A Baña).

A primeira das conferencias, impartida polo profesorLuís Escobar, da Lousiana State University, tratou sobrefiabilidade. Nela analizáronse diferentes problemas naestimación de distribucións de tempos de vida dos com-poñentes dun sistema, poñendo exemplos de aplicacióna casos reais.

A segunda conferencia, impartida polo profesor da Uni-versidade da Coruña, Ricardo Cao, estivo centrada nasaplicacións estatísticas no contexto da “Industria 4.0”,concepto que se utiliza para aludir á dixitalización dascadeas de valor industriais. Neste paradigma da chama-da cuarta revolución industrial, a Estatística (e taména Investigación de Operacións!) está chamada a xo-gar un papel clave, como ferramenta indispensable paraconverter datos en información útil para a mellora dosprocesos produtivos e para engadir valor aos produtos.Nesta conferencia percorréronse algúns problemas reaisexistentes en empresas do ámbito industrial, comerciale dos servizos, que foron abordados nos últimos anospolos membros do grupo de investigación MODES me-diante o uso de modelos e técnicas estatísticas axeitados.

Na conferencia impartida polo profesor da Universidadede Sevilla, Emilio Carrizosa, fíxose unha revisión dalgúnsdos campos das Análises de Datos e da súa visualiza-ción nos que o tradicional papel da Optimización ofreceestimulantes solucións. O conferenciante fixo fincapé noespectacular avance nos métodos da Optimización Ma-temática (en particular, da Programación Non Lineal enNúmeros Enteiros) que permiten abordar exitosamentenovos problemas, ou abordar problemas tradicionais demodo moito máis eficiente que hai unha década.

A conferencia de peche do congreso foi impartida polaprofesora da Universidade de A Coruña, Amparo Alonso,que nos ofreceu unha visión doutros algoritmos con al-ta aplicabilidade no entorno do BigData e que van máisaló dos clásicos problemas de regresión e clasificación,ofrecendo unha perspectiva dos novos retos con datosde alta dimensión, pero desde o contexto da intelixenciaartificial. Dentro destas sesións tivo lugar unha especialdedicada á estatística pública, organizada coa colabo-ración do IGE, que contou coa asistencia de responsa-bles doutros institutos de estatística como o vasco ouo asturiano. Esta sesión, aproveitando que o congresose celebrou na semana do día europeo da estatística, foidenominada “Sesión do European Statistics Day : A es-tatística pública en Galicia”.

Informest | 8

Page 9: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Actividades da SGAPEIO

Entre as sesións de comunicacións cómpre destacar asque presentaron os 7 investigadores mozos que expu-xeran os traballos para optar aos “premios SGAPEIOás mellores comunicacións presentadas por investigado-res novos”. Os membros do xurado, formado por JuanManuel Vilar Fernández (UDC), Jacobo de Uña Álva-rez (UVigo) e José Ma Alonso Meijide (USC), tendoen conta os traballos enviados e as presentacións rea-lizadas durante o congreso, decidiron por unanimidadeconceder o premio á mellor comunicación teórica ao tra-ballo titulado “Characterization of point processes withcovariates through the first-order intensity function”,presentada por María Isabel Borrajo García e o premioá mellor comunicación aplicada ao traballo titulado “Unmodelo de programación matemática para la selección yasignación temporal de recursos aéreos destinados a lacontención de un incendio forestal”, presentada por Jor-ge Rodríguez Veiga. O xurado destacou a gran calidadede todos os traballos presentados.

As sesións científicas remataron coa mesa redonda sobrecontrol dimensional na que participaron Álvaro Brage,responsable da Sección de Control Dimensional de Na-

vantia; Salvador Fábregas responsable de calidade dogrupo Intaf e Irene Barros do departamento de calidadeda empresa Cándido Hermida. A mesa estivo coordinadapolo profesor da UDC, Javier Tarrío Saavedra.

Actos sociais do congreso

Os actos sociais consistiron nun concerto a cargo domúsico Pedro Lamas acompañado por outros dous mú-sicos da súa banda, que tivo lugar o xoves 26 ao rematedas sesións orais. Completouse cunha visita ao ArsenalMilitar de Ferrol, onde os congresistas puidemos visitara Fragata Almirante Juan de Borbón, que forma parteda frota das fragatas F100 fabricadas pola empresa Na-vantia de Ferrol. Logo dunha comida no propio Arsenalpuidemos percorrer Exponav, un dos museos máis impor-tantes da construción naval a nivel europeo, contandocon pezas únicas como o pecio da fragata Magdalena.

O congreso rematou cunha comida de confraternidadeno restaurante do Hotel Almirante. Ao final da comidativo lugar a actuación do actor Vicente Mohedano, quepresentou un espectáculo sobre a historia dos números.

9| Informest

Page 10: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Novas do IGE

Novas do IGE

Novidades na información estatísticapublicada

ESPERANZA DE VIDA SEN LIMITA-CIÓNO obxectivo desta actividade estatística é coñecer a es-peranza de vida sen limitación e sen limitación grave dapoboación galega, é dicir, estimar o número medio deanos que pode esperar vivir unha persoa sen limitación esen limitación grave das actividades que realiza na vidacotiá. Os indicadores sintéticos que se calculan nesta ac-tividade, máis alá de reflectir o impacto da mortalidadenunha poboación, recollen tamén as condicións de saú-de presentes nela. No ano 2014, a esperanza de vida dapoboación galega situouse en 83 anos; non obstante, aesperanza de vida sen limitación só alcanza os 61,2 anos.Ademais, tanto a esperanza de vida convencional comoa esperanza de vida sen limitación grave sitúanse en va-lores lixeiramente máis altos para as mulleres que para oshomes. No caso da esperanza de vida sen limitación, osvalores en homes e en mulleres son moi similares. Máisinformación en: web

ENQUISA ESTRUTURAL A FOGARES.CONDICIÓNS NO TRABALLO. 2016Esta operación estatística ten por finalidade recoller in-formación sobre as condicións no traballo dos residentesen Galicia. Entre outros aspectos, estúdanse as carac-terísticas do posto de traballo, os aspectos relacionadoscoa seguridade e a prevención de accidentes no traballo,grao en que os ocupados poden conciliar traballo e vidafamiliar, a traxectoria profesional, nivel de formación e ograo de satisfacción co traballo percibido polos ocupa-dos e ocupadas en Galicia. Desta operación estatísticapódese concluír que o 68,26 % das persoas ocupadas enGalicia traballa cinco días á semana; o 20,12 %, seis díase o 6,35 %, os sete días da semana. A porcentaxe de per-soas ocupadas que traballa menos de cinco días sitúase,en 2016, no 5,28 %. Por outra parte, tamén se obténque ao 7,19 % das persoas ocupadas en Galicia resúlta-lles moi doado compaxinar a vida familiar e laboral; ao55,10 % resúltalles doado; o 29,38 % recoñecen que llesé difícil compaxinar ambos os dous aspectos da vida e ao8,33 % resúltalles moi difícil. Máis información en: web

EXPLOTACIÓN DA MOSTRA CONTI-NUA DE VIDAS LABORAIS. 2015A Mostra continua de vidas laborais (MCVL) é un con-xunto de microdatos anonimizados procedentes de diver-sos rexistros administrativos: da Seguridade Social, doPadrón municipal de habitantes e da Axencia Tributaria.

A MCVL constitúe unha mostra representativa de todasas persoas que durante o ano tiveron relación coa Seguri-dade Social, ben porque estiveron afiliadas en situaciónde alta laboral, ben porque percibiron unha prestacióncontributiva ou subsidio por desemprego, ou ben porquepercibiron algún tipo de pensión contributiva da Seguri-dade Social. Desta actividade estatística pódese deducirque no ano 2015, 1.112.650 galegos e galegas en idadelaboral (de 16 ou máis anos) mantiveron algunha rela-ción de afiliación en alta laboral coa Seguridade Social,un 1,9 % máis que no ano 2014. Por outra parte, o 22 %dos galegos e das galegas que en 2015 estiveron afiliadasen alta laboral por conta allea percibiu un salario totalmenor ou igual aos 6.000 euros anuais. Entre a poboa-ción traballadora que só estivo afiliada en alta laboralparte do ano, esta porcentaxe sobe ata o 48,5 %, men-tres que para os que estiveron afiliados o ano completoé do 3,6 % . Máis información en: web

Outras novidades

XORNADA DE XEORREFERENCIACIÓNDA INFORMACIÓN ESTATÍSTICA ENGALICIA: CASOS PRÁCTICOSO día 25/10/2017 celebrouse no Salón de Actos da Con-sellería de Sanidade en Santiago de Compostela unhaxornada de traballo sobre a xeorreferenciación da infor-mación estatística en Galicia, organizada polo IGE e ogrupo GAME-IDEGA da Universidade de Santiago deCompostela. Nesta xornada presentáronse exemplos daintegración da información estatística e xeográfica, co finde mostrar a importancia e o potencial da xeorreferen-ciación. A localización de unidades estatísticas permiteunha avaliación máis precisa das zonas de interese e, polotanto, unha mellor toma de decisións por parte da Admi-nistración e da empresa privada. Na xornada participaronpersoal do IGE, do Instituto de Estudos do Territorio,CESGA, USC, CITIUS, Axencia de Turismo de Galicia,AMTEGA, ABANCA e a Universidade Complutense deMadrid. Máis información en: web

OBSERVATORIO GALEGO DE DINAMI-ZACIÓN DEMOGRÁFICAO Observatorio Galego de Dinamización Demográficacreouse polo Decreto 104/2016, do 28 de xullo (DOGnúm. 152 do 11 de agosto) modificado polo Decreto68/2017, do 13 de xullo (DOG núm. 143, do 28 de xu-llo) e ten como obxectivos o coñecemento exhaustivo epermanentemente actualizado da realidade demográficade Galicia e o asesoramento ás administracións públi-cas da Comununidade Autónoma de Galicia na incorpo-ración da perspectiva demográfica. Neste Observatorioestá presente o IGE cun vogal titular.

Informest | 10

Page 11: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Traballos de Estatística e IO

Traballos de Estatística e Investigación Operativa no SUG

Teses

Novas aportacións estatísticas ao estudo da fiabilidade de materiais

Antonio Meneses.Directores: Salvador Naya e Javier Tarrío.Data da defensa: 8 de setembro de 2017. UDC.

O obxectivo da presente tese de doutoramento é a aportación de novas técnicas e metodoloxías estatísticas para oestudo da fiabilidade de materiais sometidos a esforzos térmicos e de fatiga mecánica. Concretamente, introducíronsedous procedementos estatísticos de aplicación inmediata nas áreas da física aplicada e enxeñaría de materiais. Oprimeiro consiste nunha alternativa para realizar estudos de superposición tempo/temperatura. O obxectivo é apredición das propiedades mecánicas de materiais viscoelásticos, a unha temperatura dada, a tempos e frecuenciasmás aló do rango experimental mediante o desprazamento da primeira derivada das curvas de propiedades mecánicasobtidas a outras temperaturas (probas aceleradas), definindo para isto, por vez primeira, o principio TTS desde oparadigma estatístico. O segundo procedemento representa un novo método flexible, baseado no axuste de regresiónlineal de efectos mixtos, que ten como fin estimar a distribución de tempos de fallo de materiais (principalmentemetais) sometidos a esforzos de fatiga mecánica. Ambas as metodoloxías representan aportacións de utilidade ecompetitivas para a resolución de problemas de caracterización de materiais e predición das súas propiedades físicasdurante a súa vida útil (fiabilidade), sempre a partir da modelización de datos de degradación obtidos por técnicasexperimentais de análise térmico e mecánico.

Bargaining Models with Asymmetric Agents

Alfredo Valencia Toledo.Director: Juan José Vidal Puga.Data da defensa: 26 de outubro de 2017. UVigo.

No presente traballo, estudamos modelos da teoría de xogos con axentes asimétricos, sendo esta simetría definidadende dúas diferentes perspectivas. Por unha parte, a asimetría pola propia natureza dos axentes. En particular,consideramos un axente particular diferente do resto, un único inquilino fronte a un grupo máis numeroso dearrendadores de terreos. Por outra parte, a asimetría debida a unha compoñente temporal. En particular, algúnsaxentes poden actuar e/ou desenvolverse de forma simultánea mentres que outros o fan de forma secuencial, comoé o caso das actividades dentro dun proxecto de grande envergadura.As características coas que se define a asimetría dos axentes, en ambas as perspectivas, xogan un papel importanteno momento de definir os modelos. Consideramos como motivación dúas situacións reais: os conflitos de terras eos atrasos de actividades.Na primeira situación tomamos como exemplo os casos de adquisición de terreos para a explotación ou extracciónde minerais por unha empresa mineira en Perú e para a localización da base militar da BRILAT (Brigada LixeiraAeroTransportada) en Vilaboa (Pontevedra). Nestes casos pódese observar un proceso de negociación entre unhaempresa ou institución e un grupo de propietarios ou comunidades. Estas situacións estúdanse como un problemade conflito de intereses desde a perspectiva dos xogos cooperativos e os non-cooperativos.Na segunda situación consideramos como exemplo o custo que producen os atrasos das actividades que formanparte de proxectos de grande envergadura. Esta situación estúdase como un problema de asignación de custos entreos axentes responsables.No enfoque cooperativo buscamos regras de reparto que verifiquen propiedades tales como consistencia, monotonía,estabilidade, dualidade e estándar para dous. No enfoque non-cooperativo, estudamos como sería o reparto finalbaixo unhas condicións de negociación razoables.

11| Informest

Page 12: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Traballos de Estatística e IO

Traballos Fin de Máster

Traballos do Máster Interuniversitario en Técnicas Estatísticas.

Detección de anomalías en espazos dealta dimensión

Víctor Alonso Macías.Director: Javier Roca Pardiñas.Titor: Bruno Fernández Castro, Gradiant.USC, modalidade prácticas.

Neste traballo trátase de comprender a problemática daalta dimensión nos métodos de detección de anomalíasco obxetivo de realizar unha comparativa entre varios al-goritmos. Esta levarase a cabo investigando as súas pres-tacións, características, limitacións e comportamento so-bre diferentes conxuntos de datos de proba, logrando,desta maneira, validar un método para a súa aplicacióndirecta á análise de datos xerados por máquinas.

Optimización baixo incerteza en redes degas

Ana Belén Buide Carballosa.Director: Julio González Díaz.Titor: Diego Rodríguez Martínez, ITMATI.USC, modalidade prácticas.

Este traballo xorde pola necesidade de validar un algo-ritmo de programación estocástica empregado por un-ha empresa de transporte e regasificación de gas paraa resolución de problemas de optimización no contex-to das redes de gas. No primeiro capítulo lévase a ca-bo unha revisión das nocións teóricas da programaciónmatemática. No segundo capítulo introdúcese o proble-ma de optimización determinista en redes de gas e oalgoritmo de programación linear sucesiva de dúas eta-pas implementado dende o ITMATI. Logo, introdúcese aprogramación estocástica e o problema de programaciónestocástica no contexto das redes de transporte de gas,os cales xorden na toma de decisión relativa á planifica-ción da construción de novas infraestruturas en redes degas. A formulación deste problema é o punto de partidapara a validación do algoritmo implementado sobre unhabatería de problemas asociados ás redes de gas galegae nacional. Finalmente, amósanse os resultados da vali-dación realizada durante as prácticas desenvolvidas nasinstalacións do ITMATI e que dan mostra da utilidadedo algoritmo implementado na práctica.

Text Analytics para Procesado Semánti-co

María Calvo Torres.Director: Rubén Fernández Casal.Titor: Juan Ramón González, Oesía Networks.UVigo, modalidade prácticas.

Este traballo trata de introducir as principais técnicasda minería de textos e as súas diversas aplicacións. Paraisto, no primeiro capítulo, comézase a explicar que é aminería de textos e cales son os seus principais usos ac-tualmente. Deseguido, explícanse varios xeitos de comoobter os datos e logo ilústrase o preprocesado dos mes-mos cun exemplo. No terceiro capítulo, faise unha aná-lise exploratoria dos datos e, a continuación, explícanseos métodos máis utilizados para a clasificación de docu-mentos, adéstranse os modelos e valídanse. Por último,amósase unha aplicación Shiny do clasificador de textosque se construíu seguindo paso a paso as explicacións dotraballo. A súa finalidade é unha mellor comprensión dotema coa axuda dun método visual interactivo. Para arealización deste traballo, recibiuse a axuda da empresaOesía, experta no ámbito da minería de textos.

Estudo de asociación de variantes xené-ticas coa miocardiopatía hipertrófica

Sandra Carballido Regueiro.Director: Ignacio López de Ullibarri Galparsoro.Titor: Lorenzo Monserrat Iglesias, Health in Code.UDC, modalidade prácticas.

A busca de asociacións entre variantes xenéticas e cer-tas enfermidades é un tema de grande importancia naactualidade, sobre todo, a medida que se avanza no co-ñecemento de técnicas de secuenciación do ADN. Estetipo de técnicas proporcionan unha gran cantidade deinformación que precisa ser analizada con metodoloxíasestatísticas especialmente adaptadas ao volume de datosco que se traballa. Con tal propósito, é habitual consi-derar estudos de tipo caso-control que, mediante o usodos modelos de regresión apropiados, permitan identifi-car que variantes aumentan o risco de padecer a enfermi-dade considerada. O obxectivo do proxecto é describircomo funcionan estas técnicas estatísticas e amosar asúa aplicación en datos reais no ámbito da cardioloxía.Os datos utilizados proceden de pacientes diagnosticadosde diversas cardiopatías conxénitas, entre elas, a mio-cardiopatía hipertrófica, enfermidade na que se centranos resultados desta análise. Esta patoloxía é unha dasdoenzas cardíacas máis comúns e é, na maioría de oca-sións, hereditaria, polo que resulta interesante tratar deidentificar a compoñente xenética que desencadea a súamanifestación.

Informest | 12

Page 13: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Traballos de Estatística e IO

Problemas de rutas de vehículos estocás-ticos

Juan Carlos Gonçalves Dosantos.Directora: Balbina Casas Méndez.USC, modalidade académica.

Na actualidade, existe unha mellora significativa na reco-llida de todo tipo de datos. Isto provocou que a maioríados problemas tratados na investigación operativa pasena ser máis realistas e dinámicos. Entre eles destacamosos problemas de rutas de vehículos, que incorporaronnovas restricións aplicadas a datos en tempo real e pa-rámetros estocásticos. Un caso concreto desta situacióné considerar as demandas dos clientes como elementosaleatorios. É por isto que, para comprender o modeladodeste tipo de problemas, é necesaria unha Introducióná Programación Estocástica, así como, algunha linguaxede programación que a soporte. Nós faremos mención doformato SMPS, Stochastic Mathematical ProgrammingSystem, para modelar un problema de programación. Pa-ra así despois resolver estes problemas mediante algúnsolver dispoñible nun conocido servidor de optimización:NEOS. Pero, dado o elevado custo computacional querequiren este tipo de problemas, a nosa intención é uti-lizar algún método heurístico que nos axude a obter so-lucións factibles para os nosos problemas en tempos ra-zoables. Para isto, imos considerar unha adaptación daheurística do caso determinista, o coñecido algoritmo deaforros de Clarke e Wright, ao noso contexto estocásti-co. Amosaremos o seu funcionamento nun problema realtomado do ámbito da loxística agrícola e programamosen R ambos os algoritmos (determinista e estocástico).Finalmente, deseñamos unha interface gráfica en R quefacilite a introdución de datos, a chamada de algoritmos,a visualización de resultados e a realización de análise depost-optimalidade de maneira rápida.

Regresión segmentada

Víctor González Carro.Directora: Rosa María Crujeiras Casais.USC, modalidade académica.

Este traballo analiza en profundidade os modelos de re-gresión segmentada no caso en que os dous anacos nosque se divide a función de regresión sexan rectas. Concre-tamente, adaptaranse os métodos clásicos de estimaciónen regresión lineal simple e compararanse nun estudo desimulación e unha aplicación a datos reais no ámbito daecoloxía. A maiores, engádese un capítulo de ampliacióndo estudo do modelo no que se presentan técnicas deinferencia baseadas no modelo de regresión segmentadae outras alternativas paramétricas a este modelo.

Optimización baixo incerteza en plantasde proceso industrial

Daniel López García.Director: Julio González Díaz.Titor: Patricio Reyes Valenzuela, ITMATI.USC, modalidade prácticas.

O obxectivo deste traballo é presentar os conceptos bá-sicos de optimización con incerteza e a construción doalgoritmo progressive hedging que está pensado de for-ma específica para esta clase de problemas. Este algorit-mo baséase en movementos na dirección do gradiente dodual, por este motivo ao inicio do traballo presentamosconceptos básicos de programación matemática como ascondiciones de KKT e o dual lagrangiano. No progressivehedging hai dous parámetros que ten que fixar o usuario.Son o paso da actualización das variables do dual (quedenotamos por pi) e o peso da penalización cuadrática(que denotamos por r). Ao final do traballo facemosun breve estudo do calibrado destes parámetros. Estecalibrado foi o obxectivo das prácticas asociadas a esteTraballo Fin de Mestrado que se realizaron na UnidadeMixta de Investigación Repsol-Itmati.

Modelos cuantís autorregresivos

Silvia Novo Díaz.Director: César Sánchez Sellero.USC, modalidade académica.

As vantaxes que o enfoque cuantil aporta na regresión,pola análise máis robusta e completa que proporciona,levaron a distintos autores a estender esta metodoloxíaao contexto dos modelos de series temporais, como é ocaso dos procesos autorregresivos. Neste traballo revisa-mos distintos procedementos para a obtención de inter-valos de predición no contexto do modelo autorregresivoclásico, e incorporaremos unha proposta de novo métodopara a obtención destes intervalos realizando a estima-ción mediante mínimas desviacións absolutas e mediantebootstrap. Ademais, para aproveitar as vantaxes que aestimación cuantil aporta baixo heterocedasticidade, es-tudamos un proceso autorregresivo estacionario máis xe-ral que permite a dependencia dos coeficientes respectodo cuantil, constituíndo unha alternativa na análise deseries temporais con dinámicas asimétricas ou con per-sistencias locais. Para este modelo estúdase un modode identificar a súa orde, así como para estimar os seusparámetros. Finalmente, ilústranse estes procedementosmediante a súa aplicación á análise da serie da taxa devariación trimestral do desemprego en España, cuxo es-tudo queda incompleto empregando as técnicas clásicas.

13| Informest

Page 14: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Traballos de Estatística e IO

O Problema de Coloración de Grafos

Sergio Pena Seijas.Directora: Silvia Lorenzo Freire.USC, modalidade académica.

Dentro do amplo campo da Teoría de Grafos, neste tra-ballo realizamos unha revisión do Problema de Colora-ción de Grafos. En concreto, centrámonos na coloracióndos vértices dun grafo. Por iso, presentamos no capítuloinicial unha breve introdución ao problema dende a súaaparición a través do famoso Teorema das Catro Co-res, e revisando os avances e desvantaxes que xurdirona medida que se profundou neste problema. No segun-do capítulo, facemos unha revisión daqueles algoritmosmáis relevantes asociados ao Problema de Coloración deGrafos, analizando cales son os pros e contras de cadaun deles. Finalmente, introducimos un conxunto de apli-cacións derivadas da análise do Problema de Coloraciónde Grafos, presentes no noso día a día e que fan ver ditoproblema dende un punto de vista máis práctico.

Análise de datos dos consumos decomputación e os seus resultados empre-gando plataformas de Big Data

Elena Pernas Goy.Director: Manuel Febrero Bande.Titor: Andrés Gómez Tato, CESGA.USC, modalidade prácticas.

Esta memoria recolle as tarefas realizadas durante asprácticas no CESGA. As bases de datos empregadas nasmesmas pertencen ao sistema Finisterrae e son consi-deradas Big Data, polo que se empregaron ferramen-tas adecuadas, neste caso Apache Spark. Spark é unhaplataforma que permite implementar código en distintaslinguaxes de programación das cales se escolleu Python.Nun primeiro instante tómase contacto co programa rea-lizando tarefas sinxelas de filtrado e cálculo de propor-cións e medidas estatísticas para, posteriormente, pasar áparte central das prácticas que consiste na análise do sis-tema de colas. A análise do sistema de colas divídese endúas partes. Nunha delas, trátase de predicir os temposde espera das colas mediante series de tempo. Na outra,trátase de realizar unha simulación do propio sistema pa-ra poder obter máis información del e do comportamentodas colas. Para finalizar, propóñense diferentes camiñospolos que se podería continuar traballando.

Os valores esquecidos na mostraxe depoboacións finitas. Técnicas de imputación

Gabriel Román Radío.Director: Antonio Vaamonde Liste.UVigo, modalidade académica.

Os valores esquecidos supoñen un obstáculo - actual-mente non ben resolto - cando é necesaria a respostacompleta - porque o require a estimación a facer ou por-que o esixen as técnicas estatísticas a empregar na aná-lise. As técnicas de imputación permiten asignar valoresaos casos e variables con valores omitidos. Non obstante,as técnicas de imputación non son neutrais en relacióncos resultados obtidos e a elección inadecuada da mesmapodería ocasionar alteracións na distribución dos datos.Este traballo expón as diversas técnicas de imputaciónexistentes, a avaliación das súas vantaxes e inconvenien-tes e a súa aplicación con distintos paquetes da linguaxede programación estatística R.

Informest | 14

Page 15: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Traballos de Estatística e IO

Traballos Fin de Grao

Traballos do Grao en Matemáticas.

Flexibilizando a regresión lineal: regre-sión local lineal

María Alonso Pena.Directora: Rosa M. Crujeiras Casais.

Os modelos de regresión paramétricos lineais poden re-sultar insuficientes para explicar a relación entre varia-bles de xeito efectivo. Non obstante, para intentar expli-car relacións non lineais de forma máis simple, pódenseutilizar modelos non paramétricos que, en lugar de su-poñer que o modelo ten unha forma determinada, sóasumen unha hipótese de suavidade sobre a función deregresión. En concreto, neste traballo preséntase o mé-todo de regresión local lineal, que consiste en axustarmodelos lineais unicamente nas observacións que esteandentro dun entorno dun punto fixado. Ao realizar esteaxuste en cada punto, obtense a estimación da funciónde regresión. Ademais de recoller a definición formal doestimador e as súas propiedades, no traballo móstransedistintos métodos de selección do parámetro de suaviza-do. O funcionamento do estimador analízase medianteun estudo de simulación no que se comparan algúns dosmáis importantes métodos de selección de ventá. Porúltimo, ilústrase o contido do traballo con datos reais,pertencendo estes ao ámbito da análise térmica.

Modelización estatística espacial: kri-ging

Almudena Barreiro Carrillo.Director: Manuel Febrero Bande.

Ao longo deste traballo descubrimos os aspectos funda-mentais dunha das ramas da estatística espacial: a Xeo-estatística. Nos primeiros parágrafos facemos unha intro-dución amigable deste concepto. Tamén definimos dousexemplos que nos acompañarán durante todo o perco-rrido. O primeiro exemplo consiste nunha mostra de mi-ligramos de níquel que foron medidos en certos puntosde Galicia. O segundo exemplo radica en datos recolli-dos durante as eleccións do 20 de decembro do 2015. Osegundo tema que tratamos son os variogramas, sen dú-bida, peza fundamental en xeoestatística. Descubriremoscomo modelalos e axustalos e cal é o seu papel á horade definir unha estrutura espacial. En terceiro e últimolugar aparecen as predicións. Explicaremos en que con-siste a predición coñecida co nome de kriging e as súastres variantes: kriging simple, kriging ordinario e kriginguniversal. Trataremos de facer a mellor predición posible

cos datos dos dous exemplos antes mencionados. Ta-mén abordaremos brevemente algúns dos comandos doprograma R que empregamos con frecuencia nos nososexemplos e que son comúns no estudo da xeostatística.

Técnicas de clasificación

Fernando Castro Prado.Director: Wenceslao González Manteiga.

Este traballo ten como obxectivo presentar detallada-mente algunhas técnicas relacionadas coa análise discri-minante. O seu contido distribúese en seis capítulos. Noprimeiro introdúcense algúns conceptos xerais relativos áoptimidade, para logo ilustralos, no caso de poboaciónsgaussianas, presentando as denominadas regras linearese cuadráticas no segundo capítulo. No terceiro, taménbaixo a hipótese de normalidade, explícase como con-trastar de maneira satisfactoria a igualdade de matricesde covarianzas e vectores de medias entre dous grupos,rutinas previas á clasificación. Nos capítulos 4 e 5 amó-sase como, cando a dimensión do vector poboacional éalta en relación ao tamaño mostral, a maioría dos pro-cedementos da análise multivariante clásica xa non sonaplicables. Neste caso cómpre utilizar unha metodoloxíamáis elaborada, tanto para os tests previos como para aanálise discriminante linear. No sexto e último capítuloaplícanse estas técnicas a bases de datos de expresiónxénica para distintos tipos de cancro e un exemplo simu-lado, demostrando a súa utilidade práctica. Finalmente,inclúese un apéndice con todo o código empregado.

Un modelo de Teoría de Colas: as redesabertas de Jackson

Laura Davila Pena.Directora: Balbina Casas Méndez.

A teoría de colas é unha disciplina que se engloba dentroda Investigación Operativa e cuxo obxectivo é o estudo eanálise de situacións nas que un cliente demanda un ser-vizo, de tal forma que dito servizo non pode ser satisfeitoinstantaneamente, polo cal se provocan esperas. Os pro-blemas de colas aparecen en moitas situacións da vidareal. Poden xerarse, por exemplo, a partir das chamadasefectuadas a unha central telefónica, polas mostras reci-bidas nun laboratorio clínico para seren analizadas, polosvehículos que circulan polas diferentes glorietas dunhacidade, ou polos clientes que empregan os probadoresdunha tenda de roupa e posteriormente se dirixen á cai-

15| Informest

Page 16: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Traballos de Estatística e IO

xa para realizaren o pago. No presente traballo comézaserevisando algunhas nocións básicas sobre os procesos es-tocásticos, necesarios para comprender a teoría de colas,que abarca todo o segundo capítulo. Despois de expo-ñer os aspectos máis relevantes dun sistema de colas eexplicar algúns modelos sinxelos, chegamos ao caso par-ticular das redes de colas, centrando a nosa atención nasredes abertas de Jackson. Preséntase neste momento undos resultados máis importantes das redes: o teoremade Jackson. Como complemento ao marco teórico, fina-lízase o traballo cunha sección de tres aplicacións reais,incluíndo un caso aínda en fase de estudo do ComplexoHospitalario Universitario de Santiago (CHUS). Introdú-cese o código de R correspondente á base de datos paraesta última aplicación.

Técnicas de agrupamento de datos

Andrea Fernández López.Directora: Rosa M. Crujeiras Casais.

As técnicas de agrupamento (ou técnicas cluster) son unconxunto de ferramentas multivariantes utilizadas paraclasificar un conxunto de individuos segundo os valo-res que determinan certas variables sobre eles, de xeitoque os individuos pertencentes a un mesmo grupo se-xan o máis similares entre si posible. Existen dous tiposde agrupamento, xerárquico, cuxos algoritmos máis im-portantes son o de vinculación simple, o de vinculacióncompleta e o método de Ward, e o non xerárquico, cu-xo algoritmo máis importante é o de k-medias. Ao lon-go deste traballo, recordaremos algunhas nocións básicasestudadas en diferentes materias do Grao e que son nece-sarias para a comprensión do mesmo, como a distancia,a media, a varianza. . . e explicaremos os dous tipos deagrupamento, así como os algoritmos mencionados. Ade-mais, aplicaremos todo isto sobre uns datos reais proce-dentes da Área de Calidade e Mellora de Procedementos(ACMP) da Universidade de Santiago de Compostelapara ver como se agruparían os individuos segundo osdistintos algoritmos.

Métodos de regresión lineal regulariza-da: Regresión lineal Ridge

Alejandro Ferreiro Méndez.Directora: Beatriz Pateiro López.

Neste traballo realízase unha revisión do modelo de re-gresión lineal regularizada Ridge, co que se pretende solu-cionar algúns problemas que aparecen na regresión linealxeneral con estimación por mínimos cadrados. No pri-meiro capítulo, preséntase o modelo de regresión linealxeral coa súa estimación usual polo método de mínimos

cadrados. Ademais exponse algúns dos problemas quexorden coas estimacións dos coeficientes do modelo enpresenza, por exemplo, de multicolinealidad. As técnicasde regularización teñen por obxectivo dar solución a es-tes problemas a través da penalización da verosimilitude.Aínda que existen outras técnicas de regresión regulari-zada, a memoria centrarase na regularización Ridge, queusa unha penalización L2. No segundo capítulo da me-moria, preséntase o método e descríbense algunhas dassúas propiedades. Ademais tamén se propoñen diversosprocedementos para elixir o parámetro óptimo para rea-lizar a regresión regularizada. Finalmente, nun terceiro eúltimo capítulo, ilústrase un exemplo cuns datos sobre oprezo medio da vivenda nos distintos barrios de Bostonusando a regresión Ridge.

Os segredos da normal

Diego Frade Amil.Director: Alberto Rodríguez Casal.

Ao longo do Grao úsase continuamente a distribuciónnormal, pero son moitos os aspectos desta que non che-gan a verse ou non con suficiente detalle e que, polo tan-to, se descoñecen. Neste traballo, dividido en tres partes,trátase de dar resposta a outras tantas preguntas: comoxurdiu a normal, como se comproba se un conxunto dedatos é normal ou non e como se constrúen datos nor-mais. Así, no primeiro capítulo abórdanse os aspectoshistóricos da normal, desde os seus antecedentes ata osdesenvolvementos que realizaron Abraham de Moivre eCarl Friedrich Gauss (e simultaneamente a este último,Robert Adrain), así como as aportacións de Pierre Simonde Laplace. Ademais, neste capítulo tratarase o TCL ea normal multivariante. Saber se un conxunto de datossegue unha distribución normal ou non é unha cuestióninteresante, que constitúe o tema central da segundaparte. Preséntanse varios conxuntos de datos univarian-tes e analízanse dous tests de normalidade: Shapiro-Wilke Kolmogorov-Smirnov-Lilliefors. Realízase un estudo desimulación dos mesmos (calibrado e análise de potencia)e aplícanselles aos datos. Ademais, trátase o caso biva-riante cun par de conxuntos de datos e os corresponden-tes tests de normalidade para este caso. E no derradeiroapartado deste traballo, bótase man da simulación pa-ra dar catro métodos de xeración de variables normaisa partir de variables uniformes, de sinxela programaciónno software estatístico R.

Informest | 16

Page 17: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Traballos de Estatística e IO

Introdución á programación non lineal

Brais González Rodríguez.Director: Julio González Díaz.

Esta memoria comeza cun breve repaso dos conceptosbásicos da programación matemática, co fin de axudar aolector que non estea familiarizado con ditos conceptos.Posteriormente, trátanse con profundidade os problemasde programación non lineal, nos cales se buscan condi-cións suficientes e/ou necesarias que permitan garantiroptimalidade local e, baixo certos supostos, optimalida-de global. O anterior ilústrase con diversos exemplos. Ta-mén se explica brevemente a dualidade lagranxiana e asúa utilidade práctica. Por último, desenvólvese un algo-ritmo específico (chamado RLT) para problemas de pro-gramación polinómica. En primeiro lugar, preséntanse assúas bases teóricas, probando resultados de converxen-cia e ilustrando paso a paso o algoritmo con exemplosconcretos. Posteriormente, utilízase unha implementa-ción do algoritmo para obter resultados que nos permi-tan elaborar gráficas, co fin de comprobar a efectividadedo algoritmo.

A Análise Discriminante Non Paramé-trica

Pilar Marful Rocha.Director: Wenceslao González Manteiga.

Este traballo establece regras discriminantes que permi-ten clasificar un individuo en dous ou máis grupos bendiferenciados. Dentro do contexto paramétrico, explícaseo procedemento para obter una das regras máis clásicas,que é a regra discriminante lineal de Fisher. A pesar deque nos atopemos nun contexto paramétrico, pode darseque algún parámetro sexa descoñecido polo que o temosque obter en base a mostras dos diferentes grupos, oque leva á construción dunha regra de clasificación es-timada. Dentro do contexto non paramétrico, explícasealgunha das regras que se poden obter, entre as calesse pode distinguir entre regras mediante estimación dafunción de densidade e estimación da función de regre-sión. Destácase a regra dos veciños máis próximos e oregresograma. Nos dous contextos presentados, cuanti-fícase o erro cometido dado que o obxectivo da análisediscriminante é a clasificación dun individuo nun grupo,co menor erro posible. Por último, faise un breve estudono software R, aplicado a unha base de datos propostano ano 1978 por D. Harrison e D. L. Rubinfeld, “Alo-xamento en Boston”, que se usará, esencialmente, paraobter o prezo que tería que pagar un novo individuo porunha vivenda en Boston. Baseándose no erro de clasifi-cación, chegaremos á conclusión de que a mellor regrapara facer a clasificación é unha regra non paramétrica,

é dicir, unha regra que non fai suposicións erróneas dosdatos, senón que se obtén en base aos propios datos.

Introdución á construción de intervalos deconfianza bootstrap

Marta Martínez Romay.Director: Jose Manuel Prada Sánchez.

Este traballo céntrase na teoría bootstrap e nos diferen-tes tipos de intervalos de confianza construídos median-te a mesma. O método bootstrap é unha das técnicasde remuestreo máis utilizadas na actualidade grazas aoavance da tecnoloxía computacional nas últimas dúas dé-cadas. Este método consiste en xerar un elevado númerode mostras a partir da miña mostra inicial coa finalidadede obter información acerca dun parámetro poboacionalque nos interese. Explícase a construción dos intervalosde confianza tanto clásicos como bootstrap e considé-rase o caso particular da media poboacional obtendo osintervalos para ela. Tamén se realiza un estudo de simu-lación para analizar o comportamento dos distintos tiposde intervalos baixo certos escenarios controlados e, porúltimo, dáse unha aplicación a un caso real implemen-tando o código en R.

Teoría de xogos: do Hex ao Teorema depunto fixo de Brouwer

Damián Pallas Carrillo.Directores: Julio González Díaz e Ángel ManuelGonzález Rueda.

John Nash, célebre matemático especializado na Teoríade xogos, presentou en 1951 o concepto de equilibriode Nash para xogos non cooperativos e tamén o Teo-rema para a súa existencia (que máis adiante recibiríao seu nome e polo cal gañou o Premio Nobel de Eco-nomía en 1994). Para probalo, precisa dalgún teoremade punto fixo como pode ser o Teorema do punto fixode Brouwer. Independentemente disto, John Nash taméninventou o xogo do Hex, un xogo de taboleiro que nonpode acabar nunca en empate. Sorprendentemente, estefeito é equivalente ao Teorema do punto fixo de Brou-wer, o piar fundamental no que se apoia a demostracióndo Teorema de Nash. Por dicilo dalgún xeito, Nash, senpretendelo, foi quen de enunciar o seu Teorema e de pro-porcionar as ferramentas necesarias para a súa demos-tración. Neste traballo comezamos facendo unha breveintrodución á Teoría de xogos non cooperativos, resal-tando a importancia dos equilibrios de Nash. Logo, coafinalidade de probar o Teorema de Nash, enunciamos eprobamos resultados necesarios como o Lema de Spernerou o Teorema do punto fixo de Brouwer.

17| Informest

Page 18: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Traballos de Estatística e IO

A continuación, presentamos o xogo do Hex orixinal (de2 xogadores), demostramos que non pode rematar enempate e probamos a súa equivalencia co Teorema deBrouwer. Finalmente, como curiosidade, analizamos oxogo do Hex n-dimensional e obtemos del un algoritmopara a aproximación de puntos fixos.

Problemas de decisión multiobxectivocon varios axentes

Alba Pérez Fernández.Directora: Balbina Casas Méndez.

En moitos ámbitos da vida real xorden certos problemasá hora de decidir entre varias alternativas. Se a iso lleengadimos a posibilidade de que sexan varios os axentesque deben realizar tal decisión, influíndose así uns e ou-tros no resultado da súa elección, e que ditas decisiónsse tomen en base a diferentes obxectivos que se desexaconseguir simultaneamente, estamos ante o que se coñe-ce como un “xogo multiobxectivo”. É a teoría de xogosmultiobxectivo quen proporciona as solucións a tales xo-gos. Segundo o marco no que nos atopemos, faise unhadistinción entre xogos cooperativos multiobxectivo e xo-gos non cooperativos multiobxectivo, en función de se osxogadores poden ou non establecer acordos vinculantesco propósito de mellorar os seus beneficios. Neste tra-ballo faise unha pequena introdución aos xogos multiob-xectivo, mostrando os principais conceptos de solución ealgúns resultados básicos, onde é necesario o dominio deferramentas informáticas como LINDO ou R, e plásman-se varias aplicacións da teoría de xogos multiobxectivona vida real, sobre todo, no ámbito empresarial.

Estimación do erro típico en contrastesde hipóteses

Natalia Pérez Veiga.Director: César Sánchez Sellero.

Neste traballo fin de grao estúdanse dúas formas básicasde estimar o erro típico de fronte ao contraste de hipó-tese: utilizando as suposicións da hipótese nula ou senutilizar a devandita información. Compáranse os proce-dementos baseados nas dúas estratexias mediante argu-mentos teóricos e estudos de simulación. O estudo máisdetallado céntrase no contraste da media e no contras-te dunha e dúas proporcións. Atopamos que no caso damedia, como cabía esperar, é preferible empregar o esta-tístico T de Student, onde o erro típico se estima baixoa alternativa. Con todo, se se emprega a aproximaciónnormal, é preferible estimar o erro típico baixo a hipótesenula. No contraste dunha proporción, os nosos resulta-dos mostran que a recomendación que figura nos librosde texto a favor de estimar o erro típico utilizando a

hipótese nula é plausible, a corrección por continuidadenon mellora o funcionamento do test, senón que mes-mo o empeora, e ,en calquera caso, o test exacto de-bería ser recomendado como procedemento xeral. Parao contraste de dúas proporcións, de novo resulta pre-ferible empregar a hipótese nula para a estimación doerro típico. Tamén se esboza o problema no contextomáis xeral de contraste dun parámetro baixo estimaciónde máxima verosimilitude, o cal permite abordar outrosexemplos notables como contrastes sobre o parámetrodunha distribución de Poisson, dunha distribución expo-nencial ou os contrastes de significación dos coeficientesde regresión.

Metodos estatísticos en clasificación deimaxes

Ricardo Recarey Fernández.Directora: Beatriz Pateiro López.

A aprendizaxe estatística é unha rama da estatística que,a pesar de existir desde a metade do século pasado, seatopa nun momento de rigurosa actualidade. Esta de-fínese como o conxunto de técnicas para construír fun-cións preditivas baseándose nos datos da mostra. Estastécnicas, segundo a información da que se dispoña dosdatos, poden ser supervisadas ou non supervisadas. Nes-te traballo centrarémonos no caso supervisado, que tencomo obxectivo a regresión e a clasificación. Concreta-mente, o noso problema a tratar será a clasificación deimaxes, onde o noso conxunto de adestramento seránimaxes correctamente clasificadas, sendo o obxectivo fi-nal a construción dun clasificador que, dada unha novaimaxe, lle asigne a clase que lle corresponda. Así, aolongo deste TFG farase unha revisión, tanto práctica co-mo teórica, das técnicas máis relevantes deste campo,dende as máis simples e intuitivas, como os K-veciñosmáis próximos, ata as técnicas máis complexas, comoas máquinas de vectores de soporte. Comezarase facen-do unha breve contextualización do problema, para logointroducir os conceptos clave que irán aparecendo ao lon-go do texto. Posteriormente presentaranse as técnicas atratar definindo cada unha delas formalmente, estudan-do as súas propiedades matemáticas e computacionais,xunto coas súas aplicacións e usos. Unha vez analiza-dos os métodos, introduciremos ferramentas para mediro rendemento dos mesmos, para estudar así cales sonos máis axeitados para abordar un problema concreto.Para finalizar, analizaranse os resultados obtidos por dis-tintas redes neuronais en problemas de clasificación deimaxes levado a cabo no supercomputador Finisterrae IIno CESGA.

Informest | 18

Page 19: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Traballos de Estatística e IO

Curvas ROC

Xaime Suárez Blanco.Director: Wenceslao González Manteiga.

Neste traballo exponse unha introdución ao concepto decurvas ROC (Receiver Operating Characteristic) en testscon resultados continuos, a cal nos proporciona unha fe-rramenta estatística para a avaliación da precisión dostests e por tanto son útiles na comparación destes. Noprimeiro capítulo introdúcense os diferentes tipos de teste os conceptos de sensibilidade e especificidade, os calesson básicos no desenvolvemento teórico da curva ROC,ademais do concepto de curva ROC e os principais indi-cadores de resumo. No segundo e terceiro capítulo abór-danse as principais estimacións para test con resultadoscontinuos e as propiedades de cada unha destas. Vere-mos ademais como afectan na curvas ROC as covaria-bles , tanto sobre as distribucións dos resultados do test, como sobre a curva ROC . Todos estes procedementosserán ilustrados no último capítulo a partir dunha mostrade datos biomédicos reais mediante o software libre R.

Modelización estatística con RandomForests

Manuel Vaamonde Rivas.Director: Manuel Febrero Bande.

A finais do século XX, naceu a teoría de árbores de re-gresión e clasificación. Co fin de mellorar esta teoría eadaptarse a problemas altamente dimensionados, nace-ron métodos coma o método de Random Forests. Estemétodo sérvese dunha colección aleatoria de árbores, eutiliza a información contida nelas para proporcionar pre-dicións e detectar variables importantes. O obxectivo dotraballo é ofrecer una descrición e análise do método deRandom Forests. A primeira metade do traballo céntrasenas cuestións teóricas acerca do método. En primeiro lu-gar, ofrecendo unha introdución ás árbores de regresióne clasificación (a partir das cales se crean os Random Fo-rests). Posteriormente, explicando o método de RandomForests, así como as características deste e detalles re-lacionados co seu uso. Na segunda metade examínase ofuncionamento do método. Para isto o traballo conta condous exemplos prácticos do uso dos Random Forests. Oprimeiro é unha análise dunha posición de xadrez; o se-gundo, un estudo acerca dos crimes violentos e das súascausas. Nesta segunda metade, é utilizado o programainformático R, do que se inclúe fragmentos de código.

Movemento browniano

Andrea Vilar Álvarez.Director: Alberto Rodríguez Casal.

Neste traballo preténdese profundizar no concepto demovemento browniano. Comézase facendo unha peque-na revisión histórica, que permite seguir de preto a evo-lución do concepto, dende a súa primeira utilización paradefinir o movemento aleatorio de partículas en suspen-sión nun fluído, ata a súa definición actual, máis rigu-rosa e matemática, que o sitúa como un dos procesosestocásticos máis estudados. A continuación, preséntan-se algunhas nocións básicas de teoría da probabilidadee procesos estocásticos que nos permiten construír unexemplo de paseo aleatorio para obter, de xeito natural,o movemento browniano. Unha vez definido matemáti-camente, expóñense algunhas características curiosas dasúa traxectoria como a continuidade, a non diferenciabi-lidade ou o seu carácter fractal. Finalmente, o traballoremata cun breve capítulo dedicado á ecuación de Black-Scholes, un método matemático de valoración de activosfinanceiros que permite predicir a evolución dos prezosdun produto financeiro ao longo do tempo, facilitandoasí a toma de decisións económicas en mercados de to-do o mundo.

19| Informest

Page 20: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Coñecéndonos

Coñecéndonos

Coñecendo a unha socia da SGAPEIO: Amalia Jácome Pumar.

Amalia Jácome é profesora do Departamentode Matemáticas na Facultade de Ciencias (UDC)dende 2005, e antes no Departamento de Estatís-tica e Investigación Operativa (UVIGO) no cam-pus de Ourense, de 2000 a 2005. Socia da SGA-PEIO dende 1999, membro do Consello Executivoen 2005-2013 e co-editora de Informest en 2009-2013, non sabe se lle gusta mais a docencia ou ainvestigación.

Cantos anos levas traballando en estatísti-ca ou IO?

Toda unha vida, dende que comecei a tese doutoralno 2000.

Descríbenos o teu traballo

Imparto Estatística nos Graos de Bioloxía e Químicana UDC, e en dous mestrados. Como investigadora dogrupo MODES, traballo en Análise de Supervivenciae en aplicacións ás Ciencias da Saúde. Actualmenteco-dirixo tres teses de doutoramento.

Dende cando es socio da SGAPEIO?

Dende 1999. Foi o primeiro que fixen ao rematar alicenciatura en Matemáticas.

Cal foi o 1o Congreso da SGAPEIO ao queasistiches?

O IV Congreso da SGAPEIO (1999), en Santiago deCompostela. Levo asistindo dende aquela a todos oscongresos da SGAPEIO.

O tema do teu próximo proxecto/artigo?

Estou traballando en contrastes de significación nonparamétricos en modelos de curación con A. López-

Cheda e R. Cao, e en análise de datos de metilacióndo ADN en relación co cancro (co grupo Oncomet)entre outros temas.

Un curso que che gustaría facer?

Calquera de programación con Big Data en R.

Que libro de estatística ou I.O. recomen-darías?

Calquera de J.A. Paulos, como “El hombre anuméri-co” ou “Un matemático lee el periódico”, nos que seilustra de forma moi amena as consecuencias de nonentender as teorías da probabilidade e a estatística, e,en xeral, do anumerismo matemático tan tristementeestendido.

Se non foses estatístico, que che gustaríaser?

Teño moita sorte porque non me imaxino facendo ou-tra cousa. Pero, de renunciar á estatística, imaxínomecomo profesora de calquera materia relacionada coasciencias.

Se oes “estatística”, que é o primeiro queche vén á cabeza?

A cita “Hai tres clases de mentiras: as mentiras, gran-des mentiras e as estatísticas” de Mark Twain. As es-tatísticas forman parte do día a día, pero o descoñe-cemento fomenta os malentendidos e a manipulación.Por iso é indispensable a formación en matemáticas eestatística, sobre todo, ante o actual desafío de xestio-nar e analizar enormes volumes de datos (Big Data).

Que é o que máis valoras do labor daSGAPEIO?

A promoción da Estatística, no só a nivel universitario(cursos, xornadas, premios) senón tamén nos institu-tos (xornadas de formación, Incubadora de sondaxes)e divulgación en xeral.

En que cres que deberiamos mellorar?

Promover a Estatística entre profesionais tan diferen-tes non é doado. Felicito á SGAPEIO porque pensoque está a facer un labor magnífico. Poucas suxes-tións teño. De dicir algunha, sería tentar atraer sociosdo mundo empresarial se a SGAPEIO proporcionase(ou fose un enlace para) un servizo de asesoramen-to estatístico. E, en educación, poderíanse promoverconvenios para visitas a centros onde a Estatística éfundamental (o IGE, a Unidade de Observación e Pre-dición Meteorolóxica-MeteoGalicia, etc.)

Informest | 20

Page 21: Editorial · Entre os eloxios recibidos por esta película escoitei: “Moneyball ten o mérito de ser unha película sobre o menos cinematográfico, sobre estatísticas” (Cadea

Estatística recreativaGran Serpe por Antonio Vaamonde Liste

Setembro do ano 1000. Olaf, rei de Suecia, e mais Svein,rei de Dinamarca, xuntan as súas forzas contra Olaf Trig-vesson, rei de Noruega. A súa frota conxunta de máisde setenta barcos agarda oculta tras a illa de Svolder opaso do lexendario drakkar “Gran Serpe” do seu inimigo.Un traidor, Sigvalde, tenta levar a frota norueguesa deonce barcos a través dun estreito paso cara á emboscadapreparada polos seus inimigos.

Gran Serpe é o barco máis grande de Trigvesson e seríadoadamente recoñecido entre o conxunto da frota, peroos seus inimigos non o viran antes, e os 11 barcos vanpasar o canal, un por un, en orde aleatoria, sen que sexa

posible ver máis naves que a que vai saíndo do estreito, etan alonxadas entre si que se a coalición ataca un barcoque non sexa a nave real, alertará aos seguintes e o reifuxirá.

“Svein, alí vén o primeiro, e parece grande. . . Será o dorei. . . ? Ataquemos. . . !”, “Non, Olaf. . . non sabemos seé o rei. Quizais pase en derradeiro lugar, ou no me-dio. . . elixiremos ao chou un número entre un e once, eese será a nosa presa, non temos alternativa mellor”.

Hai alternativa? Tes algunha estratexia que permita aOlaf e a Svein elixir mellor a súa presa?

A solución estará dispoñible, proximamente, neste enlace. Permanecede atentos!

Dirección:

Paula Raña Míguez

Equipo editorial:

Esther Calvo Ocampo, Ma Jesús Casado Barrio,Balbina Casas Méndez, Tomás Cotos Yáñez,Rosa Crujeiras Casais, Ma Esther López Vizcaíno,Silvia Ma Lorenzo Freire, Javier Roca Pardiñas eRebeca Villaverde López.

Revisión lingüística:

María Miragaya Pereira

Coa colaboración de:

José María Sorando Muzás, Ma José Ginzo Villamayor,Salvador Naya Fernández, Javier Tarrío Saavedra,Amalia Jácome Pumar e Antonio Vaamonde Liste.

COLABORA!!!Informest é unha publicación cuadrimestral daSGAPEIO que podes atopar na web da sociedade,www.sgapeio.es/, no apartado PUBLICACIÓNS.

Se queres participar cun artigo de divulgación paraa sección “Colaboracións” ou cunha curiosidadeestatística para o “Sabías que?”, contacta con nósno correo [email protected] onde te informaremosdas normas de edición.

Anímate!!

Comunicación coa SGAPEIO:

Facultade de Matemáticas, Campus Vida, 15706-Santiago de Compostela, A Coruña.

[email protected]@sgapeio.esTwitter @sgapeioLinkedIn SGAPEIO

Depósito Legal: LU-191-1995 - I.S.S.N.:1695-7083

21| Informest