Post on 04-Jul-2022
1
Trading Algorítmico – Un Análisis Para El Mercado Financiero
Colombiano1
Juan David Trujillo Velásquez
Estudiante de Economía
Universidad de los Andes
jd.trujillo1284@uniandes.edu.co
Abstract
Este documento presenta la estructura de un algoritmo de negociación para el mercado
financiero colombiano que genera retornos positivos en el tiempo. Se plantean dos
estrategias de trading diferentes: 1. Negociar el spread entre las acciones preferencial y
ordinaria de Bancolombia; 2. Negociar Ecopetrol y encontrar un modelo que prediga la
dirección que toma el precio de cotización de la compañía. Para la segunda estrategia se
prueban diferentes modelos de predicción: Regresión Logística, Support Vector Machine, y
Regresión Multinomial con diferentes variaciones. Se encuentra que el mercado
colombiano permite la inclusión de este tipo de sistemas pues se generan utilidades
positivas en ambas estrategias. Los modelos de predicción presentan diferentes resultados
bajo un escenario con comisión versus sin comisión dada la periodicidad de las señales de
transacción. La lógica detrás de los dos modelos es económica y responde a fundamentales,
y se verifica la posibilidad de adaptar el trading algorítmico al mercado local.
Palabras clave: Trading Algorítmico, Modelos de Predicción, Regresión Logística,
Trading de Alta Frecuencia, Support Vector Machine, Regresión Multinomial.
JEL: C88, C80, C1, G17
1 Juan David Trujillo Velásquez, Economía, jd.trujillo1284@uniandes.edu.co. Asesor: Diego Jara, Profesor Facultad de Economía, Universidad de los Andes, diego.jara@quantil.com.co
2
Tabla de contenido
1. Introducción ...................................................................................................................... 3
2. Descripción del entorno electrónico ................................................................................ 4
3. Revisión de literatura ....................................................................................................... 8
4. Modelo 1: Spread Bancolombia .................................................................................... 10
4.1 Modelo Teórico ....................................................................................................................... 10 4.2 Metodología y descripción de los datos ................................................................................ 11
5. Modelo 2: Ecopetrol ....................................................................................................... 14
5.1 Modelos, Metodología y Descripción de los Datos .............................................................. 14
6. Resultados y Análisis ...................................................................................................... 18
6.1 Spread Bancolombia .............................................................................................................. 18 6.2 Regresión logística – Ecopetrol ............................................................................................. 20 6.3 Support Vector Machine – Ecopetrol ................................................................................... 25 6.4 Regresión Multinomial Categórica (RMC) - Ecopetrol ..................................................... 26 6.5 Regresión Multinomial Continua (RMCO) - Ecopetrol ..................................................... 28
7. Conclusiones .................................................................................................................... 29
Bibliografía .......................................................................................................................... 33
3
1. Introducción
El mercado financiero colombiano ha experimentado un marcado crecimiento durante los
últimos años. Cada vez más productos están disponibles para inversionistas que
anteriormente no contaban con muchas herramientas de cobertura, especulación e
inversión. Esta nueva ola de productos eventualmente traerá al mercado local una estrategia
que es utilizada por gran parte de los actores de mercado en el contexto internacional: el
trading algorítmico. Un sistema creado computacionalmente que envía señales al mercado a
partir de los elementos que se especifiquen en el algoritmo de negociación. La ventaja de
estas estrategias es que permiten seguir la misma lógica económica que seguiría un
operador en tiempo real pero eliminando ciertas ineficiencias como la incapacidad de
monitorear diferentes precios de cotización de manera automática, y eliminar el factor
psicológico que en ocasiones lleva a tomar decisiones basadas en emociones más que en
fundamentales. Esta nueva necesidad de llevar el mercado hacia un desarrollo que
incorpore este tipo de sistemas, será la base para tratar de estimar una estrategia deseable
desde el punto de vista del inversionista.
Desde una perspectiva local, el estudio sobre este tipo de modelos no ha sido desarrollado
de manera muy profunda. Por lo tanto, este trabajo estudia un contexto poco explorado en
el sector financiero local. Así mismo, existen grandes actores que se verían beneficiados
con la inclusión de este tipo de estrategias. Desde grandes Fondos de Pensión hasta
comisionistas de bolsa, podrían destinar parte de sus inversiones al desarrollo de nuevas
estrategias de trading utilizando algoritmos que sigan cierta lógica económica y objetivos
de inversión específicos propios de cada entidad. Por esta razón este trabajo analiza dos
principales estrategias, una muy clara que monitorea el spread entre Bancolombia ordinaria
y Bancolombia preferencial para encontrar momentos en que este se ubica por fuera de los
límites normales y así tomar posiciones que busquen generar ganancias. La segunda
estrategia explorará diferentes modelos de predicción para anticipar la dirección del precio
de Ecopetrol haciendo uso de diferentes variables explicativas como el precio del petróleo,
sus rezagos, y su desviación estándar. Para este modelo se hará un análisis con los precios
de cierre diarios de los dos activos, y otro modelo con precios intradía para verificar si es
4
posible generar utilidades con un algoritmo que monitorea los activos con una periodicidad
más pequeña.
Si bien el mercado de capitales colombiano ha ganado popularidad en el contexto global, la
iliquidez y las ineficiencias dificultan la justa apreciación de los activos locales. Es
interesante verificar si bajo este esquema es posible obtener ganancias al incluir una nueva
estrategia como el Trading Algorítmico. No obstante, es importante considerar activos que
no se vean golpeados tan fuertemente por problemas de liquidez para facilitar la entrada y
salida en la negociación diaria. Tanto Bancolombia como Ecopetrol se consideran acciones
de una liquidez media-alta y son de esta forma activos sobresalientes para considerar en el
estudio actual. Se encontró que las dos estrategias ofrecen alternativas para generar
retornos. Los modelos de predicción utilizados se comportaron bien incluso después de
incluir las comisiones para obtener las utilidades netas. Estos resultados abren la
posibilidad de considerar los modelos planteados como alternativa para desarrollar modelos
mucho más rigurosos y estrategias más estructuradas. El trabajo se divide en siete secciones
principales, la primera de ellas es la introducción recientemente presentada. En la segunda
parte se da un breve contexto del trading algorítmico, que a su vez ayuda a justificar la
motivación del trabajo. En la tercera sección se hace una revisión de literatura donde se
presentan trabajos similares que han buscado estudiar los mercados de capitales utilizando
modelos como los que se usarán acá. En el cuarto capítulo se presenta el marco teórico,
metodología y descripción de los datos del modelo del spread de Bancolombia.
Posteriormente, el capítulo 5 se enfoca en el modelo 2, Ecopetrol. Finalmente, el capítulo 6
despliegan los resultados del estudio, y en la última sección se presentan las conclusiones.
2. Descripción del entorno electrónico
El trading algorítmico busca encontrar modelos que predigan de la forma más acertada
posible, la dirección o el precio al que podrían llegar a cotizar distintos activos. Lo
interesante de este tipo de estrategia es que se puede plantear con miras a diferentes
objetivos de inversión, los principales son:
5
1. Manejo de las operaciones y su impacto de mercado. Este tipo de
estrategia es utilizado principalmente por los grandes actores en el entorno
financiero internacional. Fondos de pensiones, bancas de inversión, fondos mutuos,
etc. manejan posiciones que requieren una gestión eficiente de las ordenes para no
encarecer las transacciones en las que incurren. Específicamente, si un fondo de
pensiones tiene dentro de su estrategia vender una porción significativa de su
portafolio invertido en cierto activo, es necesario gestionar la forma en que se
realizará dicha operación. Probablemente si es un porcentaje significativo de
acciones, la liquidez del mercado no permitirá ejecutar dicha transacción sin afectar
el precio de cotización. Por esta razón el algoritmo monitorea la demanda por el
activo y descarga la posición de manera paulatina buscando vender al precio más
alto posible. Esta sería una gestión eficiente de la operación que beneficiaría
fuertemente al fondo de pensiones.
2. Estrategias de Inversión. Divididas principalmente en: 1. Market making: que
se refiere a la labor realizada por operadores encargados de proveer liquidez a los
mercados, estando dispuestos a tener un precio de compra, así como un precio de
venta del mismo activo. Este oficio es de vital importancia para que el inversionista
pueda tener la certeza de poder entrar y salir de una posición cuando este lo
considere necesario. 2. Inter-Market spreading: una estrategia en la que el
algoritmo se encarga de monitorear diferentes mercados y encontrar activos cuyas
correlaciones hacen posible la negociación de los mismos. El algoritmo encuentra
ciertos patrones que permiten generar señales en las que uno de los activos se asume
barato y el otro caro, punto en que la señal de compra y venta es ejecutada. Este tipo
de estrategias dependen de la eficiencia en el manejo de información característico
de un computador. 3. Arbitraje: situación en la que un inversionista puede obtener
beneficios positivos sin riesgo alguno de tener perdidas en su inversión. Los
mercados presentan este tipo de situaciones en muy pocas ocasiones pues ante la
aparición de dicha oportunidad, esta desaparece rápidamente a medida que esta es
aprovechada. El manejo de datos de alta frecuencia y algoritmos monitoreando gran
cantidad de activos en todo momento es lo que hace posible este tipo de estrategia.
6
La incapacidad humana de realizar esta labor es una de las principales motivaciones
para la inclusión del trading algorítmico en gran parte de los mercados financieros
mundiales. 4. Especulación: la facilidad para integrar diferentes señales a un
algoritmo es otra razón que hace este campo algo cada vez más relevante dentro del
contexto global. Un operador puede generar señales que considere explicativas para
que el algoritmo ejecute una orden de compra o venta cuando este encuentre ciertos
comportamientos en el mercado analizado.
3. Trading de Alta Frecuencia. El trading de alta frecuencia o High Frequency
Trading (HFT) se refiere a una estrategia que consiste en la ejecución de ordenes en
periodos de tiempo supremamente pequeños. El éxito de este tipo de maniobras esta
ligado a la ventaja que se tenga en términos temporales versus el mercado en
general. Acceder a precios y cotizaciones antes que el mercado lo haga es una
ventaja real que ofrece grandes oportunidades para generar retornos por encima de
lo normal.
Si bien los mercados financieros colombianos aún tienen mucho campo para desarrollarse,
es importante señalar que este tipo de estrategias es cada vez más relevante dentro de los
escenarios internacionales. Tal como se ve en el Gráfico 1, En el año 2005 el porcentaje de
las operaciones del mercado de renta variable en los Estados Unidos estaba en un 21%
dominado por el High Frequency Trading, y para el 2009 esta cifra había crecido hasta un
61%. El caso europeo no es muy diferente donde pasó del 1% en el 2005 al 38% en el
2010. Es cierto que este comportamiento es evidente sobre las economías desarrolladas, no
obstante, es de esperar que a medida que el avance se esparce a las economías emergentes,
estas incorporen este tipo de sistemas.
De igual forma, existen grandes beneficios con el uso del trading algorítmico para un
mercado financiero. Anteriormente se mencionó que un computador puede ser más
eficiente a la hora de dirigir las ordenes en términos de tiempo de ejecución (Ver 1. Manejo
de las operaciones y su impacto de mercado) y de esa manera beneficiarse de choques de
mercado que en un periodo de tiempo muy corto podría generar retornos atractivos. Es
7
decir, una situación en la que una noticia positiva pueda afectar el precio de una acción, le
permitiría a un inversionista alcanzar a generar utilidades antes de que el choque sea
incorporado en el precio y la oportunidad desaparezca. Esta situación a su vez, incrementa
la liquidez producto de las nuevas transacciones ejecutadas por los algoritmos. En
situaciones normales, un mercado con alta liquidez es deseable pues hace más atractivos los
mercados de capitales para los inversionistas, y le ofrece a las compañías una fuente de
financiación más justa y más cercana a lo que es llamado un mercado “eficiente”.
Gráfico 1 – HFT como % de negociación en el mercado de Renta Variable por
volumen
Fuente: Financialtimes.com
Es de vital importancia reconocer que así como existen grandes beneficios producto de la
agregación del trading algorítmico, existen peligros sustanciales que deben ser
considerados previamente. El algoritmo es ejecutado por un computador, lo que implica
que el factor humano sale de la ecuación y por lo tanto este se desarrolla de acuerdo a las
señales que se le imponen al momento de su creación. Es decir, puede que un error humano
en la creación del algoritmo o simplemente choques aleatorios disparen las señales del
sistema y este establezca transacciones que no necesariamente quieran ser ejecutadas. Este
elemento es muy importante para el mercado colombiano que aún tiene un sistema
regulatorio ajustado. Es claro que lo único que buscan estas medidas es disminuir la
21%
1%
26%
5%
35%
9%
52%
21%
61%
29%
56%
38%
US
Europa
US
Europa
US
Europa
US
Europa
US
Europa
US
Europa
2005 2006 2007 2008 2009 2010
8
volatilidad de los mercados y generar confianza entre inversionistas tanto locales como
extranjeros sobre la certeza de sus inversiones.
La importancia de esto debe estar encaminada a evitar episodios como el del 6 de mayo de
2010 cuando se presentó un crash en la bolsa de Estados Unidos. Se le atribuye al trading
algorítmico este episodio cuando en aproximadamente 30 minutos el índice Standard &
Poors 500 perdió alrededor de 100 puntos pasando de 1140 a 1040. A pesar de que esta
caída se normalizó posteriormente, los mercados experimentaron gran incertidumbre y las
pérdidas para la compañía que ejecutó dichas transacciones fueron trascendentales.
3. Revisión de literatura
La particularidad de este trabajo es que se analizan dos estrategias totalmente diferentes, la
primera sigue una lógica económica clara en donde se asume una fuerte correlación entre el
precio de una acción ordinaria y una preferencial, estas para la misma compañía. La
segunda se basa en un modelo de predicción donde estadísticamente se busca encontrar
cierta relación entre las variables independientes y dependiente. En el ámbito académico, la
investigación se ha enfocado en el segundo tipo de estrategia, Dutta, Bandopadhyay, &
Sengupta (2012), utilizaron una regresión logística para investigar si ciertos indicadores
financieros podrían afectar el desempeño de acciones negociadas activamente en el
mercado de India. El objetivo de utilizar este modelo estaba encaminado a la clasificación
de las compañías en dos grupos, “Buena” o “Mala” a partir de indicadores como %Change
in Net Sales, Sales/Net Assets, Price/Cash EPS, etc. Lo que encuentran los autores es que si
es posible determinar cuáles son las compañías que tendrían un desempeño por encima de
lo normal haciendo uso de dichas variables.
Existe una gran cantidad de métodos que pueden ser utilizados para predecir el
comportamiento de las acciones en un determinado índice bursátil. Herramientas de
Machine Learning incorporan modelos de predicción cada vez más sofisticados y que
pueden arrojar mejores aproximaciones al problema de predecir el comportamiento de los
activos negociados en mercados financieros. Hargreaves & Hao (2013), no solo verifican la
9
eficacia de un modelo de regresión logística sino incorporan modelos de redes neuronales
para encontrar el mejor modelo de predicción. Los autores plantean una estrategia de
selección de acciones con el objetivo de obtener un escenario con un desempeño superior al
de un benchmark, en este caso el índice de Australia (Australian All-Ordinaries Index). Sus
resultados muestran que su método tiene un mejor desempeño que el índice y en promedio
su aproximación tuvo un acierto en la predicción de la dirección de las acciones de forma
similar. Para el caso de redes neuronales, el modelo predijo correctamente una subida en el
precio de cotización un 68% de las veces (Contra un 79% para la regresión logística),
versus un 72% de acierto en la caída del precio (Contra un 68% para la regresión logística).
Si bien existe una gran cantidad de métodos de predicción, es interesante ver como un
modelo como el de regresión logística tiene tal grado de acierto. Chen, Chen, & Ye (2013),
hacen un análisis cuyo objetivo es aplicar diferentes métodos de Machine Learning para
predecir la dirección y fuerza de los movimientos de precio de un índice de mercado. Lo
interesante del trabajo es que en todos los escenarios la regresión logística multinomial tuvo
un mejor desempeño en términos de robustez, precisión de las predicciones, y eficiencia en
el tiempo de ejecución. Otra conclusión importante es que los modelos tuvieron un mejor
desempeño utilizando datos semanales que diarios. Para el caso de este trabajo, uno de los
modelos buscará verificar si una periodicidad intradía, minuto a minuto es más efectiva
para mejorar la capacidad de predicción para que el algoritmo reaccione de forma más
inmediata a los choques que afecten el precio del petróleo.
Uno de los argumentos principales que validan la posibilidad de obtener retornos por
encima del índice de mercado tiene que ver con la hipótesis de mercados eficientes en la
que se argumenta que si un mercado es eficiente, su precio refleja toda la información
relevante y por tanto no es posible generar retornos anormales. Para el caso colombiano,
problemas de iliquidez, desconocimiento por parte de gran parte de la población, entre
otros, son razones que justifican la hipótesis de que el mercado local no es eficiente, en
cuyo caso sería posible crear una estrategia que genere retornos positivos por encima de un
benchmark. Precisamente bajo esta premisa, Bilbrey, Riley, & Sams (2013), presentan un
modelo que pretende desmentir la hipótesis de mercado eficiente y probar que su modelo
puede generar retornos superiores. Los autores utilizan tanto una regresión lineal como una
10
regresión logística en su modelo y buscan ajustar los resultados dado el perfil de riesgo del
inversionista.
Huang, Nakamori, & Wang (2004), utilizan el método de Support Vector Machine (SVM)
para predecir la dirección del ínidice NIKKEI 225 con una periodicidad semanal. Lo
interesante del estudio realizado es que al comparar dicho método con otros métodos de
Machine Learning, fue el que más éxito tuvo en la correcta predicción de la dirección. Los
otros métodos utilizados fueron Linear Discriminant Analysis, Quadratic Discriminant
Analysis, y Redes Neuronales. Obtuvieron al final del periodo de análisis un 73% de éxito
en sus predicciones lo cual representa una buena capacidad de predicción del modelo de
SVM.
El valor agregado de este trabajo estará en las conclusiones para el mercado colombiano, un
mercado poco explorado en el campo del trading algorítmico, y en el que las ineficiencias
dificultan la inclusión de instrumentos financieros más complejos, riesgosos pero que a su
vez permiten grandes oportunidades escondidas de generar beneficios para aquellos que
están dispuestos a explorar nuevos campos en las finanzas.
4. Modelo 1: Spread Bancolombia
4.1 Modelo Teórico La primera aproximación es algo práctica y es una estrategia utilizada por gran parte de los
operadores del mercado de valores de Colombia. La estrategia se plantea sobre una acción
ordinaria y una preferencial. Las diferencias principales entre estos dos tipos de activos
tienen que ver con el derecho al voto y la prioridad en la entrega de dividendos. En cuanto a
los fundamentales, si las acciones analizadas pertenecen a la misma compañía, el precio de
las dos debería llevar cierta tendencia. Sin embargo, en todo momento debe existir cierto
spread que diferencia el precio de cotización de los dos tipos de acción. La estrategia sigue
la lógica de que existen momentos en que el spread se amplía por encima de niveles
normales, caso en el que se debe estar listo para generar ganancias en la inversión. Así las
11
cosas, el modelo buscará identificar episodios en donde esta relación puede entenderse
como barata o cara para comprar o vender el spread.
La relación se calculará tomando el precio de la acción preferencial y restando el precio de
la ordinaria para calcular las diferencias en el periodo de tiempo analizado. Una señal de
compra del spread se traduciría en comprar la acción preferencial y vender la ordinaria.
Caso contrario en que una venta sería una venta de la preferencial y compra de la ordinaria.
Se asume que la estrategia se puede ejecutar directamente, es decir se permite la existencia
de ventas en corto, y acceso a mejor precio disponible. Esto es posible mediante el supuesto
de que este tipo de estrategias es utilizada por grandes jugadores en el contexto financiero
local como fondos de pensión cuyas posiciones en los dos activos son considerablemente
grandes. Por lo tanto una señal de venta se traduce en vender una parte de la posición que
estos fondos posean de la acción en cuestión.
4.2 Metodología y descripción de los datos Para la estrategia del spread de Bancolombia se utilizarán los precios de cierre diarios de
los dos tipos de acciones desde el 1 de enero de 2013 hasta el 1 de julio de 2015, es decir
4565 observaciones. Los datos han sido descargados de la plataforma Bloomberg y el
algoritmo se construye en R. La estructuración de la estrategia toma los primeros 180 días
de la muestra y calcula dos veces la desviación estándar para generar las señales de compra
y venta del día 181. Al final del día 181, el algoritmo reajusta la desviación estándar para
los últimos 180 días y de esa forma calcula las señales que utilizará en el día 182. Esta es la
estrategia y esta se va ajustando diariamente, lo cual es necesario porque el algoritmo debe
enviar las señales sin conocer previamente si esto habría sido una estrategia ganadora. En
términos generales se puede afirmar que los datos de entrenamiento son los 180 primeros
días, los cuales son utilizados para calcular las primeras señales y estas van cambiando a
medida que la volatilidad del spread afecta los límites de señal de compra y venta.
Adicional a esto, el algoritmo tiene que ser delta neutral, es decir, no permite estar muy
expuesto en cierta posición. Si el algoritmo genera una señal de venta, no es posible volver
a vender hasta que haya una nueva señal de compra. Esta es una estrategia para gestionar el
12
riesgo y cubrir al inversionista en caso de que el spread se aleje de su media y por cualquier
razón no se estabilice nuevamente.
Para agregar rigurosidad al planteamiento, se establecieron unos stop-loss que son órdenes
de mercado utilizadas para limitar la cantidad de pérdidas que tiene cierta posición cuando
los resultados no concuerdan con los esperados en términos de dirección. Para este caso, la
pérdida máxima aceptada es de $600 pesos, supuesto obtenido del calculo que del 10% de
la inversión inicial (suma del precio de las acciones ordinaria y preferencial de
Bancolombia al inicio del periodo analizado).
En la tabla 1 se muestra una matriz de correlación entre la acción ordinaria y la preferencial
de Bancolombia. Esta relación es muy fuerte y es a través del uso de un sistema
computarizado que monitoreando dicha relación se pueden generar grandes beneficios.
Tabla 1 – Correlación Bancolombia ordinaria y Bancolombia preferencial
Bancolombia
ordinaria Bancolombia preferencial
Bancolombia ordinaria 1.0000 0.9989
Bancolombia preferencial 0.9989 1.0000
El algoritmo seguirá de cerca la diferencia entre el precio de cotización de las dos acciones,
buscando reconocer los momentos en que esta se aleja de los límites normales (explicados
por la desviación estándar). Tal como se ve en el gráfico 2, hay momentos en que el spread
está muy alto o muy bajo y posteriormente se vuelve a estabilizar alrededor de cierta media.
El gráfico 3 muestra claramente lo planteado en el modelo teórico y en la metodología, la
desviación estándar hacia arriba y hacia abajo ofrece ciertos límites de confianza a la hora
de generar las señales de ejecución de las transacciones, y es una variable que se va
ajustando día a día. El gráfico incorpora triángulos para las señales de venta del spread, y
círculos para las compras. Es interesante notar por el gráfico que la mayoría de las veces los
triángulos están por encima de los círculos lo cual nos podría dar cierta certeza sobre la
13
efectividad de la estrategia. Se asume un nivel de comisión del 0.08% que es característico
de un gran fondo de inversiones y por la baja cantidad de transacciones que genera el
algoritmo, se esperaría que las comisiones no se traduzcan en una pérdida significativa de
rentabilidad.
Gráfico 2
Gráfico 3
14
5. Modelo 2: Ecopetrol
5.1 Modelos, Metodología y Descripción de los Datos Regresión Logística
Para el segundo modelo, se parte de un análisis fundamental donde se identifican variables
independientes que pueden ser utilizadas de forma más exitosa para predecir la dirección
del precio de Ecopetrol. El modelo hace uso de los precios intradía de Ecopetrol desde el 20
de febrero del 2015 hasta el 3 de septiembre del mismo año. Los datos son obtenidos de la
plataforma Bloomberg, con una periodicidad de 1 minuto, lo que suma alrededor de 50310
observaciones en el periodo de tiempo analizado. Dado que las posiciones serán tomadas
cada diez minutos, se disminuye el número de observaciones a 5031 datos.
La lógica detrás del uso de variables con periodicidad tan pequeña reside en la ventaja que
representa esto en términos de ejecución. Es decir, un choque importante en los
fundamentales de una compañía como Ecopetrol, es de esperarse que impacte
positivamente el precio de la acción. No obstante, acceder a ese choque de manera
anticipada es un trabajo difícil en un mercado donde diferentes actores están monitoreando
esta información. En general, un modelo de predicción, si es ejecutado exitosamente,
permitiría anticipar al mercado y reconocer que ante ciertos escenarios, el precio puede
reaccionar de una u otra forma. Así las cosas, el modelo planteado es una regresión
logística con la dirección del precio de Ecopetrol (“Up” o “Down”) como variable
dependiente, y otras variables independientes presentadas a continuación:
• Variable dependiente:
‘direccion’: Variable binaria que señala la dirección que toma el precio de Ecopetrol en
los siguientes 10 minutos. ‘Up’ señala que para una observación x, de haber comprado
la acción en ese periodo de tiempo, se habría obtenido un beneficio pues la acción
habría subido a los 10 minutos. ‘Down’ se refiere a las observaciones en que el precio
cayó o se mantuvo intacto en los siguientes 10 minutos.
• Variables Independientes:
15
‘cl1_(x)’: Variable continua que muestra en cuanto cayó o subió el precio del petróleo
en los x minutos anteriores. x siendo una variable que incluye los minutos 3, 5, 10, 15,
20, 30.
‘eco(x)’: Variable continua que muestra en cuanto cayó o subió el precio de Ecopetrol
en los x minutos anteriores. x siendo una variable que incluye los minutos 3, 5, 10, 15,
20, 30.
‘sd_eco’: Variable continua que muestra la desviación estándar del precio de Ecopetrol
en los 10 minutos anteriores.
‘sd_cl1’: Variable continua que muestra la desviación estándar del precio del petróleo
en los 10 minutos anteriores.
‘mean10’: Variable continua que muestra el cambio del precio de Ecopetrol actual
versus el promedio del precio de los últimos 10 minutos.
‘mean10_cl1’: Variable continua que muestra el cambio del precio del petróleo actual
versus el promedio del precio de los últimos 10 minutos.
Tabla 2 – Estadísticas descriptivas
eco3 eco5 eco10 eco15 eco20 Min. -50.0000 -50.0000 -50.0000 -50.0000 -50.0000 Mediana 0.0000 0.0000 0.0000 0.0000 0.0000 Media -0.0640 -0.0330 -0.0750 -0.1120 -0.1270 Max. 45.0000 45.0000 45.0000 50.0000 45.0000
eco30 eco10_post sd_eco mean10 cl1_3 Min. -50.0000 -50.0000 0.0000 -45.0000 -0.4800 Mediana 0.0000 0.0000 0.0000 0.0000 0.0000 Media -0.1730 -0.0750 1.2700 -0.0390 0.0001 Max. 45.0000 45.0000 18.9400 36.0000 0.7600
cl1_5 cl1_10 cl1_15 cl1_20 cl1_30 Min. -0.5500 -0.8100 -1.1200 -1.1400 -1.2100 Mediana 0.0000 0.0000 0.0000 0.0000 0.0000 Media -0.0003 0.0004 -0.0003 0.0008 0.0015 Max. 0.9500 1.1900 1.5700 1.8100 2.1900
16
sd_cl1 mean10_cl1
Min. 0.0000 -0.5370 Mediana 0.0373 -0.0010 Media 0.0462 0.0000 Max. 0.4341 0.6840
En la tabla 2 es posible observar algunas estadísticas descriptivas de variables que fueron
relevantes a la hora de estimar el mejor modelo. En general, dado que la mayoría de
variables son rezagos con una periodicidad pequeña tanto de Ecopetrol como del petróleo,
se puede observar que las estadísticas son relativamente bajas. Por ejemplo, las medias
normalmente están muy cerca de cero. Así mismo, los mínimos y máximos sobre todo para
Ecopetrol no superan los $50 pesos, algo que tiene lógica en un mercado poco líquido como
el colombiano. Comparativamente hablando, los datos del petróleo son más volátiles
teniendo en cuenta que estos cotizan en dólares. Luego un rango de precios de USD$3.40
(cl1_30) es un movimiento mucho más amplio que sólo COP$95 (eco30).
Cabe resaltar que una de las motivaciones principales para elegir este tipo de variables es
tratar de capturar los efectos tan rápido como sea posible. Por eso los datos son minuto a
minuto y las variables explicativas toman la información más reciente (3, 5, 10, 15, 20, 30
minutos anteriores). La idea es probar diferentes periodicidades y verificar si el modelo
tiene mejor poder de predicción al incorporar mayores variables en el modelo. En cuanto a
las variables que incorporan la desviación estándar, la lógica tiene que ver con que el
modelo sea capaz de reconocer episodios donde pudo explicar la dirección del precio a
partir de una volatilidad inusual del mismo Ecopetrol o del petróleo.
La regresión logística, buscará entonces estimar unos coeficientes que predigan de la mejor
forma posible la probabilidad de que el precio de la acción suba. Al obtener los resultados,
el éxito del algoritmo se basará en la capacidad que tenga el mismo de obtener beneficios
positivos.
• Datos de entrenamiento
direccion Down 4132 Up 899
17
Para confirmar la efectividad del modelo, este se corre en un periodo de ‘entrenamiento’ en
el cual se estiman ciertos coeficientes. Para este caso, del total de las 5031 observaciones,
4099 fueron usadas para entrenar el modelo.
• Datos de testeo
Una vez el modelo estima los coeficientes usando los datos de entrenamiento, estos son
utilizados para predecir las probabilidades en los datos de testeo. En este caso, se toman los
restantes 932 datos para probar la efectividad de la estimación y ver si se obtienen
beneficios positivos.
Support Vector Machine
La lógica y variables utilizadas en este caso son las mismas que para la Regresión
Logística. Sin embargo, se acude a este método como alternativa para verificar si este
modelo ofrece mejores resultados. En cuanto a la operatividad del modelo, este toma las
observaciones de la base de datos y busca clasificarlos dependiendo de las variables
explicativas que encuentra. Bajo un escenario simple, el SVM genera un plano divisorio en
donde a lado y lado hay observaciones que pertenecen a una u otra categoría. La distancia
entre cada uno de estos puntos y el hiperplano divisorio es computada y la menor distancia
es conocida como margen de separación. La forma que tiene el SVM de encontrar el plano
divisorio más eficiente es al maximizar dicho margen, lo que en palabras simples se refiere
a separar a la mayor distancia posible las observaciones.
El problema es que en la realidad es complicado obtener un hiperplano que separe
correctamente la totalidad de las observaciones. Por esta razón el SVM ofrece variaciones
en su metodología en donde incluye diferentes formas funcionales (desde polinomicas hasta
radiales) que se ajusten de manera más precisa a las observaciones a clasificar.
Regresión Multinomial (RM)
Finalmente, el último modelo analizado es la Regresión Multinomial, que buscará predecir
una variable de tres niveles: ‘Up’, ‘Down’ y ‘Neutral’. El objetivo será capturar de la forma
más precisa una predicción sobre el precio que la acción tomará en los siguientes 10
18
minutos pero disminuir el costo transaccional que supone el modelo de Regresión Logística
que solo predice compra y venta del subyacente. En cuanto a la metodología, la Regresión
Multinomial tiene características similares a la Logística donde la variable a predecir será
una probabilidad de que cierto episodio se presente para la observación a predecir.
Se probarán dos metodologías, la primera es de cierta forma tradicional donde se buscará
predecir los tres niveles mencionados anteriormente (Categórica). El segundo método
predecirá una variable continua que muestre las ocasiones en que el precio no sólo muestre
dirección sino fortaleza de la señal (Continua).
6. Resultados y Análisis
6.1 Spread Bancolombia
El algoritmo sobre el spread fue construido asumiendo que el spread de las acciones
ordinaria y preferencial de Bancolombia se mueve alrededor de cierta media. Es decir, se
espera que no haya una tendencia marcada pues el subyacente (La compañía Bancolombia)
es el mismo para las dos acciones. No obstante, es difícil asumir que un inversionista
partiría de tal supuesto para realizar sus decisiones de inversión. Recordando lo
mencionado anteriormente, se incorpora un stop-loss para mitigar las pérdidas en
momentos donde la tendencia no sea neutral.
En general, la estrategia fue exitosa pues durante el periodo de tiempo analizado, el
algoritmo generó ganancias positivas y a medida que el tiempo avanzaba, se acumulaban
más ganancias. A continuación se presenta la gráfica del estado de pérdidas y ganancias
computadas diariamente. Se hace una comparación con el benchmark del mercado de
capitales colombiano, el índice COLCAP. Tal como lo muestra la gráfica, la estrategia
habría superado al índice por un margen muy superior.
19
Gráfico 4 – P&G Spread Bancolombia vs. Colcap
La línea verde en el gráfico 4 muestra el índice Colcap que pasó de alrededor de 178 puntos
a principios del 2003 a aproximadamente 1230 puntos en septiembre de 2015. La línea azul
representa el nivel de cero que muestra el punto donde las ganancias pasarían a ser
negativas. En este sentido lo que se concluye es que las utilidades derivadas de la inversión
dirigida por el algoritmo habría generado más ganancias pero hay un periodo donde se
generan pérdidas. Por el contrario, el índice tuvo un desempeño más consistente y menos
riesgoso durante el periodo de tiempo analizado.
La tabla 3 muestra el número de días que en promedio estuvo abierta una u otra posición.
En este caso, el algoritmo dejó al inversionista en una posición de venta en
aproximadamente 158 días, neutral 26 días y de compra 89 días. Es decir, se destaca un
escenario predominantemente vendedor en el que el algoritmo anticipa caída en el nivel del
spread, que como se mencionó anteriormente, es posible para un gran fondo de inversión
salir de parte de su stock del activo que se pretenda vender.
Tabla 3 – Estadísticas de las señales
Corto Neutral Largo # promedio de días con posición abierta 158.54 26.80 89.71 # de señales emitidas por el algoritmo 30 0 29
20
Tabla 4 – Utilidades
Utilidades Máxima ganancia $19,520.00 Máxima perdida -$600.00 Promedio trade largo $210.62 Promedio trade corto $52.64
Utilidades promedio (Anuales) Máxima ganancia $1,626.67 Máxima tasa de retorno 28.28% Máxima pérdida -$50.00 Minima tasa de retorno -10.43%
La tabla 4 muestra el nivel de utilidades y algunas estadísticas en el periodo de tiempo
analizado. Uno de los resultados más interesantes es que el algoritmo generó más ganancias
en promedio ante una señal de compra con un promedio de $210.62 versus $52.64 para las
señales que fueron de venta. Es decir, la subida de precios beneficia más al algoritmo que
una caída en el spread. La máxima perdida está dada por el stop-loss mencionado
anteriormente que acota las pérdidas a un nivel de $600. Finalmente, las ganancias de
$19,520 son las acumuladas a lo largo de los casi 12 años en los que se realizó el análisis.
Anualizando los resultados, estos son gratificantes al considerar el precio inicial de los dos
tipos de acciones en el momento que el algoritmo comenzó a operar. Se obtiene un 28% de
retorno anual en promedio (sin comisión). Claramente este número disminuye si se tienen
en cuenta las comisiones y los movimientos posteriores en el precio de cotización.
6.2 Regresión logística – Ecopetrol
La tabla 5 muestra los resultados de la regresión logística utilizando las variables
presentadas en el apartado anterior. La estimación de los coeficientes muestra que algunas
variables rezagadas tanto del petróleo como de Ecopetrol son significativas (rezagos de 3, 5
y 20 minutos de Ecopetrol, la desviación estándar de Ecopetrol y del Petróleo, y los rezagos
de 5 minutos del Petróleo). Lo más interesante del modelo tiene que ver con el poder de
predicción que tenga sobre Ecopetrol y las ganancias derivadas de seguir las
recomendaciones que el modelo genere.
21
Tabla 5 – Regresión logística
22
Tabla 6 – Matriz de confusión
Datos reales
Down Up
Modelo Down 2,288 328 Up 1,096 387
La tabla 6 es una matriz de confusión que muestra el número de veces que el modelo
predijo que el precio iba a tomar cierta dirección y lo compara contra los datos reales de las
observaciones. Lo ideal es que la matriz muestre sólo números en las diagonales, caso en
que predeciría correctamente todas las veces la variable de interés. Sin embargo, es difícil
obtener tales resultados en la práctica. Lo importante de esta matriz es que muestra una tasa
de éxito del 65.25% obtenido del número de veces que generó correctamente la predicción
sobre la dirección que tomaría el precio en los 10 minutos siguientes. En este sentido, 2,288
veces el modelo predijo que el precio caería y efectivamente cayó, versus 328 veces que
predijo incorrectamente una caída cuando realmente subió. Para las subidas de precio, este
lo hizo de manera incorrecta 1,096 veces cuando realmente cayó y acertó 387 veces cuando
en efecto subió. Las probabilidades se generan a partir de la función logística de la forma:
𝑝 𝑑𝑖𝑟𝑒𝑐𝑐𝑖𝑜𝑛 = ′𝑈𝑝′ =𝑒!!.!"!!.!"∗!.!"±!.!"#∗!!!.!"#∗!.!"#!!.!"∗!.!"#!⋯
1+ 𝑒!!.!"!!.!"∗!.!"±!.!"#∗!!!.!"#∗!.!"#!!.!"∗!.!"#!⋯ = 0.2004
Resultados datos de testeo
Si bien es importante que el modelo se comporte correctamente con los datos de
entrenamiento, lo realmente necesario es que al aplicar los coeficientes en los datos de
testeo el modelo funcione bien. Para este caso, los resultados siguen siendo buenos. Las
23
probabilidades se tomarán del modelo que buscará predecir una u otra dirección a partir de
los estimadores generados en los datos de entrenamiento.
En la tabla 7 se presentan los resultados de las predicciones obtenidas del modelo en una
nueva matriz de confusión. Es de vital importancia entender que el modelo se entrena en los
primeros 4099 datos y genera las predicciones para los últimos 932 y así verificar la
consistencia y entender si bajo un escenario práctico se podría establecer una estrategia de
trading con miras al futuro.
Tabla 7 – Matriz de confusión datos de testeo
Datos reales
Down Up
Modelo Down 510 86 Up 238 98
La tasa de éxito en la predicción de la dirección de Ecopetrol disminuyó levemente para los
datos de testeo, ubicándose en 65.23%.
Tabla 8 – Minutos promedio con posición abierta
Minutos promedio con pos. Abierta Largo 19.2 Corto 33.8
Tabla 9 – Resumen de utilidades sin comisión, Regresión Logística
Utilidades – mes (Sin comisión) Máxima ganancia $770.00 Máxima perdida - Promedio trade largo $1.91 Promedio trade corto $1.78
La tabla 8 presenta datos de interés acerca del tiempo en que el algoritmo mantiene al
inversionista expuesto a una u otra posición. Para el caso de la regresión logística los datos
24
apuntan a que la posición vendedora tuvo una exposición mayor a la compradora. A pesar
de que el tiempo de exposición no es muy alto, si hay que resaltar que dado que el riesgo de
una posición corta es mayor al de una larga, un inversionista adverso al riesgo preferiría
tener menor exposición a la venta que a la compra. Tal como se mencionó anteriormente, la
relevancia del modelo está dada más que por la tasa de éxito, por la cantidad de dinero que
hace. En este sentido también se generaron buenos resultados pues al finalizar el periodo de
análisis se generaron utilidades positivas. La tabla 9 muestra tanto las ganancias agregadas
como los promedios de una y otra posición. No hay una marcada diferencia en este punto
que muestre que el algoritmo tuvo más éxito prediciendo compras que ventas. Al analizar
estos datos, se puede concluir que son alentadores. Sin embargo, la inclusión de comisiones
cambia el panorama:
Tabla 10 – Escenario con comisión
Utilidades - mes (comisión 0.08%) Máxima ganancia $64.42 Máxima perdida -$233.72 Promedio trade largo -$0.51 Promedio trade corto -$0.64 Señales corto 176 Señales largo 175 Ganancia acumulada al final -$83.76 Tasa de retorno -5.15%
Tal como lo muestra la Tabla 10, la inclusión de las comisiones afecta fuertemente los
resultados presentados anteriormente. El hecho de que el algoritmo genere 176 señales de
venta y 175 de compra implica costos transaccionales que afectan significativamente las
utilidades obtenidas en el periodo de tiempo analizado. A medida que la comisión aumenta,
la estrategia se hace poco viable pues las pérdidas van sobrepasando las utilidades. Es
necesario señalar que dichas situaciones pueden ser mitigadas con una estrategia de trading
mucho más avanzada que incorpore elementos como stop-loss y take-profit para hacer
mucho más eficiente la ejecución y manejo de las operaciones.
25
6.3 Support Vector Machine – Ecopetrol Para este modelo se estableció un límite para el cual se suponía un cambio tan pequeño en
el precio de Ecopetrol, que se designó una variable categórica de tres niveles: ‘Up’ para las
observaciones en que predecía una subida significativa para los siguientes 10 minutos,
‘Down’ para las caídas significativas en los siguientes 10 minutos, y ‘Neutral’ para cuando
anticipaba un cambio poco significativo para los siguientes 10 minutos. La lógica detrás de
este método estaba enfocado en reducir la cantidad de transacciones ejecutadas y
consecuentemente la disminución de pagos por comisión. La estrategia fue planteada
diariamente de tal forma que al cierre bursátil diario, el inversionista tuviera una posición
neutral.
Tabla 11 – Matriz de confusión, Support Vector machine, datos de testeo
Datos reales
Down Neutral Up
SVM Down 75 174 45
Neutral 113 328 122 Up 5 53 17
Tal como lo muestra la matriz de confusión presentada en la tabla 11, ahora se genera una
variable categórica con los tres niveles explicados anteriormente. Es interesante señalar que
este método obtiene un 45.06% de éxito en la predicción de los datos. Sin embargo, los
resultados en términos de utilidad serán los que nos interesan a la hora de definir el éxito o
fracaso de la estrategia.
Tabla 12 – Resultados SVM
SVM – Resultados mes Sin Comisión Comisión 0.08% Máxima ganancia $410.00 $110.01 Máxima perdida -$5.00 -$59.80 Promedio trade largo $2.58 $0.17 Promedio trade corto $3.71 $1.29 Ganancia acumulada al final $405.00 $100.19 Tasa de retorno 24.92% 6.17%
26
Tal como lo muestra la tabla 12, el modelo de SVM cumple el objetivo de generar una
rentabilidad atractiva durante el tiempo analizado inclusive después de considerar
comisiones. Sin embargo, es importante señalar que hay momentos donde se evidencian
pérdidas significativas, las cuales podrían ser mitigadas con una estrategia de trading
mucho más robusta que incorpore elementos mencionados anteriormente.
La gráfica 5 incorpora los resultados diarios de seguir las recomendaciones obtenidas del
modelo de SVM. La gráfica izquierda muestra tanto el P&G diario sin comisión como la
comisión neta acumulada pagada por cada transacción. La gráfica de la derecha muestra el
desempeño de la estrategia después de incorporar los pagos por comisión. Lo interesante es
que al final del periodo de tiempo de análisis, la estrategia es rentable, aunque atraviesa por
momentos de pérdidas significativas.
Gráfica 5 – Estado de pérdidas y ganancias con y sin comisión
6.4 Regresión Multinomial Categórica (RMC) - Ecopetrol
Bajo este método, la variable a predecir era la categórica que incluía las tres variables de
salida “Up”, “Down” y “Neutral”. El número de señales identificadas por el modelo es
considerablemente bajo (alrededor de 18 operaciones por posición) lo cual tiene un efecto
significativo sobre las utilidades después de comisión. El modelo tiene una tasa de acierto
del 60.1% especialmente por el éxito prediciendo las veces que Ecopetrol se queda neutral.
A continuación la matriz de confusión:
27
Tabla 13 – Matriz de confusión
Datos reales
Down Neutral Up
R.M. (Categórica)
Down 9 9 3 Neutral 178 542 171
Up 6 4 10
En cuanto a los resultados, el modelo se comporta bien y con resultados similares a los
observados en el SVM. Una rentabilidad después de comisión cercana al 6% es atractiva
para el periodo de tiempo analizado. Una de las variables relevantes al análisis es la
máxima pérdida evidenciada la cual fue de cerca de $7 pesos versus casi $60 para el SVM.
Este elemento es un determinante para elegir la mejor estrategia dado que estoy accediendo
a la misma rentabilidad a un menor riesgo (Ver tabla 14). Estos resultados son más visibles
en el gráfico 6 donde se ve el impacto de las transacciones y comisiones sobre las utilidades
obtenidas en esta estrategia.
Tabla 14 – Resultados RMC
R.M. (Categórica) Mes Sin Comisión Comisión 0.08% Máxima ganancia $240.00 $171.52 Máxima perdida $- -$7.21 Promedio trade largo $4.61 $2.18 Promedio trade corto $6.38 $3.95 Ganancia acumulada al final $175.00 $99.29 Tasa de retorno 10.77% 6.11%
Gráfica 6 – Estado de pérdidas y ganancias con y sin comisión (RMC)
28
6.5 Regresión Multinomial Continua (RMCO) - Ecopetrol
Este método sigue la misma lógica presentada por el modelo anterior. Sin embargo, la
variable de salida no es categórica sino continua. El modelo utiliza esa variable para
predecir la probabilidad de que cada una de las observaciones se realice. Entre ellas,
encontrará cambios como 5, 10, 15, 20, etc. (pesos). Con cierta probabilidad. La
metodología utilizada toma la probabilidad más alta para predecir ese evento. Dependiendo
si el pronóstico es positivo, se utiliza la variable ‘Up’, negativo ‘Down’, o un cambio muy
leve ‘Neutral’. Esto permite establecer un límite bajo el que solo se ejecutan señales donde
el modelo prediga dirección y fortaleza de la reacción de la acción. Para este método, la
tasa de éxito disminuye frente a la variable categórica que presentaba una tasa de éxito de
alrededor del 60%, versus 51% para el caso de la variable continua. La tabla 15 presenta la
matriz de confusión para el modelo en cuestión.
Tabla 15 – Matriz de confusión
Datos reales
Down Neutral Up
R.M. (Continua)
Down 90 153 54 Neutral 74 337 73
Up 29 65 57
En cuanto a los resultados, nuevamente las utilidades serán el elemento a considerar cuando
se verifique la viabilidad de la estrategia. En general los resultados son buenos y de cierta
forma similares a los obtenidos en el modelo anterior lo cual tiene sentido. De hecho, este
modelo podría presentar mejores retornos considerando que los límites se establecen para
que las señales tengan una mayor precisión. La Tabla 16 muestra una tasa de retorno del
8.67% después de comisión. El modelo tiene poder de predicción, y los resultados del
modelo parecen ser los mejores en comparación con los demás analizados.
29
Tabla 16 – Resultados RMCO
R.M. (Continua) Mes
Sin Comisión
Comisión 0.08%
Máxima ganancia $605.00 $168.05 Máxima perdida $- -$8.75 Promedio trade largo $3.48 $1.06 Promedio trade corto $2.93 $0.50 Ganancia acumulada al final $585.00 $140.81 Tasa de retorno 36.00% 8.67%
Gráfica 7 – Estado de pérdidas y ganancias con y sin comisión (R.M. Continua)
7. Conclusiones
Si bien el mercado colombiano no posee las características de liquidez que poseen las
economías más desarrolladas, el Trading Algorítmico es una estrategia que eventualmente
invadirá el sector financiero local. El éxito de este trabajo fue estudiar una rama de las
finanzas poco explorada en el contexto local. Se plantearon diferentes métodos, todos con
el objetivo de verificar la viabilidad de este tipo de sistemas, específicamente la capacidad
de generar retornos positivos en el periodo de tiempo analizado.
El modelo del spread de Bancolombia generó buenos resultados, y se concluyó que bajo los
supuestos descritos a lo largo del trabajo, si es posible estructurar un algoritmo que genere
30
retornos operando el spread de dos tipos de acciones que manejan los mismos
fundamentales. La oportunidad se pudo explotar al tomar posiciones cuando choques de
mercado alejaron el spread por fuera de los límites normales. Los resultados dan clara
evidencia de la existencia de excelentes oportunidades de obtención de retornos,
específicamente al utilizar la estrategia de pairs trading introducida en el segundo capítulo.
La operatividad de las dos acciones se planteó utilizando una unidad de cada tipo de acción,
no obstante es posible ampliar el portafolio de acciones a más unidades. La buena liquidez
de estas acciones podría dar lugar a operar 100 acciones por señal sin ningún problema, y
consecuentemente incrementar en la misma proporción tanto las ganancias como las
pérdidas presentadas con anterioridad.
Se resalta que para aplicar este modelo de manera práctica, es necesario estructurar toda la
estrategia de trading que se necesita para asegurar ganancias y mitigar pérdidas. Fue posible
concluir que las acciones analizadas si se mueven alrededor de cierta media, lo cual va de la
mano con la lógica detrás del supuesto inicial (acciones de la misma compañía deberían
seguir una misma dirección).
Finalmente, en la segunda parte del trabajo se probaron diferentes modelos de predicción
buscando el que mejores retornos generara durante el periodo de tiempo de análisis. La
Tabla 17 presenta el resumen de los resultados analizados después de comisión para poder
verificar los resultados de manera precisa. El modelo que peor se comportó fue el de
Regresión Logística que generó una pérdida del 5.15% después de comisión. La alta
cantidad de transacciones fue el elemento principal que explica este resultado donde las
comisiones pagadas sobrepasan las utilidades generadas. Los demás modelos fueron
exitosos al generar ganancias positivas. No obstante, el modelo de SVM alcanzó a generar
una pérdida significativa de hasta $59.8 pesos en el curso de transacción. Por su parte, los
modelos de Regresión Multinomial se comportaron de manera exitosa ambos con tasas de
retornos positivas. La Regresión que predijo una variable continua generó mejores
resultados al estructurar un límite bajo el que no solo anunciaba dirección sino fortaleza de
la señal.
31
Tabla 17 – Resumen de resultados (Después de comisión)
La hipótesis de mercado eficiente, que como se mencionó anteriormente, plantea que es
casi imposible generar retornos por encima de un benchmark. El acceso a la misma
información por parte de todos los agentes implica que no deberían existir este tipo de
oportunidades en el mercado. Así las cosas, el mercado colombiano puede no ser lo
suficientemente eficiente facilitando el acceso a generosos retornos. Sin embargo, este
resultado se obtuvo con el uso de los sistemas de trading algorítmico, un campo poco
explorado en el contexto local. Por consiguiente, es de esperar que el mercado reconozca
estas oportunidades y eventualmente incorpore estas estrategias a la dinámica financiera
colombiana.
Un dato concluyente del trabajo estaría enfocado hacia ofrecer una alternativa de inversión
a un inversionista promedio cuyo apetito por riesgo es bajo. La RM Categórica ofrece una
tasa de retorno atractiva al mismo tiempo que las pérdidas máximas generadas están
controladas. En términos generales esta estrategia fue consistente donde las ganancias
fueron levemente menores, pero el desempeño conjunto fue estable. Si el apetito por riesgo
fuera mayor, el inversionista podría preferir la última estrategia que generó mayor retorno
sujeto a una mayor pérdida obtenida en el curso del análisis.
En conclusión, los modelos tuvieron poder de predicción a pesar de presentar diferencias en
resultados, cantidad de transacciones, y consecuentemente utilidades. Las comisiones y el
acceso a un ‘mejor precio’ son elementos que se deben tener en cuenta y posteriormente
incorporarlos al modelo para robustecer la aplicabilidad de estas estrategias a un contexto
práctico. En general, el mercado colombiano permite estructurar estos sistemas pues sus
subyacentes se comportaron correctamente y los modelos generaron ganancias desde
diferentes perspectivas analizadas. Las oportunidades estudiadas implican la existencia de
32
excelentes oportunidades de ganar dinero. Sin embargo, el mercado no las ha explotado
dado que el conocimiento de estas estrategias es relativamente pequeño. Esto abre campo a
una nueva e interesante área en el mercado de capitales colombiano que sin duda generará
grandes beneficios en términos de rentabilidad, liquidez, y sobre todo eficiencia del
mercado.
33
Bibliografía Bilbrey, J., Riley, N., & Sams, C. (2013). Short-‐term prediction of exchange traded funds (ETFs) using logistic regression generated client risk profiles. Journal of Finance and Accountancy . Chen, J., Chen, M., & Ye, N. (2013). Forecasting the Direction and Strength of Stock Market Movement. Dutta, A., Bandopadhyay, G., & Sengupta, S. (2012). Prediction of Stock Performance in the Indian Stock Market Using Logistic Regression. International Journal of Business and Information . Hargreaves, C., & Hao, Y. (2013). Prediction of Stock Performance Using Analytical Techniques. JOURNAL OF EMERGING TECHNOLOGIES IN WEB INTELLIGENCE . Hastie, T., James, G., Witten, D., & Tibshirani, R. An Introduction to Statistical Learning. Springer. Huang, W., Nakamori, Y., & Wang, S.-‐Y. (2004). Forecasting Stock Market Movement Direction With Support Vector Machine.