Evaluación comparativa de herramientas de análisis de ... · Además del cáncer y los trastornos...

Evaluación comparativa de herramientas de análisis de número de copia a partir de datos NGS

Estudiante: Felipe Were Eduardo

MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III

2013-2015

Centro Nacional de Investigaciones Oncológicas (CNIO)

Unidad de Bioinformática

Directores: David G. Pisano y Gonzalo Gómez

Tutores: David G. Pisano y Gonzalo Gómez

Fecha: 15/09/2014

AGRADECIMIENTOS:

Me gustaría agradecer a las siguientes personas, sin las cuales no habría sido posible la realización de estas prácticas:

En primer lugar a Gonzalo Gómez y a David Pisano por ofrecerme la posibilidad de hacer las prácticas del máster en su laboratorio y por su asesoramiento durante todo el proceso.

Agradecerle a Ángel Carro por toda su ayuda con el clúster de Ahsoka, incluida la instalación de muchos de los programas que he utilizado.

A Miriam Rubio su ayuda en la primera etapa del Máster, principalmente con el pipeline de RuBioSeq.

A Fátima Al-Sharour y a Elena Piñeiro por haberme proporcionado los “datasets reales”, fundamentales para la realización del proyecto.

A Federico Abascal y a Enrique Carrillo por todos los consejos útiles que me han proporcionado a lo largo de estos meses de prácticas.

A Juan y a José Manuel por su ayuda en la parte informática.

A Jon y a Fernando, a quienes he acribillado a preguntas.

Y en general a todo el equipo que trabaja al final del ala oeste de la planta 0 del CNIO.

OBJETIVOS:

– Revisión bibliográfica de los métodos de análisis de variaciones de número de copia sobre

datos NGS disponibles hasta la fecha.

– Selección de un subconjunto manejable de entre los métodos encontrados e implementación

en el laboratorio.

– Evaluación de la sensibilidad, especificidad y precisión en la asignación de los números de

copia de los métodos seleccionados utilizando datos sintéticos y reales.

– Visualización mediante circos.plot de los resultados de la ejecución de los métodos

seleccionados sobre datos reales.

INTRODUCCION :

Variaciones de número de copia, definición y clasificación: Las variaciones de número de copia (en adelante, CNVs, “Copy Number Variations”) se definen como deleciones o amplificaciones de segmentos del genoma con un tamaño mínimo de entre 50bp y 1kb (Alkan et al., 2011 , Banerjee et al., 2011; Stranger et al., 2007; Feuk et al., 2006). Forman parte del grupo de mutaciones denominado variaciones estructurales (SV), que incluye también trasposiciones e inversiones. El tamaño mínimo de segmento que define una CNVs no está consensuado del todo, pues disminuye a medida que se va incrementando la resolución de los métodos de detección de CNVs (Liu et al., 2013).

Las CNVs se pueden clasificar de distintas formas según el criterio utilizado:

-Según origen:

Germinales (CNVs propiamente dichas). Se originan en la línea germinal y por tanto se transmiten a la descendencia.

Somáticas (SCNA, Somatic Copy Number Alterations). Se originan en células somáticas. Son particularmente frecuentes en tumores.

-Según tamaño (Brosens et al., 2010; Koboldt et al., 2012): Grandes, (”Broad”): Afectan a más del 25% del tamaño de uno de los brazos de un cromosoma. Focales: Más pequeñas, típicamente de tamaño menor a 5 Mb

-Según el tipo de modificación:

Las variaciones de número de copia se definen por comparación con el número de copia normal de 2 de los autosomas de un genoma diploide y se clasifican en:

a) Pérdidas

Deleciones Heterocigotas (se pierde una de las dos copias)

Deleciones Homocigotas (se pierden las dos copias)

b)Ganancias

Amplificaciones (ganancias de 1 o 2 copias)

Grandes Amplificaciones (ganancias de más de 2 copias)

Importancia de los CNVs:

Tanto si afectan directamente a regiones codificantes como si afectan a regiones reguladoras, los CNVs pueden cambiar los niveles de expresión génica. Gran número de CNVs se han relacionado o implicado directamente en enfermedades, con una gran incidencia en trastornos neuropsiquiátricos y en cáncer.

-CNVs en cáncer:

Una de las características más comunes de los procesos tumorales es la presencia de reordenaciones estructurales en el genoma de las células tumorales. Las alteraciones somáticas de número de copia (SCNAs) son ubicuas en células tumorales (Futreal et al., 2004; Negrini et al., 2010; Kim et al., 2013, Albertson et al., 2003; Diskin et al., 2009; Shlien et al, 2009; Beroukhim et al., 2010; Frank et al., 2007) y pueden afectar de forma crítica los patrones de expresión de determinados genes (Stratton et al., 2009; Zack et al., 2013). Una prueba de la importancia de los SCNAs en cáncer es la

existencia de patrones de SCNA que permiten diferenciar entre tipos de cáncer (Stratton et al., 2009;, Beroukhim et al) y analizar la progresión del cáncer y su complejidad (Liu et al., 2013). Los análisis de SCNA pueden llevar a la identificación de genes “directores” del cáncer (Louhimo et al ) y pueden incluso ayudar a establecer criterios sobre el tratamiento (Curtis et al, Dancey et al). Actualmente, la detección de CNVs se ha convertido en una parte esencial del análisis de los genomas de pacientes con cáncer.

-CNVs en trastornos del sistema nervioso

Se han relacionado diversas CNVs con la susceptibilidad de desarrollar diversos trastornos del sistema nervioso (Merikangas et al), como la enfermedad de ALzheimer (Rovelet-Lecruz et al,), la enfermedad de Parkinson (Ibanez et al, Singleton et al), la epilepsia (Helbig et al) y diversos trastornos psiquiátricos, incluyendo la esquizofrenia (Xu et al, Stefansson et al), el retraso mental (McMullan et al, Edelmann et al, Bijlsma et al), el autismo (Weiss et al, Szatmari et al, Paterson et al, Zwaigenbaum et al, Marshall et al, Kumar et al) y el trastorno depresivo (major depressive disorder, Glessner et al). Mediante la generación de mapas de morbilidad de CNVs, un estudio reciente ha logrado identificar 10 genes presuntamente implicados en el desarrollo de trastornos neurocognitivos y del desarrollo (Coe et al).

Además del cáncer y los trastornos del sistema nervioso, se han implicado CNVs en enfermedades autoinmunes (McKinney et al, Yang et al, Fellermann et al, Hollox et al) y en la susceptibilidad a la infección por HIV-1 (Gonzalez et al).

Tecnologías aplicadas al estudio de CNVs:

La necesidad de establecer una identificación precisa de los eventos de modificación de número de copia ha llevado al desarrollo de numerosas técnicas para el análisis de CNVs.

Tradicionalmente se utilizaban técnicas citogenéticas para la identificación de CNVs, como por ejemplo la hibridación de fluorescencia “in situ” (FISH)(Speicher et al, Schaaf et al). Posteriormente, y hasta la llegada de las tecnologías de NGS, las plataformas más utilizadas para el análisis de CNVs eran los arrays de hibridación genómica comparada (aCGH, Pinkel et al ) y los SNParrays (Bignell et al). En la actualidad, se está produciendo una gran proliferación de herramientas de análisis de número de copia basadas en datos NGS.

El análisis de las variaciones de número de copia mediante NGS presenta numerosas ventajas potenciales frente al análisis mediante arrays (Klambauer et al):

1) La estimación del número de copia a partir de datos NGS es más precisa para números de copia grandes, ya que la profundidad de lectura escala de forma aproximadamente lineal con el número de copia (Alkan et al., 2011).

2) Los breakpoints de los segmentos de número de copia determinado pueden ser estimados con mayor precisión, ya que no dependen de sondas predefinidas.

3) Se pueden estimar números de copia correspondientes a alelos específicos, mientras que las técnicas basadas en arrays están restringidas a alelos predefinidos. Esto puede ser interesante para la identificación de mutaciones implicadas en el desarrollo de cáncer (Stratton et al., 2009;)

Estrategias de análisis de CNVs a partir de datos NGS:

Se han descrito 4 métodos para la detección de CNVs a partir de datos NGS, resumidas en la fig1:

a) Pair-End Mapping o “mapeo de lecturas pareadas” (PEM).

Este método requiere del uso de lecturas pareadas (”paired-end”) y se basa en que los fragmentos de

DNA secuenciados mediante NGS tienen un tamaño que sigue una determinada distribución (Chen et al., 2010; Hormozdiari et al., 2009; Xi et al. (b), 2011). De manera que si las lecturas secuenciadas, que corresponden a los extremos de estos fragmentos, mapean a la referencia a una distancia mayor de la esperada, significa que hubo una deleción en el genoma estudiado. Por el contrario, si la distancia entre las lecturas es más pequeña que la esperada, se entiende que se ha producido una inserción en el genoma estudiado, por ejemplo una duplicación.

b) Split Read o “lecturas interrumpidas” (SR).

Este método también requiere del uso de lecturas pareadas (”paired-end”) y se basa la idea de que una lectura no mapeada en el genoma de referencia puede estar localizando un extremo o “breakpoint” de un CNVs (Ye et al., 2009).

c) Assembly-Based o “métodos basados en ensamblaje” (AS).

Este método, que se basa en el ensamblaje “de novo” del genoma, se utiliza de forma casi exclusiva en genomas bacterianos, ya que da problemas con genomas grandes como los humanos (Ye et al., 2009), asi que no nos vamos a extender más sobre él.

d) Depth Of Coverage o “Profundidad de lectura” (DOC).

Este método asume una correlación lineal entre la profundidad de lectura y el número de copia (Abyzov et al., 2011, Yoon et al., 2009). Una profundidad menor a la esperada representará una pérdida o deleción y una profundidad mayor que la esperada representará una ganancia o amplificación. En realidad esta relación no es tan directa porque el proceso de secuenciación no es uniforme, sino que existen distintos biases como los asociados a contenido GC y la mapeabilidad del genoma. Sin embargo, se han desarrollado mecanismos para corregir algunos de estos biases de forma eficiente (ver apartado “Importancia del pre-procesamiento de los datos”). Además, los métodos basados en DOC permiten la asignación precisa de número de copia, mientras que los anteriores solo permiten la asignación de breakpoints. Por todo lo anterior, los métodos basados en DOC son los más utilizados en la actualidad en los estudios de CNVs (Zhao et al., 2013). La profundidad de lectura suele ser procesada para obtener la LRR (Log of Read depth/count Ratio), calculada como el logaritmo en base dos de las lecturas encontradas, relativas a algún valor utilizado como referencia (Liu et al., 2013). Las herramientas de análisis de CNV que usan datos provenientes de un par de muestras normal/tumor, buscan identificar aquellos intervalos para los que el (log) del número de lecturas (corregidas) entre la muestra tumoral y la muestra normal se desvía significativamente de 1.

-Análisis de exomas vs análisis de genoma completo:

Una de las primeras características distintivas de los algoritmos de detección de alteraciones de número de copia basada en datos de NGS es el tipo de secuenciación utilizado: secuenciación masiva de exomas (WES) o de genomas completos (WGS). El análisis de CNVs a partir de datos procedentes de WGS presenta numerosas ventajas frente al de datos procedentes de WES:

a) Los procesos de alteración de número copia se pueden dar en cualquier parte del genoma y no solo en las regiones exónicas. Además, las alteraciones en regiones no exónicas pueden tener efectos fundamentales en la expresión génica, caso ocurran en regiones promotoras o reguladoras de los genes, o en regiones implicadas en la regulación de la estructura de la cromatina.

b) Se ha hecho una evaluación comparada de algoritmos de análisis de número de copia con datos de WGS y WES, encontrándose que las herramientas que usan datos de WGS tienen un rendimiento muy superior al de las herramientas que usan datos WES (Alkodsi et al, 2014). Esto se debe en gran parte a que los algoritmos WES presentan lo que se ha denominado como el “bias exónico”, derivado de la distribución no uniforme de los exones a lo largo del genoma. Esta es una limitación

tecnológica, que no puede ser solucionada mediante algoritmos. Además, la identificación de los breakpoints está sujeta a un error derivado de las distancias inter-exónicas, error que puede ser muy grande (Alkodsi et al., 2014).

c) El abaratamiento de los costes de la secuenciación masiva hará con que cada vez predomine más la secuenciación de genomas completos, frente a la secuenciación limitada a exomas.

Esquema del funcionamiento de una herramienta de análisis CNVs:

En la fig 2 se resume el mecanismo general de funcionamiento de las herramientas de análisis de CNVs , en la que se pueden identificar los siguientes pasos:

a) Recogida de los datos. La profundidad de lecturas a lo largo del genoma (RC o RD), se suele obtener mediante la división del genoma completo en ventanas no solapantes de un tamaño determinado, en las que se cuenta el número de lecturas. Los datos de profundidad de lectura se pueden complementar con datos de frecuencia de alelo B (ver descripción más adelante en el texto) y, en ocasiones, alguna otra información adicional, como la de lecturas discordantes (lecturas paired-end que alinean al genoma de referencia de forma anómala (ver sección métodos de análisis de CNVs, apartado de métodos basados en PEM).

b) Preprocesamiento de los datos crudos y, cuando posible, normalización (mediante la utilización de una muestra normal). El preprocesamiento permite corregir problemas técnicos o biológicos, por ejemplo mediante el filtrado de lecturas de baja calidad y la corrección del bias por contenido GC (ver sección “importancia del pre-procesamiento de los datos”)

c) Segmentación: Se particiona la señal generada en segmentos. Estos segmentos se generan mediante la agrupación de ventanas consecutivas que presentan números de copia suficientemente similares como para asumir que son idénticos. Existen diversos métodos de segmentación, como por ejemplo el método de segmentación circular binario (CBS, Olshen et al., 2004; Popova et al., 2009; Olshen et al (b), 2011), métodos basados en modelos ocultos de Markov (HMM, Yau et al., 2010; Sun et al., 2009) y métodos basados en criterios de información Bayesiana (BIC, Xi et al (a), 2011), entre otros.

d) Interpretación: Se interpretan los datos procedentes del proceso de segmentación, a partir de los cuales se asignan números de copia o estados a los segmentos identificados. Este paso no es necesario en los programas basados en HMM, ya que éstos procesan de forma simultánea la clasificación de ventanas en estados y la agrupación de ventanas consecutivas en segmentos. Además de la asignación de números de copia o de estados, algunos algoritmos diseñados para el análisis de muestras tumorales pueden llegar a identificar el nivel de pureza, el grado de poliploidia y la heterogeneidad tumoral de dichas muestras.

e) Output: Presentación de los resultados obtenidos.

Importancia del pre-procesamiento de los datos:

Corrección por contenido GC y por “mapeabilidad”:

Como ya se ha mencionado, el proceso de secuenciación no es uniforme a lo largo del genoma, sino que presenta “biases”. Los dos “biases” más estudiados son la mappbilidad y el contenido GC (Liu et al., 2013).

-mapeabilidad:

La mapeabilidad de una región de un genoma de referencia se define como la probabilidad de que una lectura procedente de esa región se vuelva a mapear sobre ella sin ambigüedades (Teo et al.,

2012). Algunas herramientas de análisis de CNVs disponen de programas que calculan los valores de mapeabilidad a lo largo de un genoma, y los utilizan para implementar una corrección asociada a la mapeabilidad (Lai et al., 2012).

-Corrección por contenido GC

La profundidad de lectura suele presentar una distribución unimodal respecto de su contenido en nucleótidos GC, que es independiente del tamaño de la región o ventana considerada y de la profundidad media de lecturas (Abyzov et al., 2011; Benjamini et al., 2012; Yoon et al., 2009). Regiones con un contenido GC medio (40 a 55% GC) tienen una profundidad de lectura media mayor que las de contenido GC más alto o más bajo. Al igual que las correcciones de mapeabilidad, algunas herramientas de análisis de CNVs han inlcuido en su software algoritmos de corrección del bias asociado al contenido GC (Teo et al., 2012; Yoon et al., 2009)

Importancia de la inclusión de un control normal (“matched normal”) cuando se analizan muestras procedentes de tumores:

El uso de un control normal diploide permite asegurar que cualquier artefacto que aparezca simultáneamente en tumor y normal, como por ejemplo biases específicos de la plataforma de secuenciación utilizada, regiones no secuenciables, etc, sean corregidas o eliminadas de forma eficiente ( Xi R (a), 2011). Se facilita también la corrección de los efectos de bias que provienen del contenido GC o de mapeabilidad del genoma, ya que se pueden comparar directamente las profundidades de lectura de tumor y normal. La presencia de matched normal también permite la identificación de locus de SNPs heterocigotos para calcular el valor BAF o de imbalance alélico (ver apartado “información sobre frecuencia del alelo B” (BAF)) y filtrar los CNVs benignos del paciente (Liu et al., 2013)

Problemas asociados al análisis de muestras tumorales:

El análisis de CNVs en tumores presenta sus propias complicaciones, derivadas de la presencia de contaminación en las muestras y de anomalias genómicas difíciles de identificar. Es frecuente encontrar que las muestras de tejidos tumorales presentan infiltraciones de estroma normal (no-tumoral), lo que resulta en una inevitable contaminación con DNA normal y la dilución de las señales correspondientes a aberraciones somáticas (Boeva et al., 2011, 2012; Gusnanto et al., 2012; Ha et al., 2012; Mayrhofer et al., 2013). La presencia de impurezas en muestras tumorales puede alterar significativamente los datos WGS, particularmente cuando las células normales dominan sobe las tumorales. Sin embargo, muy pocas herramientas de análisis de CNVs tienen la capacidad de abordar este problema. Entre los que sí lo hacen se incluyen FREEC (Boeva et al., 2011, 2012), APOLLOH (Ha et al., 2012), CLImAT (Yu et al., 2014) y Patchwork (Mayrhofer et al., 2013). Un problema similar surge cuando se utilizan modelos de xenotransplantes en ratón, es decir, transplantes de muestras de tumores humanos en ratones. En estos casos el problema deriva de la contaminación de las muestras tumorales con tejido de ratón (Huynh et al., 2011). WaveCNVs es una herramienta de análisis de número de copia de genomas secuenciados mediante NGS que se ha desarrollado para el análisis de muestras de tumores incluyendo modelos de xenotransplantes (Holt et al). Además de la presencia de impurezas en los tumores, éstos presentan con frecuencia fenómenos de aneuploidia, derivados de las anomalias estructurales y numéricas que con frecuencia se presentan en los cromosomas de genomas tumorales (Carter et al., 2012). La interpretación de los datos procedentes de NGS se hace especialmente complicada en muestras tumorales con presencia de impurezas y de aneuploidia (Oesper et al., 2013). La herramientas Patchwork y CLImAT, de análisis de número de copia en tumores, toman en consideración tanto la presencia de impurezas como el fenómeno de aneuploidia (Mayrhofer et al., 2013, Yu et al., 2014). A todos estos problemas técnicos hay que añadir el hecho de que los propios tumores pueden ser internamente heterogéneos,

subdividiéndose en subclones con propiedades diferentes (Liu et al., 2013).

Información sobre frecuencia del alelo B (BAF) o “imbalance” alélico: El análisis de las alteraciones de número de copia basado exclusivamente en la profundidad de lectura puede presentar problemas, debido a los diversos biases que pueden presentar los datos, a las características intrínsecas de las muestras analizadas y a variaciones experimentales (Liu et al., 2013). Muchos algoritmos añaden la información de frecuencia del alelo B “BAF” o “imbalance” alélico, basada en la fracción alélica presente en el locus de cada SNP. Si llamamos 'alelo A' al alelo que se corresponde con el mismo nucleótido que se encuentra en el genoma de referencia, y 'alelo B' al que presenta un nucleótido diferente, el valor de “imbalance” alélico se calcula como b/(a+b). En un genoma normal diploide, los valores de “imbalance” alélico correspondientes a los genotipos AA, AB, BA y BB son 0, 0.5, 0.5 y 1 respectivamente. Como se puede ver, solo se consideran las proporciones alélicas, de forma que los genotipos AB y BA son indistinguibles. Si un evento CNV altera el número de copias, el valor de “imbalance” alélico puede variar, dependiendo del número de copias. Por ejemplo, si hay m copias del homólogo 1 y n copias del homólogo 2 en una región de un genoma tumoral, el valor de BAF puede ser alguno de los siguientes, 0, m/(m+n), n/(m+n) y 1. Diversos factores, como la contaminación de muestras tumorales por células normales, puede alterar estos valores teóricos. El análisis de estas variaciones sobre el valor teórico puede aportar información sobre el grado de contaminación de una muestra tumoral con células normales (Liu et al., 2013, Boeva et al 2012). La ploidia también se puede revelar mediante información procedente de BAF. Por ejemplo, la diploidia admite las posibilidades 0, 0.5 y 1, y la tetraploidia añade las posibilidades 0.25 y 0.75.

Principales características de los algoritmos Patchwork y HMMcopy:

En el presente trabajo se ha hecho una recopilación de las herramientas de análisis de CNVs descritas en la literatura hasta la fecha. Se seleccionó un subconjunto para su implementación en el laboratorio. Dos de ellas, “BIC-seq” y “seqCNA”, dieron diversos errores durante el proceso de implementación y ejecución, por lo que tuvieron que ser descartadas. Las otras dos herramientas seleccionadas, “Patchwork” y “HMMcopy”, fueron implementadas con éxito, y a continuación se procedió a la evaluación de su capacidad de detección de CNVs, con datos simulados y reales.

HMMcopy

HMMcopy es una colección de herramientas para la detección de CNVs o SCNAs a partir de datos de secuenciación de genoma completo (WGS)(Ha et al., 2012; Dempster et al., 1977; Lai et al., 2012). El algoritmo empieza computando el número de lecturas en muestras tumoral y normal, utilizando ventanas con un tamaño fijo, que puede ser especificado por el usuario. Sobre esas mismas ventanas de tumor y control, HMMcopy obtiene un perfil de contenido GC y mapeabilidad. Tras filtrar las ventanas con contenido GC extremo y las de baja mapeabilidad, el algoritmo normaliza el contenido GC y la mapeabilidad de las muestras tumor y normal por separado. Finalmente, se normalizan las lecturas de tumor frente a las normales y empieza el proceso de segmentación. El proceso de segmentación usa un modelo oculto de Markov (HMM) de 6 estados donde en el primer paso se estiman los parámetros óptimos de segmentación mediante un algoritmo EM (”Expectation-Maximization”) y en el segundo paso ejecuta la segmentación propiamente dicha mediante el algoritmo Viterbi (Forney et al., 1973), el cual asigna uno de seis posibles estados de número de copia a cada segmento (0, 1, 2, 3, 4 y 5 o más copias, para los estados 1 a 6, respectivamente).

En resumen:

-Input de HMMcopy: Ficheros BAM de lecturas Tumor/Normal y fichero fasta del genoma

utilizado para el alineamiento.

-Parámetros de HMMcopy:

a) Tamaño de ventana con la que dividir el genoma (default: 1 kb).

b) Parámetros de segmentación:

Los Parámetros de segmentación se dividen en 2 categorias: • Parámetros iniciales: e, mu, lambda, un, kappa

• Parámetros de flexibilidad: strength, m, eta, gamma, S Los parámetros iniciales fijan los parámetros de partida para el algoritmo de optimización y los parámetros de flexibilidad definen el grado de variación que se admite sobre los parámetros iniciales durante el proceso de optimización. La modulación de estos parámetros por el usuario permite controlar tanto el proceso de segmentación como el de asignación de número de copia a los segmentos generados. Todos los parámetros de HMMcopy tienen un valor asignado por defecto.

-Output de HMMcopy: HMMcopy genera un fichero excel que entre su información incluye las coordenadas de los segmentos no solapantes identificados, el cromosoma al que pertenecen y el estado asignado a cada segmento.

Patchwork:

La herramienta Patchwork ha sido diseñada para el análisis de variaciones de número de copia en tejido tumoral. Su principal característica es la incorporación de información sobre el “imbalance” alélico o BAF, que complementa la información basada en profundidad de lectura.

En la fig 3 se representa el diagrama de flujo correspondiente al funcionamiento de Patchwork, que consta de los siguientes pasos:

1) Se alinean las lecturas al genoma de referencia.

2) Se extraen las variantes de copia única (o, de forma opcional, los Indels) que no coincidan con el genoma de referencia.

3) Se normaliza por contenido GC y otros efectos de posición de naturaleza desconocida. Para llevar a cabo este proceso, se dividen los datos de lecturas alineadas en ventanas con un tamaño fijo de 200pb. La normalización por contenido GC se efectúa mediante la generación de grupos de ventanas con contenido GC similar y posterior normalización de la profundidad de lectura en cada ventana según contenido GC del grupo al que pertenece. Para la normalización de otros efectos de posición se utiliza la información de profundidad de lectura de muestras que hayan sido secuenciadas con el mismo método que el utilizado para la muestra tumoral.

4) Se segmenta el genoma en base a la profundidad de lectura normalizada y resumida en ventanas de 10kb. La segmentación se lleva a cabo por el método de segmentación circular binario (CBS).

5) Se identifican las variantes heterozigotas informativas.

6) Se calcula el ratio de imbalance alélico para cada segmento, de acuerdo con la siguiente fórmula: (∑ mayor - ∑ menor)/(∑ mayor), donde ∑ mayor y ∑ menor representan el número de lecturas correspondientes a los alelos mayoritarios y minoritarios, respectivamente, sumados para todos los SNPs heterocigotos que cubren ese segmento.

7) Se visualiza en un plot el ratio de imbalance alélico vs profundidad de lectura normalizada en los segmentos genómicos.

8) El usuario interpreta el plot anterior y determina los parámetros/argumentos a utilizar en el siguiente paso (más adelante se explica el procedimiento).

9) Se calcula el número de copia específico de alelo para cada segmento genómico. Los pasos 3 a 7 y el paso 9 se llevan a cabo con los módulos Patchwork.plot() y Patchwork.copynumbers() respectivamente.

En la fig 4 se muestra un ejemplo del procedimiento a emplear para la asignación de parámetros al módulo Patchwork.copynumbers(). El plot de la izquierda muestra como a cada nº de copia, posicionada sobre el eje horizontal según su profundidad de lectura, le corresponde una distribución concreta de estados de imbalance alélico, siendo mayor el número de estados posibles a mayor número de copia. A partir de estos datos, se pueden establecer los argumentos a utilizar en el módulo Patchwork.copynumbers y que son los siguientes:

El argumento cn2 es la posición del número de copia 2 en el eje profundidad de lectura. En este ejemplo, cn2 es ~0.8.

El argumento delta es la diferencia entre dos números de copia consecutivos en el eje de profundidad de lectura. En este ejemplo se toman los números de copia 2 y 3. En este ejemplo es ~0.28.

El argumento het es la posición del número de copia 2 heterozigoto en el eje de “imbalance” de alelos. En este ejemplo het es ~0.21.

El argumento hom es la posición del número de copia 2 homocigoto en el eje de “imbalance” de alelos. En este ejemplo hom es ~0.79.

Aunque el plot de la fig 4 muestra una situación ideal, la presencia conjunta de impurezas, aneuploidia y heterogeneidad tumoral, entre otros, pueden dificultar la interpretación de este tipo de plots, como se discutirá en la sección de resultados.

Además del análisis de números de copia, Patchwork también permite calcular la ploidia media (definida como el número de copia medio de todos los segmentos genómicos, ponderado por el tamaño de segmento) y el grado de pureza de las muestras tumorales. La ploidia y la pureza se calculan mediante fórmulas basadas en variaciones entre las profundidades de lectura normalizadas encontradas y las que se esperan para muestras tumorales puras de células diploides.

En resumen:-Input de Patchwork: Fichero BAM de lecturas y ficheros mpileup y VCF con información de SNPs e Indels, de Tumor y Normal

-Output de Patchwork: se genera un fichero excel que entre su información incluye las coordenadas de los segmentos no solapantes identificados, el cromosoma al que pertenecen, el número de copia asignado a cada segmento y porcentaje de células tumorales presente en la muestra

-Parámetros de Patchwork: Los dos módulos de Patchwork, Patchwork.plot y Patchwork.copynumbers, admiten parámetros que se pueden utilizar para modular el proceso de segmentación y la asignación de número de copias.

Figura 1: Aproximaciones metodológicas para la detección de CNVs a partir de lecturas procedentes de NGS (figura tomada de Min Zao et al).

Figura 2: Diagrama de flujo que muestra el mecanismo de funcionamiento de los métodos de análisis de variaciones de número de copia a partir de datos NGS (figura tomada de Liu et al., 2013. )

Figura 3: Diagrama de flujo del mecanismo de funcionamiento de Patchwork (Figura tomada de Mayrhofer et al., 2013).

Figura 4: Representación esquemática del típico plot de “imbalance” de alelos vs profundidad de lectura generado por el módulo Patchwork.plot() de Patchwork.A) Se representan sobre las manchas del plot las posibles combinaciones de dos alelos (verde y morado) que les pueden corresponder. CN = número de copia.B) Se representan sobre el plot los valores de los argumentos a utilizar durante la ejecutación del módulo Patchwork.copynumbers. Figura procedente del tutorial online de Patchwork.

MATERIALES Y METODOS

En el presente estudio, se evaluaron los algroritmos de análisis de número de copia “Patchwork” y “HMMcopy” utilizando datasets artificiales y reales.

Generación y análisis de datasets artificales:

En la fig5 se resume el proceso utilizado para crear los genomas artificiales y la introducción de CNVs, mientras que en la fig 6 se presenta esquemáticamente el pipeline completo de generación de los datasets artificiales. El proceso completo consta de los siguientes pasos:

1) Generación de “minigenomas artificiales”

En un principio, se había planeado partir exclusivamente del cromosoma 22 para la generación de genomas artificiales, ya que es el autosoma más pequeño del genoma humano y por tanto, el más manejable. Sin embargo, Patchwork no permite el análisis de cromosomas individuales, y utiliza como input ficheros que contienen información procedente del genoma completo. Con el objetivo de construir un genoma mínimo capaz de ser procesado por Patchwork, se generó un genoma artificial que consta del cromosoma 22 completo, flanqueado por una concatenación ordenada de pequeños segmentos procedentes de la región 3' de cada uno de los cromosomas que componen el genoma humano (Ver fig5). El genoma artificial resultante tiene un tamaño aproximado de 80Mb, frente a los 3000Mb del genoma completo.

2) Introducción de SNPs

Para reproducir de forma fidedigna las propiedades de los genomas reales se han introducido SNPs e indels en el genoma. Para ello se ha utilizado la herramienta Genome-simulator (Coval-Simulate), que incorpora SNPs e Indels de 1 a 6 pb de tamaño de forma aleatoria en genomas de referencia, siguiendo una distribución uniforme. Este programa introduce las mutaciones respetando las frecuencias naturales que ocurren en el genoma humano (en el caso de SNPs, 4 veces más transiciones que transversiones (Zhao et al., 2013) y en el caso de los indels, frecuencias de 66%, 17%, 7%, 7%, 2%, 1% para los indels de 1pb, 2pb, 3pb, 4pb, 5pb y 6pb respectivamente (Fujimoto A)). El programa permite que el usuario controle la cantidad total de SNPs y de Indels introducidos. En nuestro caso, se introdujeron los valores default del programa, 0.1% de SNPs y 0.01% de Indels, valores que coinciden con los predichos por algunos autores para el genoma humano (Pang et al., 2010).

3) Generación de las variaciones de número de copia:

El siguiente paso consistió en la generación de las variaciones de número de copia en el genoma tumoral. Para simplificar el modelo, se decidió no introducir CNVs en el control, no alterando así el sistema de coordenadas del genoma de tumor relativo al del genoma de referencia.

Los CNVs se introdujeron mediante la función “simulateSV” del paquete RSVSim de R/Bioconductor (version 1.6.1, Bartenhagen C, 2014).

Esta función permite la introducción de variaciones estructurales en genomas de referencia, con tamaño de segmento fijado por el usuario. Aplicando esta función sobre los ficheros fasta generados en el paso anterior, se introdujeron deleciones y amplificaciones de segmentos de 3 tamaños (20kb, 200kb y 1Mb), en coordenadas aleatorias del genoma.

Las deleciones heterocigotas y las ganancias de una sola copia se produjeron mediante la introducción de las modificaciones correspondientes en uno solo de los dos genomas artificiales utilizados como referencia para la generación de lecturas. Las deleciones homocigotas se obtuvieron mediante la introducción de pérdidas de segmentos en la misma posición (es decir,

utilizando la misma semilla en la función simulateSV) en los dos genomas artificiales. Se ha visto que muchas veces las variaciones estrucurales co-ocurren con mutaciones mucho más

pequeñas (Bartenhagen C, 2014). Para simular esta situación en nuestros datasets, se han introducido SNPs e Indels de hasta 10pb de tamaño en la regiones flanqueantes proximales (hasta una distancia de 50pb) de los breakpoints de los CNVs introducidos.

Para dar valor estadístico al estudio, se realizaron 10 copias de cada genoma artificial, cada uno con una colección de CNVs situadas en coordenadas distintas. En total, se generaron 20 genomas artificiales simulando genomas tumorales, divididos en 2 grupos. El primero incluye deleciones y pequeñas amplificaciones (3 y 4 copias) y el segundo incluye grandes amplificaciones (6, 8 y 10 copias). En cada grupo las coordenadas de los segmentos con número de copia alterado se variaron mediante la asignación de un número de semilla diferente en la función simulateSV.

4) Generación de las lecturas simuladas:

Para las primeras pruebas, se utilizó el software Sherman Artificial Dataset Generator, un simulador de lecturas cortas. Sin embargo, para los análisis definitivos se seleccionó el software ArtificialFastqGenerator (Frampton et al). Este software permite la generación de lecturas paired-end con una profundidad de lectura que simula el bias por contenido GC del genoma (ver apartado “Corrección por contenido GC” en introducción). Esto es particularmente importante en nuestro caso porque permite evaluar la capacidad de corrección por contenido GC de las herramientas de análisis de NGS que hemos evaluado. Utilizando los ficheros fasta procedentes del paso anterior, se generaron lecturas de 90 pb, paired-end, con un tamaño medio de fragmento de 210 pb y una desviación típica sobre la media de 60pb (los dos últimos valores son valores default del programa).

El número de lecturas se ajustó para generar una profundidad media de lecturas de aproximadamente 6x. La elección de un valor de profundidad relativamente bajo se justifica porque las lecturas artificiales generadas presentan características muy optimizadas respecto de las lecturas que se generan por las plataformas NGS, como por ejemplo la ausencia en ellas de errores de secuenciación.

5) Procesamiento de los ficheros FASTQ de lecturas. Las lecturas se alinearon al genoma de referencia humano correspondiente al ensamblaje “hg19” de UCSC. Para el alineamiento, la ordenación e indexación de las lecturas se utilizaron los softwares BWA y Samtools.

La generación de ficheros mpileup y VCF a partir de los ficheros BAM, requeridos por el algoritmo Patchwork, se ha llevado a cabo con el software bcftools y el programa de Perl “vcfutils.pl”.

El funcionamiento de HMMcopy empieza mediante la subdivisión del genoma en ventanas que contendrán información de número de lecturas, asi como el perfil GC y la mapeabilidad del genoma (ver introducción). En este proceso, se utilizó un tamaño de ventana de 1kb, que es el valor default del programa.

7) Evaluación de los Algoritmos:

Los segmentos estimados por HMMcopy y Patchwork se compararon con los segmentos reales, cuyo tamaño y número de copia se había definido durante la generación de los datos simulados. La sensibilidad y especificidad de los algoritmos se calculó en base al grado de solapamiento de las lecturas, a una resolución de 1pb. Aunque en algunos estudios previos no se habían impuesto restricciones en cuanto al grado mínimo de solapamiento entre los segmentos estimados y reales para el cálculo de los valores de sensibilidad y especificidad (Alkodsi et al., 2014; Duan et al., 2013), nosotros hemos pensado que sería más correcto preseleccionar como positivos aquellos segmentos estimados para los que el solapamiento con los reales fuese mayor del 70%. Para ser considerados positivos, los segmentos estimados también tenían que compartir el “estado de

número de copia”, deleción o amplificación, con los correspondientes segmentos reales. Las intersecciones se generaron utilizando la función “bedtools intersect” del software bedtools. Una vez obtenidas las intersecciones se calcularon los siguientes parámetros: TP: número total de pb solapantes entre los segmentos estimados y los reales (70% de solapamiento mínimo entre segmentos) .

FP: número total de pb en los segmentos estimados que no solapan con los segmentos reales.

FN: número total de pb en los segmentos reales que no solapan con los segmentos estimados.

La sensibilidad y especificidad de los algritmos HMMcopy y Patchwork se calculó utilizando las siguientes fórmulas:

Sensibilidad: TP/TP+FN

Especificidad: TP/TP+FP

Procesamiento y evaluación de datasets reales:

Para evaluar los algoritmos de análisis de número de copia sobre datasets reales, se utilizaron datos de secuenciación WGS de dos muestras de tumores primarios procedentes de dos pacientes varones con Carcinoma Adenoide Cístico (Adenoid cystic carcinoma (ACC)). Se utilizó una de las dos muestras tumorales para simular la correspondiente muestra normal en los algoritmos de análisis de CNVs, ya que no disponíamos de muestras de tejido normal de estos pacientes. Las muestras fueron secuenciadas en una plataforma Illumina, generańdose lecturas paired-end de 100 bases, con un tamaño medio de fragmento de 324 bases y una desviación estándar de 65 bases. Las lecturas fueron alineadas al genoma Humano de referencia NCBI37 de UCSC. Los ficheros BAM de lecturas procesadas nos fueron generosamente cedidos por Elena Piñeiro y Fátima Al-Sharour. Al igual que en el caso de los datasests simulados, se generaron ficheros mpileup y VCF a partir de los ficheros BAM, utilizados como input por el algoritmo Patchwork.

Para la comparación entre los resultados obtenidos por Patchwork y HMMcopy se estudió el número de pb solapantes entre los segmentos identificados por ambos algoritmos. Para ello se utilizó la función “bedtools.intersect” del software de Bedtools.

Parámetros elegidos durante la ejecución de los algoritmos Patchwork y HMMcopy:

El óptimo funcionamiento de los algoritmos de CNVs depende en gran medida del valor de los parámetros utilizados. Cuando posible, se han utilizado los parámetros “default” o recomendados. Sin embargo, como se ha descrito en la introducción, el comando responsable de la asignación de número de copia a los segmentos generados por Patchwork depende de argumentos que tienen que ser asignados manualmente por el usuario. En la sección “resultados” se detalla el proceso de selección de los argumentos elegidos en cada caso.

Recursos computacionales:

Se ha utilizado un cluster de computadores, con 24 núcleos gestionados por el sistema operativo Darwin, Version 11.4.0.

Todos los algoritmos utilizados en este proyecto se han lanzado en este cluster, para asegurar resultados comparables entre las diversas ejecuciones.

Figura 5. Representación esquemática del proceso de generación de los genomas tumor y normal a partir del ensamblaje hg19 del genoma humano. Las cajas de color rojo, naranja y azul representadas sobre el cromosoma 22 indican segmentos sujetos a deleción homocigota, deleción heterocigota y amplificación, respectivamente. Los símbolos (|) y (0) representan los SNPs introducidos en los genomas normal y tumor respectivamente)

Figura 6: Diagrama de flujo del pipeline de análisis por HMMcopy y Patchwork de los datasets simulados

Introducción de las alteraciones

(Coval, RVSim)(Coval, RVSim)

Generación de las lecturas simuladas

(FastqArtificialGenerator)

Generar fichero de lecturas por ventanas

del genoma(Read.Counter)

FASTA

FASTQ

BAM

HMMcopy

Evaluación de mappabilidad y contenido

GC por ventanas del genoma

(Map.Counter)(GC.Counter)

Patchwork

Alineamiento, ordenación e indexación

(Bwa, Samtools)

Identificación de SNPs e Indels

(Bcftools, vcfutils)

Reads.WIG

map.WIGgc.WIG

mpileupVCF

Evaluación comparativa de los resultados

CNVs detectados

CNVs detectados

RESULTADOS y DISCUSIÓN

Herramientas de análisis de CNVs en la literatura :

Se ha llevado a cabo una revisión exhaustiva en la literatura sobre algoritmos de análisis de CNVs a

partir de datos procedentes de WGS (secuenciación masiva de genomas completos). La tabla 1

presenta una lista, ordenada por fechas, de los algoritmos de análisis de número de copia

encontrados, junto con un resumen de algunas de sus principales características. Se han recogido un

total de 51 herramientas distintas de análisis de variaciones de número de copia, tanto somáticas

como de línea germinal. Estas herramientas presentan numerosas diferencias entre sí, como por

ejemplo en cuanto al modelo estadístico utilizado, sus parámetros, el lenguaje de programación con

el que han sido implementados, el sistema operativo, o los requisitos de input y el formato de

output, entre otros. La gran proliferación de algoritmos de análisis de CNVs en los últimos años

pone de manifiesto la complejidad del problema del análisis de CNVs a partir de datos NGS, una

tecnología que a día de hoy todavía no está estandarizada.

Criterios de selección de métodos:

El primer objetivo de este trabajo ha consistido en la selección de un conjunto de herramientas de

análisis de CNVs, para su implementación en el laboratorio y posterior evaluación.

Se han utilizado los siguientes criterios de selección:

a) Se seleccionaron métodos que permitían el análisis de datos procedentes de muestras tumorales.

Estos métodos, que identifican SCNAs, utilizan algunas estrategias y algoritmos que no están

presentes en los métodos de análisis de CNVs de línea germinal (Biao Liu et al., 2013.) .

b) El software con el que se han implementado los algoritmos tenía que ser de libre acceso (por

ejemplo, algunos algoritmos, como WaveCNV, incluyen Matlab entre los lenguajes utilizados para

su implementación, por lo que tuvieron que ser descartados).

c) Por diversas razones, ya comentadas en la introducción, se descartaron los métodos que solo

utilizan estrategias de análisis basadas en mapeo de lecturas pareadas, en lecturas interrumpidas, o

en ensamblaje “de novo”,

d) Se dio preferencia a los algoritmos más recientes y a los métodos que habían recibido las

evaluaciones más favorables en estudios previos (Duan et al., 2013; Pabinger et al., 2014; Alkosi et

al., 2014).

f) Se seleccionaron métodos que fueran sencillos de implementar en el laboratorio, bien

documentados y citados en la literatura, y que admitieran ficheros de tipo BAM o SAM como input.

Selección y primeras pruebas:

Basados en estos criterios, se eligieron los siguientes 4 métodos para su implementación en el

laboratorio, HMMcopy, Patchwork, BIC-seq y seqCNA, todos ellos desarrollados para la

evaluación de variaciones de número de copia en tumores, utilizando como input datasets

procedentes de parejas de muestras tumor/normal. En un estudio previo en el que se han comparado

diversas herramientas de análisis de variaciones de número de copia sobre tumores, HMMcopy y

BIC-seq han sido las herramientas mejor evaluadas sobre datasets reales, mostrando una gran

concordancia entre los SCNAs encontrados por estos algoritmos y los datos proporcionados por

SNP arrays (Alkosi et al., 2014). Patchwork es una herramienta desarrollada recientemente para el

análisis específico de muestras tumorales, con mecanismos que permiten averiguar contaminación

de las muestras tumorales por células normales, el número de copia específico de alelo o la

presencia de aneuploidias (Mayrhofer et al., 2013), y seqCNA es una de las herramientas de análisis

en tumores más reciente descrito hasta la fecha e incluye un método de filtrado de ventanas propio

que, según los desarrolladores, reduce el número de falsos positivos (Mosen-Ansorena et al., 2014).

Tras la instalación del software correspondiente a estos 4 algoritmos, se comprobó el

funcionamiento de los 3 primeros mediante la ejecución sobre pares de pequeños datasets de prueba

tumor/normal, cuyas lecturas proceden de cromosomas individuales, e incluidos en los propios

paquetes de instalación de algunos de los algoritmos utilizados. En un primer intento, se obtuvieron

errores de ejecución en Patchwork y BIC-seq, mientras que HMMcopy funcionó correctamente. En

el caso de Patchwork, los desarrolladores nos informaron de que este algoritmo sólo funciona con

datasets procedentes de genomas completos. Por otro lado BIC-seq dio un error de segmentación

(“segmentation fault”) que no fué posible resolver, presumiblemente por alguna incompatibilidad de

BIC-seq con el sistema operativo Darwin del cluster de computadores sobre el que se ejecutaron los

algoritmos, lo que nos obligó a descartar esta herramienta en estudios posteriores.

Seq-CNA se ejecutó con datasets de prueba artificiales cuyas lecturas paired-end fueron generadas

por el algoritmo “FastqArtificialGenerator”, que se ha descrito con detalle en la sección de

Materiales y Métodos. Un primer error durante la ejecución de Seq-CNA se corrigió mediante la

utilización de una versión actualizada del algoritmo “FastqArtificialGenerator”, que permitía la

generación de lecturas paired-end con orientación invertida en vez de orientación directa. Sin

embargo, un segundo problema durante la ejecución resultó derivar de un error de software (“bug”).

Aunque los desarrolladores proporcionaron después una versión actualizada del programa, el error

no se solucionó y finalmente se descartó la herramienta Seq-CNA.

En el siguiente paso, y tras descartar los algoritmos BIC-seq y Seq-CNA , se procedió a la

evaluación de los algoritmos Patchwork y HMMcopy.

Evaluación los algoritmos seleccionados:

a) Datastes artificiales

La evaluación de las herramientas Patchwork y HMMcopy empezó mediante el análisis de

su funcionamiento sobre datasets simulados. El proceso de generación de los datasets se describe

con detalle en la sección de Materiales y Métodos y se ha esquematizado en las figs. 5 y 6. Se

obtuvieron un total 21 genomas artificiales, 20 de ellos simulando genomas tumorales y uno

simulando un genoma normal. 10 de los genomas tumorales contenían deleciones homocigotas,

deleciones heterocigotas, y amplificaciones de 1 y 2 copias y los otros 10 contenían amplificaciones

de más de 2 copias. Las variaciones de número de copia se introdujeron en segmentos de 20kb,

200kb y 1Mb de tamaño. Tras la generación de lecturas a partir de los genomas artificiales y su

alineamiento al genoma humano (hg19) se obtuvieron los ficheros BAM correspondientes. Para

verificar que los datasets artificiales habían sido correctamente generados, se tomó al azar el fichero

BAM correspondiente a uno de los 10 datasets que contenían tanto deleciones como

amplificaciones y se visualizó mediante IGV. En la fig. 7 se puede ver como las modificaciones de

número de copia de los segmentos de 20kb se habían introducido en las coordenadas previstas. La

comprobación se extendió al conjunto de todos los segmentos modificados, verificándose en todos

los casos que las coordenadas eran correctas (datos no mostrados).

-Ejecución de HMMcopy y Patchwork:

Los datastets artificiales generados se analizaron con los algoritmos HMMcopy y

Patchwork, utilizando los parámetros default.

HMMcopy genera un plot en el que se visualiza el proceso de corrección por contenido GC

y mapeabilidad llevado a cabo durante el pre-procesamiento de las muestras (fig. 8A). Se puede

apreciar la notable corrección llevada a cabo por HMMcopy sobre el bias por contenido GC

introducido por el algoritmo FastqArtificialGenerator sobre la profundidad de lectura a lo largo del

genoma. HMMcopy genera otro plot que permite visualizar la influencia que tienen dichos procesos

de corrección sobre las estimaciones de número de copia (fig. 8B). Además, se genera un plot que

permite visualizar en cada cromosoma los segmentos estimados y los estados de número de copia

asociados a cada segmento, mediante un código cromático (fig. 8C).

El primer módulo de Patchwork, patchwork.plot (), genera un plot por cromosoma, que

representa el valor de imbalance alélico frente a la profundidad de lectura. Como se ha descrito en

la introducción, la interpretación de dicho plot permite al usuario estimar los argumentos necesarios

para la ejecución del segundo módulo de Patchwork, Patchwork.copynumbers (). La fig. 9 muestra

la estimación de parámetros realizada a partir del plot correspondiente al cromosoma 22, obtenido

tras la ejecución de patchwork.plot () sobre uno de los datasets artificales. Comparando con el plot

modelo discutido en la introducción (fig. 4), se puede ver que la calidad de los plots obtenidos con

nuestros datasets fué muy baja, hecho que ha dificultado enormemente la adecuada estimación de

los argumentos de Patchwork.copynumbers (). La baja calidad de los plots podría deberse a un error

de planteamiento en la generación de los datasets artificiales, ya que solo se introdujeron SNPs

homocigotos (ver sección Materiales y Métodos). Un segundo problema podría derivar del tamaño

relativamente pequeño de las alteraciones de número de copia introducidas. El escaso número de

SNPs incluidos en los segmentos alterados podría explicar el hecho de que no se visualicen en el

plot puntos de imbalance alélico correspondientes a segmentos con número de copia distinto a 2.

El valor de delta, la distancia en el eje X entre dos números de copia sucesivos, fué el argumento de

Patchwork.copynumbers más difícil de estimar, ya que casi todos los puntos del plot se

correspondían con un valor de profundidad de lecturas correspondiente a un número de copia 2. Por

ello se decidieron probar dos valores distintos de delta, 0.15 y 0.3, elegidos tras una serie de pruebas

preliminares con Patchwork.copynumbers. En la fig. 10 se puede ver el conjunto de plots generado

por Patchwork.copynumbers con argumento delta 0.3, para el cromosoma 22. Se incluye el número

de copia específico de alelo y los valores de imbalance alélico a los largo del cromosoma, nótese en

este último la escasa densidad de puntos, derivada de la escasez de SNPs informativos en los

datasets.

-Evaluación de sensibilidad y especificidad:

En la sección de Materiales y Métodos se describe cómo se calcularon los valores de

sensibilidad y especificidad con los que se ha evaluado el funcionamiento de HMMcopy y

Patchwork sobre datasets artificiales. La fig. 11 muestra los valores medios de sensibilidad y

especificidad calculados para las 10 muestras estudiadas de cada tipo. Tanto Patchwork como

HMMcopy presentan valores superiores al 80% de sensibilidad, bastante altos si se tiene en cuenta

la baja profundidad media de lecturas (aproximadamente 6x) de los datasets utilizados. En cambio,

la especificidad en la detección de CNVs por parte de HMMcopy y Patchwork ha sido

relativamente baja, rondando el 50%. En términos generales, HMMcopy presenta unos niveles de

sensibilidad global algo mayores que los de Patchwork, mientras que Patchwork presenta una

especificidad global ligeramente superior. Se ha calculado la sensibilidad de forma separada para

los 3 tamaños de segmento utliizados en este estudio, 20 kb, 200 kb y 1 Mb. La fig. 12 muestra los

valores medios de sensibilidad en 10 muestras para los distintos tamaños de segmento. Patchwork

fué incapaz de detectar los segmentos de 20 kb, mientras que HMMcopy los ha detectado con una

sensibilidad similar a la de detección de los segmentos más grandes, cercana al 90%. La

sensibilidad no se ha medido en función del número de segmentos detectados correctamente sino a

nivel del número total de nucleótidos que solapaban entre los segmentos predichos y los reales (ver

materiales y métodos). Esto explica el hecho de que Patchwork no mostrase una caída más notable

respecto de HMMcopy en sus valores de sensibilidad global (fig. 11), ya que los segmentos de 20

kb son los más pequeños que se han estudiado, y por lo tanto los que menos aportan al valor de

sensibilidad global.

Se ha calculado también la sensibilidad de forma separada para los CNVs de las distintas

clases de estado de número de copia estudiadas (deleciones homocigotas, deleciones heterocigotas,

amplificaciones (ganancias de 1 y 2 copias) y grandes amplificaciones (ganancias de 3 copias o

más). La fig. 13 muestra las medias de los valores de sensibilidad de detección de CNVs de

distintas clases de estado de número de copia. Es notable el hecho de que ni HMMcopy ni

Patchwork han detectado las deleciones homocigotas. Aunque inesperado, este resultado ya se había

descrito en el caso de HMMcopy (Alkosi et al., 2014) y podría deberse a que, a diferencia de lo que

ocurre en el caso de datasets reales, absolutamente ninguna lectura de los datasets artificiales

realinea al genoma de referencia en aquellos segmentos que se corresponden con deleciones

homocigotas. Para comprobar el efecto de esta situación en Patchwork y HMMcopy se rastrearon

los objetos que contienen la información de profundidad de lecturas por ventana del genoma y la

interpretación correspondiente de número de copias. En el caso de HMMcopy el objeto

“tumor_corrected_copy” recoge el número corregido de lecturas por ventana del genoma y les

asocia la columna “copy”, con el valor de LRR normalizado. HMMcopy asocia un valor “NA” a la

columna “copy” cuando el número de lecturas de la ventana asociada es 0 y este “valor” es

traducido a “estado 3, número de copia 2” durante el proceso de segmentación, situación que se

refleja en el output grafico de HMMcopy (fig 14, nótese la asignación de estado 3 a la región entre

las coordendas 4.35 exp7 y 5.35 exp7, correspondiente a una deleción homocigota). Para comprobar

si se podía corregir esta situación se decidió modificar el fichero wig de lecturas procedente de uno

de los datastets artificiales para los que HMMcopy no había identificado ninguna de las deleciones

homocigotas introducidas. Se modificó de 0 a 1 el número de lecturas correspondiente a las

ventanas que cubrían los segmentos que habían sufrido una deleción homocigota y se volvió a

ejecutar HMMcopy con el nuevo input, dejando todas las demás condiciones iguales. Cuando se

analizaron los segmentos identificados se encontró que todas las deleciones homocigotas eran

detectadas correctamente (datos no mostrados).

En el caso de Patchwork, el problema parece ser muy similar. Patchwork también genera un

objeto que recoge el número de lecturas por ventana, pero considera como outliers las ventanas en

las que no se encuentra ninguna lectura mapeada, excluyéndolas de los análisis posteriores.

Si se eliminan los datos correspondientes a las deleciones homocigotas del cómputo global

de sensibilidad, su valor pasa a superar el 95% en el caso de Patchwork y el 98% en el caso de

HMMcopy (datos no mostrados).

Al estar en dos grupos de genomas distintos, se ha podido estudiar por separado la

especificidad de detección de grandes amplificaciones frente a la de las restantes modificaciones

(ver Materiales y Métodos). Sorprendentemente, se vio que la especificidad en la detección de las

grandes amplificaciones era sensiblemente inferior a la de detección de las otras modificaciones,

tanto en el caso de HMMcopy como en el de Patchwork (fig. 15). De hecho, casi todos los falsos

positivos detectados por HMMcopy y Patchwork se correspondían con segmentos situados en el

grupo de genomas que contenía las grandes amplificaciones, lo que sugiere que los parámetros de

segmentación no estaban bien ajustados en este caso. En los tutoriales de estos algoritmos se

subraya la importancia de que los usuarios evalúen los outputs gráficos obtenidos tras la ejecución

y ajusten los parámetros de segmentación y asignación de número de copia en función de los

resultados obtenidos (ver sección “Prinicipales características de los algoritmos Patchwork y

HMMcopy” en introducción).

-Evaluación de la precisión en la detección de breakpoints:

Se ha comparado a máxima resolución (1 pb) la precisión en la asignación de las posiciones

de los breakpoints predichos por Patchwork y HMMcopy. La precisión se ha determinado como la

distancia en bases entre las coordenadas de los segmentos reales y la de los segmentos detectados,

considerándose solo como positivos los segmentos con más del 70% de solapamiento. La fig. 16

muestra los boxplots de distancias para los 2 algoritmos evaluados. Se ha encontrado una

importante diferencia entre la precisión de estimación de breakpoints por ambos métodos, que

superaba el orden de magnitud (mediana de las distancias de 260 pb en el caso de HMMcopy y de

5049 pb en el caso de Patchwork).

Una posible razón para explicar la baja precisión de Patchwork podría ser la baja

profundidad de lectura de los datastets artificiales utilizados (6x de media). Sería interesante hacer

una prueba comparativa de HMMcopy y Patchwork utilizando datasets con una profundidad de

lectura más cercana a la que se obtiene en las plataformas actuales de secuenciación (30-60x), para

la comprobación de este punto.

-Evaluacion de la precisión en la determinación de número de copias:

La fig 17 muestra los valores de número de copia (o de estados de número de copia, en el

caso de HMMcopy) asignados a los segmentos encontrados, comparada con los valores reales

(segmentos de colores). El código de colores de los segmentos permite establecer una equivalencia

entre números de copia (output de Patchwork) y estados de número de copia (output de HMMcopy,

ver Introducción).

Un primer examen de esta figura sugiere que HMMcopy es más preciso que Patchwork en la

asignación de números de copia. Sin embargo es importante recordar que, debido a problemas

técnicos, no fué posible la asignación de parámetros óptimos al módulo Patchwork.copynumbers ()

de Patchwork, responsable de la asignación de números de copia a los segmentos identificados.

Probablemente sea ésta la causa de que Patchwork haya identificado como homocigotas las

deleciones heterocigotas. Más sorprendente es que el software HMMcopy también haya cometido el

mismo error (fig. 17). Como se explica en el correspondiente tutorial, el ajuste de los parámetros de

HMMcopy podría permitir la corrección de este tipo de asignaciones incorrectas.

Los datos de Patchwork y HMMcopy correspondientes a las deleciones homocigotas

carecen de valor estadístico, ya que, como se ha mencionado, la identificación de estos segmentos

fue extremadamente ineficiente.

Ambos algoritmos tendieron a asignar un número de copia superior al real en el caso de las

amplificaciones débiles, de 3 o 4 copias. La asignación por Patchwork de 8 copias a los segmentos

de 10 copias se debe probablemente a que no se asignó el valor de 10 al parámetro “maxCn” de

Patchwork.copynumbers, en vez del valor 8 que tiene por defecto. Este parámetro le indica al

algoritmo el máximo valor de número de copia que se quiere estimar.

-Conclusiones:

Nuestros resultados con datasets artificiales sugieren que HMMcopy es más eficiente que

Patchwork, tanto en la localización de CNVs como en la asignación de números de copia. Sin

embargo, es importante recordar que no hemos testado algunas de las propiedades más relevantes

de Patchwork, como su capacidad de evaluar número de copias en muestras tumorales que

presentan contaminación con tejido normal o ejemplos de aneuploidia.

b) Datastes reales:

Puesto que los datasets artificiales carecen de muchos de los niveles de complejidad que

caracterizan los procesos de secuenciación masiva de muestras tumorales, se procedió a la

evaluación del funcionamiento de HMMcopy y Patchwork con datasets reales.

-Elección del dataset:

El proceso de obtención de estos datasets no fué fácil. Nosotros estábamos interesados en obtener

datasets con las siguientes características:

-Que procediesen de estudios de secuenciación masiva de genoma completo de muestras tumorales,

o de líneas celulares derivadas de tumores.

-Que estuviese disponible el correspondiente control de muestras de tejido normal del mismo

paciente. Como ya se ha mencionado en la introducción, la mayoría de las herramientas de análisis

SCNAs a partir de muestras tumorales requieren de este control, o es muy recomendable.

-Que se dispuesiese de datos de SCNAs procedentes de estudios de arrays sobre las mismas

muestras, para utilizarlos como “gold Standard” de control sobre los SCNAs identificados por los

algoritmos evaluados.

El acceso a datos de secuenciación masiva procedentes de muestras de pacientes con tumores se

encuentra bastante restringido hoy en día, por lo que nos hemos centrado en datasets procedentes de

líneas celulares. En un principio se pensó utilizar datasets procedentes de la secuenciación WGS (de

genoma completo) de la línea celular de cáncer de mama HCC1954 (profundidad de lectura

aproximada de 4x) y de la correspondiente línea celular normal HCC1954BL (profundidad de

lectura aproximada de 5x). Estos datasets habían sido utilizados en la evaluación del algoritmo

Patchwork por sus desarrolladores (Mayrhofer et al., 2013), los cuales nos proporcionaron

generosamente una lista completa de las variaciones de número de copia encontradas por la

herramienta TAPS, desarrollada por ellos, a partir de datos de SNP arrays. Esta lista podía ser

utilizada por nosotros como control “gold standard”. Se descargaron de SRA (“sequence read

archive”, [SRA:SRA001246] ) los ficheros fastq correspondientes a un total de 4 parejas de

muestras tumor/normal, con lecturas de 32pb y 36 pb de tamaño. Un análisis mediante Fastqc de la

calidad de las lecturas contenidas en los ficheros fastq (fig suplementaria 1, incluida en anexos),

mostró que la calidad de las lecturas, tanto de 32pb como de 36pb, era demasiado baja como para

garantizar un alineamiento correcto a un genoma de referencia, por lo que fueron descartadas.

En un segundo intento de obtener los datasets reales para la evaluación de Patchwork y

HMMcopy, se solicitó a “Cancer Genome Project” acceso a los datos de secuenciación de genoma

completo de las líneas celulares COLO-829 y COLO-829BL, depositados en “EGA” (European

Genome-Phenome Archive, EGAS00000000052). Estas líneas celulares derivan de un melanoma

maligno y de linfoblastos normales, respectivamente (Pleasance et al, 2010), y fueron secuenciadas

en una plataforma Illumina GAII, obteniéndose lecturas pareadas de 75pb de tamaño, con una

profundidad de lectura aproximada de 40x. Se disponían además de datos de número de copia

obtenidos mediante arrays, para ser utilizados como “gold standard” en la evaluación de nuestros

algoritmos.

Una vez concedido el citado permiso, se comprobó que los datastes a los que habíamos

tenido acceso no se correspondian con los que se habían solicitado, y no incluían datasets de NGS.

Se recurrió pues a una tercera opción (la que finalmente fue válida), en la que se utilizaron

datos de secuenciación de genoma completo de dos muestras tumorales procedentes de dos

pacientes varones con Carcinoma Adenoide Cístico (Adenoid cystic carcinoma (ACC)). En

materiales y métodos se ha descrito el proceso de secuenciación y posterior procesamiento de las

lecturas para la generación de los ficheros input de HMMcopy y Patchwork. Una de las dos

muestras tumorales se utilizó para simular la correspondiente muestra normal, ya que no

disponíamos de muestras de tejido normal de estos pacientes.

-Ejecución y evaluación de HMMcopy y Patchwork sobre datasets reales:

La ejecución de HMMcopy y Patchwork sobre los datastets procedentes de los pacientes con

Carcinoma Adenoide Cístico se llevó a cabo utilizando los parámetros default.

La fig. 18 muestra el output gráfico correspondiente al cromosoma 1 generado por

HMMcopy durante su ejecución, incluyendo el proceso de corrección por contenido GC y

mapeabilidad (nótese la importante corrección por mapeabilidad llevada a cabo por el algoritmo), la

visualización de los segmentos generados y el estado de número de copia asignado a cada uno.

En la fig 19 se visualiza el output gráfico correspondiente al cromosoma 1 del módulo

Patchwork.plot de Patchwork y en la fig 20 se muestra la asignación de los argumentos requeridos

por el módulo Patchwork.copynumbers, que determina la interpretación por dicho módulo del

“cariotipo del genoma” (número de copias y distribución de alelos, fig. 20B). El output gráfico del

módulo Patchwork.copynumbers es básicamente idéntico al de Patchwork.plot, excepto por la

inclusión adicional de un plot que representa la distribución en el cromosoma de los valores de

número de copia total y del alelo minoritario (fig 21).

Se incluyen en el anexo las tablas “segmentosHMMcopy.csv” y “segmentosPatchwork”,

generadas por HMMcopy y Patchwork respectivamente, y que incluyen la lista de eventos de CNV

encontrados. Se han identificado un total de 799 y 293 segmentos con el número de copia alterado

en las muestras tumorales analizadas con HMMcopy y Patchwork respectivamente. Los tamaños de

los segmentos identficados fué muy variable (de 7 kb a 55 Mb en el caso de HMMcopy y de 20kb a

38Mb en el caso de Patchwork). La fig 22 muestra la distribución de tamaños encontrada. En

general, el tamaño medio de los segmentos identficados por Patchwork ha sido sensiblemente

mayor que el de los identficados por HMMcopy. Además, HMMcopy ha identificado un gran

número de segmentos de tamaño inferior a 20kb. La fig 23 muestra un circos.plot con la

dsitribución en el genoma de los segmentos identificados por HMMcopy y Patchwork. Se ve una

importante coincidencia entre los segmentos identificados por ambos algrotimos, sobretodo en el

caso de los segmentos de mayor tamaño. La principal incongruencia se ha encontrado en los

cromosomas sexuales, donde por ejemplo HMMcopy y Patchwork han predicho respectivamente

una importante ganacia y pérdida de material genético del cromosoma Y. Patchwork admite el

parámetro Male = True en su módulo Patchwork.copynumbers, pensado para el correcto

procesamiento de los cromosomas sexuales de muestras procedentes de varones. La ausencia de un

parámetro equivalente en HMMcopy sugiere que este algoritmo podría ser menos preciso a la hora

de determinar variaciones de número de copia en los cromosomas sexuales.

Muchas de las CNVs encontradas por los dos algoritmos se corresponden con deleciones

(fig. 23). Curiosamente, casi todas estas deleciones han sido interpretadas como deleciones

homocigotas por HMMcopy, mientras que Patchwork las ha interpretado como deleciones

heterocigotas. Asimismo, el número de copia asignado por HMMcopy a las amplificaciones fue en

general mayor que el asignado por Patchwork. HMMcopy había mostrado mayor precisión en la

asignación de número de copias en el caso de los datatets artificiales, pero estos resultados no

fueron definitivos debido a los problemas técnicos encontrados en el proceso de asignación de

argumentos al módulo que estima los números de copia, de forma que no es posible extraer

conclusiones definitivas a este respecto.

El circos.plot de la fig. 23 también muestra el gran número de segmentos pequeños que han

sido identificados exclusivamente por HMMcopy. Para conocer con más precisión la diferencia

entre los resultados obtenidos por HMMcopy y Patchwork, se determinó el número exacto de bases

identificados por ambos algoritmos, así como el número de pares de bases identificados

exclusivamente por cada uno de ellos. Los resultados se muestran en el diagrama de Venn de la fig.

24. Más de un 90% de los pb correspondientes a segmentos con alteraciones de número de copia

identificados por Patchwork han sido también identificados por HMMcopy. Sin embargo, un 18%

de los pares de bases correspondientes a segmentos identificados por HMMcopy no fueron

identificados por Patchwork. El análisis del tamaño de los segmentos solo identificados por

HMMcopy muestra que en general se corresponden con los más pequeños, como se puede ver en

los boxplots representados en la fig24. Al carecer de un “gold standard” para establecer cuáles de

las variaciones de número de copia encontradas por cada algoritmo son reales, no se puede deducir

si los pequeños segmentos identificados sólo por HMMcopy reflejan una mayor sensibilidad de este

algoritmo o por el contrario, indican que su especificidad en la detección de CNVs es menor. Sin

embargo, los estudios previos realizados sobre datastets artificiales mostraron que sólo HMMcopy

era capaz de detectar los CNVs más pequeños, en el orden de 20kb de tamaño, hecho que apoya

fuertemente la hipótesis de que las pequeñas variaciones de número de copia identificadas por

HMMcopy son reales y reflejan la mayor sensibilidad de este algoritmo.

Es importante resaltar que para establecer definitivamente la sensibilidad y especificidad de

los dos algoritmos evaluados utilizando datastets reales, sería necesario ejecutarlos con una

verdadera pareja de datastets tumor/normal y comparar los resultados con un “gold standard”, como

el que se podría obtener mediante un análisis de CNVs sobre las mismas muestras utilizando arrays.

-Problemas en la ejecución de Patchwork con muestras tumorales procedentes de pacientes de

sexo femenino

Además de las muestras procedentes de pacientes varones con Carcinoma Adenoide Cístico que se

han utilizado en el análisis descrito arriba, también disponíamos de dos muestras procedentes de dos

pacientes de sexo femenino. Sorprendentemente, la ejecución de Patchwork sobre estas muestras se

vió interrumpida por el error “referencia del cromosoma Y inválida”. Se averiguó posteriormente

que el error parece haberse debido a que las muestras se habían alineado a una referencia de la que

se había retirado el cromosoma Y, para evitar la producción de alineamientos ambiguos. Este error

refleja la falta de flexibilidad de Patchwork a la hora de analizar muestras en las que pueda faltar

información de algún cromosoma, así como la imposibilidad de estudiar cromosomas individuales

con este algoritmo.

-Ejecución de Patchwork con un control normal

Para los casos en los que no se dispone de un control normal, los desarrolladores de Patchwork han

puesto a disposición del usuario un fichero de referencia estándar, que se puede utilizar como

alternativa cuando el genoma de referencia al que se han alineado las lecturas de la muestra tumoral

es UCSC hg19. Se ha ejecutado Patchwork utilizando dicha referencia control junto con la muestra

que se había asignado como tumor en el experimento anterior, descrito arriba. La fig. 25 muestra el

plot de los valores de imbalance alélico versus profundidad de lecturas generado por el módulo

Patchwork.plot, y los valores asignados para los argumentos de Patchwork.copynumbers. La tabla

“segmentosPatchwork_refNormal.csv”, incluida en Anexos, contiene los datos generados por

Patchwork sobre la muestra tumoral analizada, y en la fig26 se puede ver, mediante circos.plot, la

distribución a lo largo del genoma de los segmentos identificados por Patchwork así como los

estados de número de copia asignados. Comparando la fig. 23 con el anillo interior de la fig 26 se

puede ver que el patrón de variaciones de número de copia a lo largo del genoma fué muy similar al

que se había encontrado cuando se utilizó como control una segunda muestra tumoral del mismo

paciente. El análisis de Patchwork sobre la pareja tumor/normal también ha revelado la ausencia

total de contaminación de la muestra tumoral por células normales (tabla

“segmentosPatchwork_refNormal.csv”, en anexos).

-Recursos computacionales:

En general, el tiempo de ejecución de Patchwork es sensiblemente más elevado que el de

HMMcopy. Patchwork requiere para su funcionamiento de la generación previa de ficheros mpileup

y VCF con información sobre SNPs e Indels, necesarios para el proceso de segmentación y de

asignación de números de copia por Patchwork. La generación de estos ficheros, a partir de ficheros

BAM de alrededor de 300Gb - que es el tamaño aproximado de los datasets reales que se han

utilizado en nuestro estudio - ha tardado entre 30 y 35 horas. A estos tiempos hay que sumar otras

40 horas para ejecutar los comandos “patchwork.plot” y “patchwork.copynumbers” de Patchwork.

Por el contrario, la ejecución completa de HMMcopy sobre los mismos datasets ha tardado del

orden de 4 a 5 horas, a las que hay que añadir, eso sí, otras 30 horas aproximadamente para la

generación del fichero de mapeabilidad del genoma, requerido como input de HMMcopy.

Figura 7: Visualización por IGV de la densidad de lecturas en regiones del cromosoma 22 que incluyen segmentos de 20 kb con las siguientes modificaciones del número de copia: a) deleción homocigota b) deleción heterocigota c) amplificación. Las rayas horizontales indican las coordenadas de los punto de corte (breakpoints) de los 3 segmentos modificados.

a

b

c

Tabla1: Resumen de las herramientas de anaĺisis de número de copia a partir de datos WGS (secuenciación de genoma completo)

disponibles en la literatura. RD: Método basado en profundidad de lecturas; PEM: Método basado en mapeo de lecturas pareadas SR:

Método basado en lecturas interrumpidas ; AS: Método basado en ensamblaje “de novo”; BAF: Frecuencia del alelo B; * ALD:

Alineamientos de lecturas paired-end discordantes; **PLA: Posiciones de lecturas alineadas; N/A: Información no disponible o no

encontrada.

Herramienta Revista Metodo Input Lenguaje Evaluaciones Previas Comentarios

BreakDancer Max Chen et al, 2009 PEM BAM/SAM Perl, C++ Pabinger et al(2014)

PEMer Korbel et al, 2009 PEM FASTA Perl, Python

Pindel Ye et al, 2011 SR BAM /FASTQ C++

RDXplorer Yoon et al, 2009 RD BAM Python, Shell

CNV-seq Xie et al, 2009 RD BAM/SAM Perl, R Duan et al(2013) Solo detecta CNVs de línea germinal.

SegSeq Chiang et al, 2009 RD BAM/SAM Matlab

mrCaNaVar Alkan et al, 2009 RD SAM C

GASV Sindi et al, 2009 PEM BAM Java Pabinger et al(2014) Solo detecta CNVs de línea germinal.

VariationHunter Hormozdiari et al, 2010 PEM DIVET (específico) C

SLOPE Abel et al, 2010 SR SAM/FASTQ/MAQ C++

RSW-seq a Kim et al, 2010 RD PLA** C Duan et al(2013) Detecta SCNAs

CNAseg Ivakhno et al, 2010 RD BAM R Detecta SCNAs.

CMDS b Zhang et al, 2010 RD PLA** C, R

SVDetect Zeitouni et al, 2010 PEM+RD SAM/BAM/ELAND Perl

CNVer Medvedev et al, 2010 PEM+RD BAM/PLA** Perl, C++ Duan et al(2013) Solo detecta CNVs de línea germinal.

NovelSeq Hajirasouliha et al, 2010 PEM+AS FASTA/SAM C

HYDRA Quinlan et al, 2010 PEM+AS ALD* Python

SOAPdenovo Li et al, 2010 AS N/A N/A

CopySeq Waszak et al, 2010 RD RCM*** Duan et al(2013) Solo detecta CNVs de línea germinal.

CnD Simpson et al, 2010 RD SAM/BAM D Duan et al(2013) Solo detecta CNVs de línea germinal

SVmerge Wong et al, 2010 RD N/A N/A Pabinger et al(2014)

commonLAW Hormozdiari et al, 2011 PEM BAM/SAM C++

AGE Abyzov et al, 2011 PEM FASTA C++

SRiC Zhang et al, 2011 SR BLAT output N/A

ReadDepth Miller et al, 2011 RD BED files R Duan et al(2013) Solo detecta CNVs de línea germinal

CNVnator Abyzov et al, 2011 RD BAM C++

BIC-seq Xi et al, 2012 RD + BAF BAM Perl, R, C Alkodsi et al(2014)

JointSLM Magi et al, 2011 RD SAM/BAM R, Fortran Duan et al(2013) Solo detecta CNVs de línea germinal.

Spanner Mills et al, 2011 PEM N/A N/A

Genome STRiP Handsaker et al, 2011 PEM+RD BAM Java, R

inGAP-sv Qi et al, 2011 PEM+RD SAM Java

SVseq Zhang et al, 2011 PEM+SR FASTQ/BAM C

CNVnorm a Gusnanto et al, 2012 RD BAM Detecta SCNAs.

CNVeM Wang et al, 2012 RD N/A N/A

cn.MOPS Klambauer et al, 2012 RD BAM/ R Duan et al(2013)

Cortex assembler Iqbal et al, 2012 AS FASTQ/FASTA C

Magnolya Nijkamp et al, 2012 AS FASTA Python

GASVPro Sindi et al, 2012 PEM+RD BAM C++

SeqCBS Shen et al, 2012 RD N/A N/A

Boeva et al, 2012 RD C++, R Detecta SCNAs.

HMMCopy Ha et al, 2012 RD BAM R, Perl Alkodsi et al(2014)

COPS Krishnan et al, 2012 RD SAM/BAM Perl, Bash Alkodsi et al(2014) Detecta SCNAs.

CONSERTING Chen et al, 2012 RD N/A R Detecta SCNAs.

Golden Helix Golden Helix Inc. (2012) RD N/A N/A Pipeline con varias herramientas.

OncoSNP-SEQ Yau C (2013) RD + BAF N/A N/A Detecta SCNAs.

Patchwork Mayrhofer et al, 2013 RD + BAF N/A

CNV-TV Duan J et al, 2013 RD N/A N/A

WaveCNV Holt et al, 2014 RD Matlab

Wang et al, 2014 RD N/A N/A

seqCNA RD + PEM SAM/BAM R

CLImAT Yu et al, 2014 RD + BAF BAM

Usado en el proyecto 1000 Genomas. Solo detecta CNVs de línea germinal.Usado en el proyecto 1000 Genomas. Solo detecta CNVs de línea germinal.Usado en el proyecto 1000 Genomas. Solo detecta CNVs de línea germinal

Duan et al(2013)Pabinger et al(2014)

Usado en el proyecto 1000 Genomas. Solo detecta CNVs de línea germinal.

Alkodsi et al(2014)Duan et al(2013)

Detecta SCNAs. Solo admite lecturas Single-end como input.

Usado en el proyecto 1000 Genomas. Solo detecta CNVs de línea germinal



JavaR

Pipeline con varias herramientas. Da problemas en la instalación (Pabinger et al(2013).

Duan et al(2013)Pabinger et al(2014)

Usado en el proyecto 1000 Genomas. Solo detecta CNVs de línea germinal.Detecta SCNAs. Junto con HMMcopy,El mejor evaluado sobre datasets reales y Muy preciso en la detección de breakpoints(Alkodsi et al, 2014).

Usado en el proyecto 1000 Genomas. Solo detecta CNVs de línea germinal.Usado en el proyecto 1000 Genomas. Solo detecta CNVs de línea germinal.

RPerl



ControlFREEC SAM,BAM, PileUp,Eland, BED y otros


Detecta SCNAs. Junto con HMMcopy, El mejor evaluado sobre datasets reales (Alkodsi et al et al).

BAM (patchwork)CompleteGenomics (patchworkCG)

Detecta SCNAs y estima el grado de ploidia, el porcentaje de células tumorales en Tumores primarios.No se ha encotntrado el software asociado A esta publicación.

Fichero pileup estándar generado a partir de ficheros SAM/BAM

Detecta SCNAs y estima el grado de ploidia, el porcentaje de células tumorales en tumores primarios y la contaminación por Células de ratón en xenotransplantes.

m-HMM Utilizado fundamentalmente con Genomas de plantas

Mosen-Ansorena et al, 2014

Detecta SCNAs. Su novedoso método de filtrado de ventanas reduce el número de falsos positivos, respecto de métodos anteriores.

Matlab C++

Detecta SCNAs y estima el grado de ploidia, elporcentaje de células tumorales en tumores primarios. No requiere de pareja normal.

Figura 8: Output gráfico de HMMcopy correspondiente al cromosoma 22. Resultados obtenidos del procesamiento de uno de los datasets artificiales utilizados en la evaluación de Patchwork y HMMcopy.A: Efecto de la corrección por mapeabilidad y contenido GC del genoma sobre la distribución de lecturas. B: Evolución en las estimaciones del número de copias en cada ventana del cromosoma tras la corrección por mapeabilidad y contenido GC. C:Visualización de los segmentos generados por HMMcopy y de los estados asignados a cada segmento. HOMD: Deleción homocigota; HETD: Deleción heterocigota; NEUT: 2 copias; GAIN: 3 copias; AMPL: 4 copias; HLAMP: más de 4 copias.

Figura 10: Output gráfico del comando Patchwork.copynumbers de Patchwork correspondiente al cromosoma 22. A. Representación del genoma de tumor completo con las correspondientes etiquetas de número de copia y contenido de alelos que han sido asignadas.2m1: el nº de copias es 2, heterocigoto; 2m0: el nº de copias es 2, homocigoto, 4m1: el nº de copias es 4, heterocigoto; 4m0: el nº de copias es 4, homocigoto.B. Panel Superior: Valores estimados de número de copia total y número de copia asociado al alelo minoritario para el cromosoma 22.; Panel Intermedio: Plot de profundidad de lectura a lo largo del cromosoma; Panel Inferior: Valores de imbalance alélico a lo largo del cromosoma.

Figura 9: Ejemplo de selección de argumentos para el módulo Patchwork.copynumbers de Patchwork. Se muestra en la figura el plot de imbalance alélico vs profundidad de lectura correspondiente al cromosoma 22, generado por el módulo Patchwork.plot tras el procesamiento de uno de los datasets artificiales utilizados en la evaluación de Patchwork y HMMcopy. Se han indicado sobre el plot los argumentos seleccionados para la ejecución de Patchwork.copynumbers.

Figura 12: Sensibilidad de detección por HMMcopy y Patchwork de CNVs con distinto tamaño de segmento.

20000 200000 10000000

0,2

0,4

0,6

0,8

1

HMMcopy

PATCHWORK

TamañoDeSegmento

Figura 13: Sensibilidad de detección por HMMcopy y Patchwork de CNVs con distintos números de copia.

0 1 '3-4' '>4'0

0,2

0,4

0,6

0,8

1

1,2

HMMcopy

PATCHWORK

Nº De Copia

Figura 14: Ampliación de las coordenadas 4.1exp7 a 4.5 exp7 del cromosoma 22 de la figura 8C, que incluyen una deleción homocigota.

Figura 11: Valores globales de sensibilidad y especificidad de HMMcopy y Patchwork.

Sensibilidad Especificidad0

0,2

0,4

0,6

0,8

1

HMMcopy

PATCHWORKVal

or d

e se

nsib

ilida

d/es

peci

ficid

adV

alor

de

sens

ibili

dad

Val

or d

e se

nsib

ilida

d

Figura 15: Valores de especificidad de HMMcopy y Patchwork para los CNVs incluidos en los 2 grupos de genomas artificiales utilizados. Grupo A: incluye segmentos con nº de copias: 0, 1, 3 y 4. Grupo B: incluye segmentos con nº de copias: >4

grupo”A” grupo”B”0

0,2

0,4

0,6

0,8

1

1,2

HMMcopy

PATCHWORK

Figura16: Boxplots de la precisión en la asignación de las posiciones de los breakpoints de los CNVs estimados por HMMcopy y Patchwork . En el eje Y se representa la distancia entre las coordenadas de los breakpoints estimado y real.

Val

or d

e e

spec

ifici

dad

Figura 17: Histogramas de precisión en la evaluación del número de copias por HMMcopy (panel de arriba) y por Patchwork, ejecutado con dos argumentos distintos de delta (ver sección Resultados). La altura de las cajas representa la posición de los números de copia estimados. Los segmentos coloreados representan la posición de los números de copia reales y sus colores representan los estados de número de copia, según clasificación por HMMcopy (no se representa el estado 2, de 2 copias). Rojo oscuro: estado1 (deleción homocigota); Rojo claro: estado2 (deleción heterocigota); Azul claro: Estado 4 (3 copias); Azul intermedio: Estado 5 (4 copias); Azul oscuro: Estado 6 (más de 4 copias).

Figura 18: Output gráfico correspondiente al cromosoma 1 del procesamiento por HMMcopy de datasets reales procedentes de pacientes con Carcinoma Adenoide Cístico. A: Corrección por mapeabilidad y contenido GCB: Efecto de la corrección por mapeabilidad y contenido GC sobre la estimación del número de copias.C: Segmentos generados y estado de número de copias asignado a cada segmento

Figura 19: Output gráfico del comando Patchwork.plot de Patchwork correspondiente al cromosoma 1. Comando ejecutado sobre datasets reales procedentes de pacientes con Carcinoma Adenoide Cístico.Panel Superior:Plot de Imbalance Alélico frente a profundidad de lecturaPanel Intermedio: Plot de profundidad de lectura a lo largo del cromosomaPanel Inferior: Valores de imbalance alélico a lo largo del cromosoma.

Figura 20: Selección de argumentos para el módulo Patchwork.copynumbers de Patchwork. A: Se muestra el plot de imbalance alélico vs profundidad de lectura correspondiente al cromosoma 1, generado por el módulo Patchwork.plot tras el procesamiento de datasets reales procedentes de pacientes con Carcinoma Adenoide Cístico. Se han indicado sobre el plot los argumentos seleccionados para la ejecución de Patchwork.copynumbers. B:Plot generado por Patchwork.copynumbers que muestra el genoma de tumor completo con las correspondientes etiquetas de número de copia y contenido de alelos que han sido asignadas.1m0: el nº de copias es 1, homocigoto; 2m1: el nº de copias es 2, heterocigoto; 2m0: el nº de copias es 2, homocigoto, y asi sucesivamente.

Figura 21: Plot generado por el módulo Patchwork.Copynumbers que muestra los valores estimados de número de copia total y número de copia asociado al alelo minoritario para el cromosoma 1.

Figura 22: Histograma de distribución de tamaños de los segmentos generados por Patchwork y HMMcopy en el procesamiento de datastets reales. En el panel inferior se muestra ampliada la región correspondiente a tamaños inferiores a 20 kb. Density: Proporción del total de segmentos presente en cada clase de tamaño de segmento.

Figura 23: Resumen de los resultados obtenidos por HMMcopy y Patchwork sobre los datasets procedentes de tumores. En este “Circos plot” se resumen todos los CNVs detectados por HMMcopy (exterior) y Patchwork (interior). Los segmentos CNVs se distinguen por color como deleciones homocigotas (naranja intenso), deleciones heterocigotas (naranja claro), amplificaciones de una o dos copias (azul claro) y amplificaciones de más de dos copias (azul oscuro).

Figura 24: Diagrama de Venn de la detección por HMMcopy y Patchwork de variaciones del número de copia tras el procesamiento de datasets reales. Los valores numéricos en cada sector indican pares de bases. Se representan también los boxplots de distribución de tamaños de los segmentos correspondientes a cada sector del diagrama de Venn. HMM_NI: Segmentos identificados exclusivamente por HMMcopy.HMM_I:Segmentos identificados por HMMcopy y Patchwork.PatchW: Segmentos identificados por Patchwork.

Figura 25: Selección de argumentos para el módulo Patchwork.copynumbers de Patchwork. A: Se muestra en la figura el plot de imbalance alélico vs profundidad de lectura correspondiente al cromosoma 1, generado por el módulo Patchwork.plot tras el procesamiento del dataset tumoral procedente de paciente con Carcinoma Adenoide Cístico y usando una referencia estándar de Patchwork como control normal. Se han indicado sobre el plot los argumentos seleccionados para la ejecución de Patchwork.copynumbers. B:Plot generado por Patchwork.copynumbers que muestra el genoma de tumor completo con las correspondientes etiquetas de número de copia y contenido de alelos que han sido asignadas.1m0: el nº de copias es 1, homocigoto; 2m1: el nº de copias es 2, heterocigoto; 2m0: el nº de copias es 2, homocigoto, y así sucesivamente.

Het = 0.3

Hom = 1

Delta = 5

Cn2 = 1.05

figura 26: Resumen de los resultados obtenidos por Patchwork sobre los datasets procedentes de tumor versus referencia normal de Patchwork. En este “Circos plot” se resumen todos los CNVs detectados por Patchwork. Los segmentos CNVs se distinguen por color como deleciones homocigotas (naranja intenso), deleciones heterocigotas (naranja claro), amplificaciones de una o dos copias (azul claro) y amplificaciones de más de dos copias (azul oscuro),

CONCLUSIONES:

- Se han recogido de la literatura más de 50 herramientas de análisis de variaciones de número de

copia a partir de datos de secuenciación de genoma completo. Estas herramientas presentan

numerosas diferencias entre sí, como por ejemplo en cuanto al modelo estadístico utilizado, sus

parámetros, el lenguaje de programación con el que han sido implementados, los requisitos de input

o el formato de output.

- La ejecución de las herramientas HMMcopy y Patchwork con datasets artificiales ha mostrado que

HMMcopy presenta una mayor sensibilidad de detección de CNVs que Patchwork, particularmente

para aquellos segmentos de tamaño más pequeño.

- La identificación de los CNVs introducidos en los genomas artificales fué algo más específica por

parte de Patchwork que por HMMcopy. La especificidad de ambos algoritmos mostró ser muy

dependiente del tipo de CNVs introducido en el genoma estudiado.

- HMMcopy fué mucho más preciso que Patchwork en la identificación de los breakpoints de los

segmentos con número de copia alterado en los genomas artificiales, con una diferencia de

precisión que ha superado el orden de magnitud.

- La precisión en la asignación de número de copias a los CNVs identificados por Patchwork

depende en gran medida que el usuario pueda introducir correctamente los argumentos que requiere

la función del programa que lleva a cabo dicha interpretación.

- Mediante la utilización de datasets reales se confirma que HMMcopy presenta una mayor

sensibilidad que Patchwork para la deteccción de CNVs de pequeño tamaño.

-Patchwork utilliza más recursos computacionales y requiere más tiempo para su ejecución que

HMMcopy, aunque por otro lado proporciona una información más completa sobre las muestras

utilizadas, incluyendo la pureza de la muestra tumoral y la presencia de aneuploidias.

BIBLIOGRAFIA

Abel HJ, Duncavage EJ, Becker N, Armstrong JR, Magrini VJ, Pfeifer JD (2010) SLOPE: a quick and accurate method for locating non-SNP

structural variation from targeted next-generation sequence data.

Bioinformatics, 26:2684-2688.Abyzov A, Urban AE, Snyder M, Gerstein M. (2011) CNVsnator: an approach to discover, genotype, and characterize typical and atypical CNVs

from family and population genome sequencing. Genome research; 21(6):974–984.

Abyzov A, Gerstein M (2011) AGE: defining breakpoints of genomic structural variants at single-nucleotide resolution, through optimal alignments

with gap excision. Bioinformatics, 27:595-603.Albertson DG, Collins C, McCormick F and Gray JW. (2003) Chromosome aberrations in solid tumors. Nature genetics; 34(4):369-376.

Alkan C, Coe BP, Eichler EE. (2011) Genome structural variation discovery and genotyping. Nature reviews Genetics;12(5):363–376.

Alkan C, Kidd JM, Marques-Bonet T, Aksay G, Antonacci F, Hormozdiari F, Kitzman JO, Baker C, Malig M, Mutlu O, et al. (2009) Personalized

copy number and segmental duplication maps using next-generation sequencing. Nat Genet, 41:1061-1067.Alkodsi A, Louhimo R, Hautaniemi S. (2014) Comparative analysis of methods for identifying somatic copy number alterations from deep

sequencing data. Briefings in Bioinformatics, 5.

Bartenhagen C (2014). RSVSim: RSVSim: an R/Bioconductor package for the simulation of structural variations.

Banerjee S, Oldridge D, Poptsova M, Hussain WM, Chakravarty D, Demichelis F (2011) A computational framework discovers new copy number

variants with functional importance.PLoS ONE, 6:3.

Beroukhim R, Mermel CH, Porter D, Wei G, Raychaudhuri S, Donovan J, Barretina J, Boehm JS, Dobson J, Urashima M, Mc Henry KT, Pinchback

RM, et al. (2010) The landscape of somatic copy-number alteration across human cancers. Nature, 463(7283):899-905.

Benjamini Y, Speed TP. (2012) Summarizing and correcting the GC content bias in high-throughput sequencing. Nucleic acids research;40(10):e72.

Bignell GR, Huang J, Greshock J, et al. (2004) High-resolution analysis of DNA copy number using oligonucleotide microarrays. Genome

Res;14(2):287–95 .

Bijlsma EK, Gijsbers ACJ, Schuurs-Hoeijmakers JHM, van Haeringen A, van de Putte DEF, et al. (2009) Extending the phenotype of recurrent

rearrangements of 16p11.2: Deletions in mentally retarded patients without autism and in normal individuals. European Journal of Medical Genetics

52: 77–87.

Boeva V, Zinovyev A, Bleakley K, Vert JP, Janoueix-Lerosey I, Delattre O, Barillot E. (2011) Control-free calling of copy number alterations in deep-

sequencing data using GC-content normalization. Bioinformatics; 27(2):268-9.

Boeva V, Popova T, Bleakley K, Chiche P, Cappo J, Schleiermacher G, Janoueix-Lerosey I, Delattre O, Barillot E. (2012) Control-FREEC: a tool for

assessing copy number and allelic content using next generation sequencing data. Bioinformatics. 28:423-5.

Brosens RP, Haan JC, Carvalho B, Rustenburg F et al, (2010). Candidate driver genes in focal chromosomal aberrations of stage II colon cancer. The

Journal of Pathology 221, 4, 411–424.

Coe BP, Witherspoon K, Rosenfeld JA, van Bon BW, Vulto-van Silfhout AT, Bosco P, Friend KL, Baker C, Buono S, Vissers LE, Schuurs-

Hoeijmakers JH, et al (2014). Refining analyses of copy number variation identifies specific genes associated with developmental delay. Nature

Genetics 46, 1063–1071 .

Carter SL, et al. (2012) Absolute quantification of somatic DNA alterations in human cancer. Nat. Biotechnol.30:413–421.

Chen K, Wallis JW, McLellan MD, Larson DE, Kalicki JM, Pohl CS, McGrath SD, Wendl MC, Zhang QY, Locke DP, et al. (2009) BreakDancer: an

algorithm for high resolution mapping of genomic structural variation. Nat. Methods 6:677-681.

Chen X, Wang J, Roberts K, Pounds S, Dyer M, Mullighan C , Downing J, and Zhang J (2012) CONSERTING: an accurate method for detecting

focal and gross somatic copy number alterations in cancer genome by next generation sequencing Cancer Res 72; 2487.

Chiang DY, Getz G, Jaffe DB, O'Kelly MJ, Zhao X, Carter SL, Russ C, Nusbaum C, Meyerson M, Lander ES (2009) High-resolution mapping of

copy-number alterations with massively parallel sequencing. Nat Methods, 6:99-103.

Curtis C, Shah SP, Chin SF, Turashvili G, Rueda OM, Dunning MJ, Speed D, Lynch AG, Samarajiwa S, Yuan Y, Graf S, Ha G, Haffari G, Bashashati

A, Russell R, McKinney S, et al.(2012) The genomic and transcriptomic architecture of 2,000 breast tumours reveals novel subgroups. Nature.

486(7403):346–352.

Dancey JE, Bedard PL, Onetto N, Hudson TJ. (2012) The genetic basis for cancer treatment decisions. Cell;148(3):409–420

Dempster AP, Laird NM, Rubin DB. (1977) Maximum likelihood from incomplete data via the EM algorithm. J R Stat Soc Series B Stat Methodol;

pages 1–38.

Diskin SJ, Hou C, Glessner JT, Attiyeh EF, Laudenslager M, Bosse K, Cole K, Mosse YP, Wood A, Lynch JE, Pecor K, Diamond M, Winter C, Wang

K, Kim C, Geiger EA, et al. (2009) Copy number variation at 1q21.1 associated with neuroblastoma. Nature.; 459(7249):987-991.

Duan J, Zhang J-G, Deng H-W, Wang Y-P (2013) Comparative Studies of Copy Number Variation Detection Methods for Next-Generation

Sequencing Technologies. PLoS ONE 8(3): e59128.

Duan J, Zhang J, Deng H and Wang Y (2013) CNV-TV: A robust method to discover copy number variation from short sequencing reads BMC

Bioinformatics, 14:150.Eddie SR. (2004) What is a hidden Markov model? Nature biotechnology;22(10):1315–1316.

Edelmann L, Hirschhorn K (2009) Clinical Utility of Array CGH for the Detection of Chromosomal Imbalances Associated with Mental Retardation

and Multiple Congenital Anomalies. Year in Human and Medical Genetics 1151: 157–166.

Fellermann K, Stange DE, Schaeffeler E, Schmalzl H, Wehkamp J, et al. (2006) A chromosome 8 gene-cluster polymorphism with low human beta-

defensin 2 gene copy number predisposes to Crohn disease of the colon. American Journal of Human Genetics 79: 439–448.

Feuk L, Carson AR, Scherer SW. (2006) Structural variation in the human genome. Nature reviews Genetics;7(2):85–97.

Forney Jr GD. (1973). The viterbi algorithm. Proceedings of the IEEE; 61(3):268–278.

Frampton M, Houlston R (2012) Generation of Artificial FASTQ Files to Evaluate the Performance of Next-Generation Sequencing Pipelines. PLoS

ONE 7(11): e49110.

Frank B, Hemminki K, Meindl A, Wappenschmidt B, Sutter C et al.. (2007) BRIP1 (BACH1) variants and familial breast cancer risk: a case-control

study. Bmc Cancer 7

Fujimoto A, Nakagawa H, Hosono N, Nakano K, Abe T, et al. (2010) Whole-genome sequencing and comprehensive variant analysis of a Japanese

individual using massively parallel sequencing. Nat Genet 42: 931–936.

Futreal PA, Coin L, Marshall M, et al. (2004) A census of human cancer genes. Nat. Rev. Cancer;4(3):177–83.

Glessner JT, Wang K, Sleiman PMA, Zhang H, Kim CE et al.. (2010) Duplication of the SLIT3 Locus on 5q35.1 Predisposes to Major Depressive

Disorder. PLOS ONE 5.

Gonzalez E, Kulkarni H, Bolivar H, Mangano A, Sanchez R, et al. (2005) The influence of CCL3L1 gene-containing segmental duplications on HIV-

1/AIDS susceptibility. Science 307: 1434–1440.

Gusnanto A, et al. (2012) Correcting for cancer genome size and tumour cell content enables better estimation of copy number alterations from next-

generation sequence data. Bioinformatics;28:40–47.

Ha G, Roth A, Lai D, et al. (2012). Integrative analysis of genome-wide loss of heterozygosity and monoallelic expression at nucleotide resolution

reveals disrupted pathways in triple-negative breast cancer. Genome Res;22(10):1995–2007.

Hajirasouliha I, Hormozdiari F, Alkan C, Kidd JM, Birol I, Eichler EE, Sahinalp SC (2010). Detection and characterization of novel sequence

insertions using paired-end next-generation sequencing. Bioinformatics , 26:1277-1283.

Handsaker RE, Korn JM, Nemesh J, McCarroll SA (2011) Discovery and genotyping of genome structural polymorphism by sequencing on a

population scale. Nat Genet, 43:269-276.Helbig I, Mefford HC, Sharp AJ, Guipponi M, Fichera M, et al. (2009) 15q13.3 microdeletions increase risk of idiopathic generalized epilepsy. Nature

Genetics 41: 160–162. doi: 10.1038/ng.292

Hollox EJ, Huffmeier U, Zeeuwen PLJM, Palla R, Lascorz J, et al. (2008) Psoriasis is associated with increased beta-defensin genomic copy number.

Nature Genetics 40: 23–25.

Holt C, Losic B, Pai D, Zhao Z, Trinh Q, Syam S, Arshadi N, Jang GH, Ali J, Beck T, McPherson J, Muthuswamy LB. (2013). Wave CNVs: Allele

specificCopy Number Alterations in primarytumors and xenograft modelsfromnext-generation sequencing. Bioinformatics. 32:1–7

Huynh, A.S., et al. (2011) Development of an orthotopic human pancreatic cancer xenograft model using ultrasound guided injection of cells, PLoS

One, 6, e20330.

Hormozdiari F, et al. (2009). Combinatorial algorithms for structural variation detection in high-throughput sequenced genomes. Genome

Res.19:1270-1278.

Hormozdiari F, Hajirasouliha I, Dao P, Hach F, Yorukoglu D, Alkan C, Eichler EE, Sahinalp SC (2010) Next-generation VariationHunter:

combinatorial algorithms for transposon insertion discovery. Bioinformatics, 26:i350-357.

Hormozdiari F, Hajirasouliha I, McPherson A, Eichler EE, Sahinalp SC (2011) Simultaneous structural variation discovery among multiple paired-

end sequenced genomes. Genome Res, 21:2203-2212.Ibanez P, Bonnet AM, Debarges B, Lohmann E, Tison F, et al. (2004) Causal relation between alpha-synuclein gene duplication and familial

Parkinson's disease. Lancet 364: 1169–1171.

Iqbal Z, Caccamo M, Turner I, Flicek P, McVean G (2012) De novo assembly and genotyping of variants using colored de Bruijn graphs. Nat Genet,

44:226-232.

Ivakhno S, Royce T, Cox AJ, Evers DJ, Cheetham RK, Tavare S (2010) CNAseg--a novel framework for identification of copy number changes in

cancer from second-generation sequencing data.

Bioinformatics, 26:3051-3058.

Kim TM, Luquette LJ, Xi R, Park PJ (2010) rSW-seq: algorithm for detection of copy number alterations in deep sequencing data. BMC

Bioinformatics, 11:432.Kim TM, Xi R, Luquette LJ, et al (2013). Functional genomic analysis of chromosomal aberrations in a compendium of 8000 cancer genomes.

Genome Res.;23(2):217–27.

Klambauer G, Schwarzbauer K, Mayr A, Clevert DA, Mitterecker A, Bodenhofer U, Hochreiter S (2012). cn.MOPS: mixture of Poissons for

discovering copy number variations in next-generation sequencing data with a low false discovery rate. Nucleic Acids Res, 40:e69

Koboldt DC, Zhang Q, Larson DE, Shen D, McLellan MD, Lin L, Miller CA, Mardis ER, Ding L, Wilson RK. (2012). VarScan 2: Somatic mutation

and copy number alteration discovery in cancer by exome sequencing. Genome Res. 22: 568-576.

Korbel JO, Abyzov A, Mu XJ, Carriero N, Cayting P, Zhang ZD, Snyder M, Gerstein MB (2009) PEMer: a computational framework with

simulation-based error models for inferring genomic structural variants from massive paired-end sequencing data. Genome Biol, 10:R23.Kosugi S, Natsume S, Yoshida K, MacLean D, Cano L, et al. (2013). Coval: Improving Alignment Quality and Variant Calling Accuracy for Next-

Generation Sequencing Data. PLoS ONE 8(10): e75402.

Krishnan NM, Gaur P, Chaudhary R, Rao AA, Panda B. (2012) COPS: a sensitive and accurate tool for detecting somatic CopyNumber Alterations

using short-read sequence data from paired samples. PLoS One. 7(10)

Kumar RA, KaraMohamed S, Sudi J, Conrad DF, Brune C, et al. (2008). Recurrent 16p11.2 microdeletions in autism. Human Molecular Genetics 17:

628–638.

Lai D, Ha G, Shah S. (2012). HMMcopy, Copy number prediction with correction for GC and mappability bias for HTS data. R package version

1.2.0.

Li R, Zhu H, Ruan J, Qian W, Fang X, Shi Z, Li Y, Li S, Shan G, Kristiansen K, Li S, Yang H, Wang J, Wang J. (2010 ) De novo assembly of human

genomes with massively parallel short read sequencing. Genome Res. Feb;20(2):265-72.

Liu B, Morrison CD, Johnson CS, Trump DL, Qin M, Conroy JC, Wang J, Liu S. (2013) Computational methods for detecting copy number

variations in cancer genome using next generation sequencing: principles and challenges.Oncotarget; 4(11):1868-81.

Liu P, Lacaria M, Zhang F, Withers M, Hastings P, Lupski JR. (2011). Frequency of nonallelic homologous recombination is correlated with length of

homology: evidence that ectopic synapsis precedes ectopic crossing-over. Am J Hum Genet, 89(4):580-588.

Louhimo R, Lepikhova T, Monni O, et al. (2012). Comparative analysis of algorithms for integration of copy number and expression data. Nat.

Methods;9(4):351–5.

Magi A, Benelli M, Yoon S, Roviello F, Torricelli F (2011) Detecting common copy number variants in high-throughput sequencing data by using

JointSLM algorithm. Nucleic Acids Res 39:e65.Marshall CR, Noor A, Vincent JB, Lionel AC, Feuk L, et al. (2008). Structural variation of chromosomes in autism spectrum disorder. American

Journal of Human Genetics 82: 477–488.

Mayrhofer M, et al. (2013). Patchwork: allele-specific copy number analysis of whole genome sequenced tumor tissue. Genome Biol. 2013;14:R24.

McKinney C, Merriman ME, Chapman PT, Gow PJ, Harrison AA, et al. (2008). Evidence for an influence of chemokine ligand 3-like 1 (CCL3L1)

gene copy number on susceptibility to rheumatoid arthritis. Annals of the Rheumatic Diseases 67: 409–413.

McMullan DJ, Bonin M, Hehir-Kwa JY, de Vries BBA, Dufke A, et al. (2009). Molecular Karyotyping of Patients with Unexplained Mental

Retardation by SNP Arrays: A Multicenter Study. Human Mutation 30: 1082–1092.

Merikangas AK, Corvin AP, Gallagher L (2009). Copy-number variants in neurodevelopmental disorders: promises and challenges. Trends in

Genetics 25: 536–544.

Medvedev P, Fiume M, Dzamba M, Smith T, Brudno M (2010) Detecting copy number variation with mated short reads. Genome Res, 20:1613-1622.

Miller CA, Hampton O, Coarfa C, Milosavljevic A (2011) ReadDepth: a parallel R package for detecting copy number alterations from short

sequencing reads. PLoS One, 6:e16327.

Mills RE, Walter K, Stewart C, Handsaker RE, Chen K, Alkan C, Abyzov A, Yoon SC, Ye K, Cheetham RK,et al. (2011) Mapping copy number

variation by population-scale genome sequencing. Nature, 470:59-65.Negrini S, Gorgoulis VG, Halazonetis TD (2010). Genomic in-stability–an evolving hallmark of cancer. Nat. Rev. Mol. Cell. Biol. 11(3):220–8.

Nijkamp JF, van den Broek MA, Geertman JM, Reinders MJ, Daran JM, de Ridder D (2012) De novo detection of copy number variation by co-

assembly. Bioinformatics.

Mosen-Ansorena D, Telleria N, Veganzones S, De la Orden V, Maestro M and Aransay A (2014). “seqCNA: an R package for DNA copy number

analysis in cancer using high-throughput sequencing.”BMC Genomics, 15(1), pp. 178.Olshen AB, Venkatraman ES, Lucito R, Wigler M. (2004). Circular binary segmentation for the analysis of array-based DNA copy number data.

Biostatistics. 5(4):557–572.

Olshen AB (b), Bengtsson H, Neuvial P, Spellman PT, Olshen RA, Seshan VE. (2011) Parent-specific copy number in paired tumor-normal studies

using circular binary segmentation. Bioinformatics;27(15):2038–2046.

Qi J, Zhao F (2011) inGAP-sv: a novel scheme to identify and visualize structural variation from paired end mapping data. Nucleic Acids Res,

39:W567-575Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. (2014) A survey of tools

for variant analysis of next-generation genome sequencing data. Brief Bioinform. 15(2):256-78.

Pang, A., MacDonald, J., Pinto, D., Wei, J., Rafiq, M. et al. (2010) Towards a comprehensive structural variation map of an individual human genome.

Genome Biology, 11:R52

Pinkel D, Segraves R, Sudar D, et al. (1998) High resolution analysis of DNA copy number variation using comparative genomic hybridization to

microarrays. Nat. Genet; 20(2):207–11.

Pleasance ED, Cheetham RK, Stephens PJ, McBride DJ , Humphray SJ, Greenman CD ,Varela I, et al (2010). A comprehensive catalogue of

somatic mutations from a human cancer genome. Nature 463, 191-196.

Popova T, Manie E, Stoppa-Lyonnet D, Rigaill G, Barillot E, Stern MH. (2009) Genome Alteration Print (GAP): a tool to visualize and mine complex

cancer genomic profiles obtained by SNP arrays. Genome biology;10(11):R128.

Quinlan AR, Clark RA, Sokolova S, Leibowitz ML, Zhang Y, Hurles ME, Mell JC, Hall IM (2010) Genome-wide mapping and assembly of structural

variant breakpoints in the mouse genome.Genome Res, 20:623-635.Rovelet-Lecruz A, Hannequin D, Raux G, Le Meur N, Laquerriere A, et al. (2006) APP locus duplication causes autosomal dominant early-onset

Alzheimer disease with cerebral amyloid angiopathy. Nature Genetics 38: 24–26.

Schaaf CP, Wiszniewska J, Beaudet AL. (2011) Copy number and SNP arrays in clinical diagnostics. Annual review of genomics and human

genetics;12:25–51.

Shen J, Zhang N. (2012) Change-point model on nonhomogeneous Poisson processes with application in copy number profiling by next-generation

DNA sequencing. 6:476-496.

Shlien A and Malkin D. (2009) Copy number variations and cancer. Genome medicine; 1(6):62.

Simpson JT, McIntyre RE, Adams DJ, Durbin R. (2010) Copy number variant detection in inbred strains from short read sequence data.

Bioinformatics. Feb 15;26(4):565-7.

Sindi S, Helman E, Bashir A, Raphael BJ (2009) A geometric approach for classification and comparison of structural

variants.Bioinformatics,25:i222-230.

Sindi SS, Onal S, Peng LC, Wu HT, Raphael BJ (2012) An integrative probabilistic model for identification of structural variation in sequencing data.

Genome Biol, 13:R22.Singleton AB, Farrer M, Johnson J, Singleton A, Hague S, et al. (2003) alpha-synuclein locus triplication causes Parkinson's disease. Science 302:

841.

Speicher MR, Carter NP. (2005) The new cytogenetics: blurring the boundaries with molecular biology. Nature reviews Genetics;6(10):782–792.

Stefansson H, Rujescu D, Cichon S, Pietilainen OPH, Ingason A, et al. (2008) Large recurrent microdeletions associated with schizophrenia. Nature

455: 232–U61.

Stranger BE, Forrest MS, Dunning M, Ingle CE, Beazley C, Thorne N, Redon R, Bird CP, de Grassi Grassi, Lee C, Tyler-Smith C, Carter N, Scherer

SW, Tavare S, Deloukas P, Hurles ME, et al. (2007) Relative impact of nucleotide and copy number variation on gene expression phenotypes.

Science;315(5813):848–853.

Stratton MR, Campbell PJ, Futreal PA (2009): The cancer genome. Nature, 458(7239):719-724.

Sun W, Wright FA, Tang Z, Nordgard SH, Van Loo Loo, Yu T, Kristensen VN, Perou CM. (2009) Integrated study of copy number states and

genotype calls using high-density SNP arrays. Nucleic acids research;37(16):5365–5377.

Szatmari P, Paterson AD, Zwaigenbaum L, Roberts W, Brian J, et al. (2007) Mapping autism risk loci using genetic linkage and chromosomal

rearrangements. Nature Genetics 39: 319–328.

Teo SM, Pawitan Y, Ku CS, Chia KS, Salim A. (2012) Statistical challenges associated with detecting copy number variations with next-generation

sequencing. Bioinformatics;28(21):2711–2718.

Wang H, Nettleton D and Ying K (2014). Copy Number Variation Detection Using Next Generation Sequencing Read Counts, BMC Bioinformatics

2014, 15:109.

Wang Z, Hormozdiari F, Yang W-Y, Halperin E, Eskin E (2012) CNVeM: Copy Number Variation Detection Using Uncertainty of Read Mapping. In

Research in Computational Molecular Biology Edited by Chor B: Springer Berlin/Heidelberg., 7262:326-340. Lecture Notes in Computer Science.

Waszak SM, Hasin Y, Zichner T, Olender T, Keydar I, Khen M, Stütz AM, Schlattl A, Lancet D, Korbel JO. (2010) Systematic inference of copy-

number genotypes from personal genome sequencing data reveals extensive olfactory receptor gene content diversity. PLoS Comput Biol. Nov

11;6(11).Weiss LA, Shen YP, Korn JM, Arking DE, Miller DT, et al. (2008) Association between microdeletion and microduplication at 16p11.2 and autism.

New England Journal of Medicine 358: 667–675.

Wong K, Keane TM, Stalker J, Adams DJ. (2010) Enhanced structural variant and breakpoint detection using SVMerge by integration of multiple

detection methods and local assembly. Genome Biol.;11(12):R128.

Xi R (a), Hadjipanayis AG, Luquette LJ, Kim TM, Lee E, Zhang J, Johnson MD, Muzny DM, Wheeler DA, Gibbs RA, Kucherlapati R, Park PJ.

(2011) Copy number variation detection in whole-genome sequencing data using the Bayesian information criterion. Proceedings of the National

Academy of Sciences of the United States of America;108(46):E1128–1136

Xi R (b), et al. (2011) Detecting structural variations in the human genome using next generation sequencing. Brief. Funct. Genomics;9:405-415.

Xie C, Tammi MT (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics, 10:80.Xu B, Roos JL, Levy S, Van Rensburg EJ, Gogos JA, et al. (2008) Strong association of de novo copy number mutations with sporadic schizophrenia.

Nature Genetics 40: 880–885.

Yang Y, Chung EK, Wu YL, Nagaraja HN, Zhou B, et al. (2007) Complement C4 gene copy number variation in human autoimmune disease systemic

lupus erythematosus (SLE). Molecular Immunology 44: 261.

Yau C, Mouradov D, Jorissen RN, Colella S, Mirza G, Steers G, Harris A, Ragoussis J, Sieber O, Holmes CC. (2010) A statistical approach for

detecting genomic aberrations in heterogeneous tumor samples from single nucleotide polymorphism genotyping data. Genome biology;11(9):R92.

Yau C (2013) OncoSNP-SEQ: a statistical approach for the identification of somatic copy number alterations from next-generation sequencing of

cancer genomes. Bioinformatics 29(19):2482-4.

Ye K, et al. (2009) Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short

reads. Bioinformatics;25:2865-2871.

Yoon S, Xuan Z, Makarov V, Ye K, Sebat J. (2009) Sensitive and accurate detection of copy number variants using read depth of coverage. Genome

research;19(9):1586–1592.

Yu Z, Liu Y, Shen Y, Wang M, Li A. (2014) CLImAT: accurate detection of copy number alteration and loss of heterozygosity in impure and

aneuploid tumor samples using whole-genome sequencing data. Bioinformatics. 30(18):2576-83.

Zack TI, Schumacher SE, Carter SL, Cherniack AD, Saksena G, Tabak B, Lawrence MS, Zhang C-Z, Wala J, Mermel CH, Sougnez C, Gabriel SB,

Hernandez B, Shen H, Laird PW, Getz G, Meyerson M, Beroukhim R (2013) Pan-cancer patterns of somatic copy number alteration. Nat Genet,

45(10):1134-1140.

Zhang J, Wu Y (2011). SVseq: an approach for detecting exact breakpoints of deletions with low-coverage sequence data.Bioinformatics, 27:3228-

3234.

Zhang Q, Ding L, Larson DE, Koboldt DC, McLellan MD, Chen K, Shi X, Kraja A, Mardis ER, Wilson RK, et al. (2010) CMDS: a population-based

method for identifying recurrent DNA copy number aberrations in cancer from high-resolution data. Bioinformatics, 26:464-469.

Zhang ZD, Du J, Lam H, Abyzov A, Urban AE, Snyder M, Gerstein M (2011) Identification of genomic indels and structural variations using split

reads. BMC Genomics, 12:375.

Zeitouni B, Boeva V, Janoueix-Lerosey I, Loeillet S, Legoix-ne P, Nicolas A, Delattre O, Barillot E (2010). SVDetect: a tool to identify genomic

structural variations from paired-end and mate-pair sequencing data. Bioinformatics, 26:1895-1896.Zhao M, Wang Q, Wang Q, Jia P, Zhao Z (2013) Computational tools for copy number variation (CNV) detection using next-generation sequencing

data: features and perspectives. BMC Bioinformatics, 14(Suppl 11):S1

Zhao Z, Boerwinkle E (2002) Neighboring-nucleotide effects on single nucleotide polymorphisms: a study of 2.6 million polymorphisms across the

human genome. Genome Res 12: 1679–1686.

Zhenhua Yu, Yuanning Liu, Yi Shen,1 Minghui Wang, and Ao Li (2014) CLImAT: accurate detection of copy number alteration and loss of

heterozygosity in impure and aneuploid tumor samples using whole-genome sequencing data. Bioinformatics. Sep 15;30(18):2576-83.

Evaluación comparativa de herramientas de análisis de ... · Además del cáncer y los trastornos...

Documents

Transcript of Evaluación comparativa de herramientas de análisis de ... · Además del cáncer y los trastornos...