GUÍA RÁPIDA DEL PROGRAMA STRUCTURE Version...

1

GUÍA RÁPIDA DEL PROGRAMA STRUCTURE Version 2.3

Programa de análisis de genética de poblaciones

Curso Intensivo de Postgrado. UACH. México 2016. Fernando González Andrés.

2


3

1. PREPARACIÓN DE LOS ARCHIVOS DE DATOS Pg. 5

2. INCORPORACIÓN DE LA BASE DE DATOS AL PROGRAMA STRUCTURE Pg. 6

3. CONFIGURACIÓN DE LOS PARÁMETROS DEL ANÁLISIS Pg. 11

4. CORRER EL PROGRAMA UNA SOLA VEZ . Pg. 15

5. CORRER UNA TANDA DE ENSAYOS PROBANDO UN DETEMINADO RANGO DE VALORES DEL NÚMERO DE POBLACIONES ESPERADO (K)

. Pg. 16

6. ESTIMAR EL VALOR DEL NUMERO DE POBLACIONES (K) EN FUNCIÓN DE LOS RESULTADOS OBTENIDOS. Pg. 18

7. ASIGNAR CADA UNA DE LAS UBC A UNA DE LAS POBLACIONES, ACERVOS GENÉTICOS O GRUPOS. Pg. 21


4


5

1. PREPARACIÓN DE LOS ARCHIVOS DE DATOS

El archivo de datos tiene la estructura que se presenta en la siguiente figura.El significado de las columnas y filas de información se explica más adelante:

Curso Intensivo de Postgrado. UACH. México 2016 Fernando González Andrés.

Etiquetas de las UBC

Etiquetas de los loci analizados

Columnas de información

Filas de información

Aquí se escriben los valores de cada alelo, con números.Observar que hay dos filas repetidas para cada UBC, porque se trata de una especie diploide. Cada una de las filas contiene para cada locus (columna) el valor de cada uno de los dos alelos, que pueden ser iguales (homocigoto) o diferentes (heterocigoto)

Ver páginas 8 y 9 para la descripción del contenido de las filas de información o columnas de información

6

2. INCORPORACIÓN DE LA BASE DE DATOS AL PROGRAMA STRUCTURE


El primer paso consiste en abrir un nuevo proyecto. Para esto en el menú desplegable superior se señala File/New project

El archivo puede prepararse en Excel, pero hay que guardarlo como texto de MS-DOS. A continuación se presenta un ejemplo lo más sencillo posible para un marcador microsatélite en una especie diploide. Por ser diploide el nombre de cada una de las UBC está duplicado

7


Aparece la pantalla que se presenta a continuación, en la que debe rellenarse información relativa al proyecto en ejecución y al directorio en el que se recuperarán y guardarán los datos. La línea “Choose data file” se refiere al archivo de datos que ha sido preparado y guardado con formato de texto.

8


La siguiente pantalla solicita información descriptiva sobre las características de la matriz de datos. Todas son muy evidentes salvo el apartado “Missing data” donde debe introducirse el valor que corresponde a la codificación de los datos ausentes, que típicamente es -1.

Tras presionar “Next>>” aparece una nueva ventana emergente donde hay que informar al programa sobre la estructura de la matriz de datos.

En primer lugar sobre el número y la naturaleza de las filas “de información” es decir las que preceden a los datos propiamente dichos. Todas estas filas son opcionales.

• Row of marker names: Es el nombre de cada locus. Puede estar constituido por números, letras o una mezcla de ambos.

• Row of recessive alleles: Solamente para marcadores dominantes. Es opcional su uso. En caso de utilizarlo se indicará el código correspondiente al alelo recesivo. Debe ser un número entero

• Map distances between loci: Es opcional y sirve para indicar las distancias entre los diferentes locus, por lo que son valores proporcionales al coeficiente de recombinación. Debe ser un número real

• Phase information: Solamente para especies diploides y para ser utilizado con el modelo de ligamiento (ver más adelante el tipo de modelos)

9


Tras presionar “Next>>” la siguiente ventana emergente hay que completarla co los datos sobre el número y la naturaleza de las columnas “de información” es decir las que preceden a los datos propiamente dichos. Todas las columnas son opcionales.• Individual ID for each individual: El nombre de cada una de las UBC. Pueden ser

números, letras o una mezcla de ambos.• Putative population origin for each individual (PopData): La población “física” a la

que pertenece cada uno de las UBC, por ejemplo el lugar geográfico de procedencia. El algoritmo de cálculo no lo utiliza, pero se puede utilizar para ordenar la salida de los resultados. Debe ser un número entero.

• USEPOPINFO selection flag: Será 1 si se pretende utilizar los datos de PopDatapara organizar la salida de los resultados o 0 si no.

• Sampling location information: Se utilizará si quiere establecerse como hipótesis previa de partida la pertenencia a una determinada población. Debe ser un número entero. En vez de crear nueva información sobre la pertenencia a cierta población, simplemente se puede utilizar la información recogida en PopData (más adelante se indica como señalarlo).

• Phenotype information: Solamente se utilizará si se va a combinar el uso de STRUCTURE con el uso de STRAT, que es un software de georreferenciación.

• Other extra columns

10


Tras presiona “Finish” aparece una ventana con el resumen de las características de la base de datos. Clickeando en la tecla “Proceed” aparecd la base de datos tal como ha sido incorporada al programa

11


3. CONFIGURACIÓN DE LOS PARÁMETROS DEL ANÁLISIS

En el menú deplegable superior clickear o señalar Parameter set/New

12


Aparecerá la ventana que se muestra a continuación . En esta ventana hay que fijar e introducir los parámetros para cada una de las pestañas de la ventana.

PESTAÑA “Run Length”• “Length of burning period” que es el número de repeticiones antes de comenzar a tomar los

datos para el análisis, con objeto de minimizar el efecto de la configuración inicial. Un valor orientativo son 10,000.

• “Number of MCMC Reps after Burnin”. MCMC significa Markow chain Monte Carlo. Lo que hay que elegir el es número de repeticiones MCMC y en general se suele elegir entre 50,000 y 100,000.

PESTAÑA “Ancesty Model”

En esta pestaña hay que elegir el modelo a utilizar, existiendo cuatro opciones. El modelo de ligamiento solamente aparece como seleccionable cuando la base de datos tiene información sobre el ligamiento de los loci.

En general se suele utilizar el modelo de mezclas “Use Admisture Model”, en el cual cada accesión presentaría fracciones de su genoma relacionadas con los K grupos establecidos.

El grado de mezcla (alfa) se aconseja dejar dejarlo por defecto, de manera que sea inferido a partir de los datos.

13


PESTAÑA “Alele Frequency Model”

En esta pestaña hay que elegir el modelo para las frecuencias alélicas. Se aconseja utilizar la que viene marcada por defecto que es el de frecuencias alélicas correlacionadas entre los grupos, ya que ésta puede ser considerada la mejor configuración incluso en el caso de que sólo existiera una débil estructura genética.

El parámetro de la distribución de las frecuencias alélicas (lambda) se conseja fijarlo en un valro constante de 1 según bibliografía (Tritchard and Wen, 2010)

14


Una vez elegido introducidos estos valores y tras presionar OK aparece una nueva ventana donde debemos establecer el nombre con el que se almacenarán los parámetros del análisis

Hecho esto se obtiene una ventana de confirmación

15


4. CORRER EL PROGRAMA UNA SOLA VEZ

En el menú deplegable superior clickear o señalar Parameter set/Run

16

Emergerá la ventana que se presenta a continuación donde debe indicarse el número de poblaciones “esperado”, que se denomina “K”.

NOTA: Normalmente lo que se pretende es que el programa nos ayude a estimar el número de poblaciones existente en función de la estructura genética. Esto suele ser así independientemente de que se haya establecido como hipótesis previa de partida la pertenencia a una determinada población, y por tanto se hayan presupuesto un número determinado de poblaciones. Por eso lo más habitual es correr una tanda con un rango de valores de K.

5. CORRER UNA TANDA DE ENSAYOS PROBANDO UN DETEMINADO RANGO DE VALORES DEL NÚMERO DE POBLACIONES ESPERADO (K)

En el menú deplegable superior clickear o señalar Project/Start a job


17

Emergerá la ventana que se presenta a continuación donde debe indicarse el rango del número de poblaciones, así como el número de iteraciones, repeticiones o simulaciones para cada población (se aconsejan 10 iteraciones para que el proceso no se alargue demasiado tiempo)

Al finalizar el trabajo se informa de ello


18

6. ESTIMAR EL VALOR DEL NUMERO DE POBLACIONES (K) EN FUNCIÓN DE LOS RESULTADOS OBTENIDOS.

El programa proporciona un valor LnP(D) para cada valor de K, es decir L(K), que es una estimación media de la probabilidad posterior de los datos para cada uno de los valores de K. De esta manera el óptimo número de grupos diferentes se puede inferir a partir de aquel valor K que presente el máximo valor de dicha probabilidad posterior.


En el panel de la izquierda se guarda todo el historial del proyecto desarrollado. Presionando alguno de los apartados su contenido se despliega en el panel de la derecha. En concreto el apartado “Simulation Summary” ofrece un resumen del que se obtiene la información para decidir el número de poblaciones más probable.

19


Tanto la aplicación de la fórmula como el dibujo de la gráfica debe hacerse en el programa Excel., con la hoja de Excel denominada EX_TRUCTURE, que puede obtenerse de la documentación del curso (Apartado software del menú superior de la Web)

Para ello el primer paso es exportar la tabla, grabándola como texto en un archivo.

Posteriormente se importa en un Excel, teniendo en cuenta que solamente interesa la columna Ln P(D), y por tanto debe procurarse que quede intacta, es decir que no haya cortes de la misma.

Dicha columna se cortará y pegará en la correspondiente columna de la hoja Excel EX_TRUCTURE, obteniendo el valor de Delta K para cada uno de los valores de K. El valor de K debe introducirse manualmente, ya que el rango de cálculo puede variar de unos trabajos a otros. En el ejemplo va de 1 a 19 (Delta de K toma 18 valores), pero en otro trabajo por ejemplo puede variar de 4 a 8 o de 5 a 14 por poner dos ejemplos aleatorios

20


21

0

50

100

150

200

250

300

350

400

450

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Del

ta K

K


El valor de Delta K se representará frente al valor correspondiente de K

7. ASIGNAR CADA UNA DE LAS UBC A UNA DE LAS POBLACIONES, ACERVOS GENÉTICOS O GRUPOS.

En el caso de que Delta K nos haya permitido vislumbrar que puede existir un número más elevado de poblaciones o grupos, por ejemplo 3, el siguiente paso es calcular las probabilidades de asignación de las diferentes UBC a cada uno de los 3 grupos indicados en el ejemplo.

Para ello se vuelve a correr el programa, una sola vez (ver el apartado 4 en la página 15) introduciendo como número de poblaciones asumido, el número de poblaciones más probable, en este caso 3.

En la salida del programa se puede observar directamente la probabilidad de asignación de cada UBC a cada uno de los grupos o poblaciones.

El valor de K que haga claramente máximo a Delta K, será el número más probable de K, y por tanto el número más probable de grupos o poblaciones en el conjunto de las UBC.En este ejemplo no existe una estructura de poblaciones, ya que existe una alta probabilidad de que solamente exista un único grupo.

22


Probabilidad de asignación al grupo 1



UBCs

GUÍA RÁPIDA DEL PROGRAMA STRUCTURE Version...

Documents

Transcript of GUÍA RÁPIDA DEL PROGRAMA STRUCTURE Version...