Want to create interactive content? It’s easy in Genially!

Get started free

MBC-6-M7-R1

CEV PUCE

Created on May 20, 2021

Start designing with a free template

Discover more than 1500 professional designs like these:

Psychedelic Presentation

Chalkboard Presentation

Witchcraft Presentation

Sketchbook Presentation

Genial Storytale Presentation

Vaporwave presentation

Animated Sketch Presentation

Transcript

Algoritmos de la Biología Computacional

Una guía para principiantes sobre la anotación del genoma eucariota.

EMPEZAR

Antes de anotar

El primer paso hacia la anotación exitosa de cualquier genoma es determinar si el ensamblaje está listo para la anotación. Varias estadísticas resumidas se utilizan para describir la integridad y la continuidad de un ensamblaje del genoma y, con mucho, el más importante es N50.

Fases

‘Computation’ phase En esta fase, las etiquetas de secuencia expresadas (EST), proteínas, etc., son alineadas con el genoma y las predicciones genéticas ab initio y / o basadas en evidencias son generadas. ‘Annotation’ phase En esta fase, los datos anteriores se sintetizan en anotaciones genéticas. Debido a que este proceso es intrínsecamente complicado e involucra tantas herramientas diferentes, los programas que ensamblan datos de cómputo (evidencia) y los usan que para crear anotaciones del genoma se refieren generalmente a como annotation pipelines.

Paso 1: ‘Computation’ phase

Ab initio gene prediction

Repeat identification

Evidence-driven gene prediction

Evidence alignment

Identificar los elementos repetitivos y ocularlos o masking con el fin de evitar producir evidencia falsa para las anotaciones.

Predictor que usa un modelo matematica en lugar de evidencia externa (EST y alineamientos de proteinas) para identificar genes y determinar sus estructuras intron-exon.

Alinear proteinas, ESTs y datos de ARN-seq al ensamblaje del genoma. Se incluyen secuencias del genoma que esta siendo anotado y de otros organismos (proteinas).

Usan EST y alienamientos de proteinas para identificar los limites de los exones.

Paso 2: ‘Annotation’ phase

Tradicionalmente, esto se hacía manualmente; los anotadores (humanos) del genoma revisarían la evidencia para cada gen para decidir sobre sus estructuras intrón-exón. Aunque esto da como resultado una anotación de alta calidad, es tan intensivo en mano de obra que, para el presupuesto razones, los proyectos de genoma más pequeños son cada vez más verse obligado a depender de anotaciones automatizadas. Hay casi tantas estrategias para crear anotaciones automatizadas como hay annotation pipelines; pero el tema común es usar evidencia para mejorar la precisión de los modelos genéticos, generalmente mediante alguna combinación de procesamiento previo y posterior de las predicciones genéticas.

El objetivo final de los esfuerzos de anotación es obtener una síntesis de evidencia basada en alineación con predicciones de genes ab initio para obtener un conjunto final de anotaciones de genes.

Paso 2: ‘Annotation’ phase

Automated annotation La forma más simple de anotación automatizada es ejecutar una batería de diferentes genes buscadores en el genoma y luego usar un "algoritmo selector” (también conocido como" combinador ") para seleccionar el predicción única cuya estructura intrón-exón mejor representa el consenso de los modelos de entre las predicciones superpuestas que definen cada putativo locus de genes.

Visualizando los datos de anotación

La importancia de usar un formato de resultados adecuado. Como mínimo, los archivos de salida deben describir el intrón-exón, estructuras de cada anotación, su inicio y finalización, codones, UTR y transcripciones alternativas. Idealmente, estos resultados deberían ir un paso más allá y deberían incluir información sobre las alineaciones de la secuencia y predicciones genéticas que apoyan cada modelo genético.

Los formatos mas comunes para describir anotaciones son:

  • GenBank
  • GFF3
  • GFT
  • EMBL

Control de calidad

Indicaciones crudas usando programas que cuentan cuantas anotaciones codifican proteínas con dominios conocidos. Metricas creadas por el Sequence Ontology Project como la metrica Annotation edit distance (AED), Annotation jamborees Muchos proyectos revisan y editan manualmente sus anotaciones en reuniones. Por supuesto, identificar anotaciones inexactas es solo la mitad del problema; Los errores también deben corregirse. El enfoque más directo para corregir una anotación errónea es editar sus coordenadas intrón-exón manualmente. Usando programas navegadores, los modelos genéticos se pueden revisar gráficamente usando una serie de "arrastrar y soltar" y clics del mouse, y las ediciones resultantes se escriben de nuevo en archivos o en una conexión de base de datos remota.

Referencias

Yandell, M., & Ence, D. (2012). A beginner’s guide to eukaryotic genome annotation. Nature Reviews Genetics, 13(5), 329–342. https://doi.org/10.1038/nrg3174