Gestión y análisis de datos para la investigación metagenómica

R

Datos generales

Duración: 32 horas
Nivel: básico-intermedio
Idioma: español
Fecha: del 28 al 31 de octubre de 2024
Horario: lunes a jueves 9:00 – 17:00 (hora del Centro de México)
Modalidad: EN LÍNEA
Software y lección: https://carpentries-lab.github.io/metagenomics-workshop

A

¿Qué aprenderás?

En este taller se aprenderá a gestionar y analizar datos para la investigación metagenómica. Incluyendo buenas prácticas para la organización de proyectos y datos bioinformáticos, uso de utilidades de línea de comandos, uso de herramientas de línea de comandos para analizar la calidad de secuencias, uso de R Studio y uso de bibliotecas de R para comparar la diversidad entre muestras. Discutiremos brevemente otros recursos como anotación funcional y librerías de Python. En el proceso se aprenderá a conectarse y utilizar herramientas de la nube.

@

Pre-requisitos*

Esta lección no asume experiencia previa con las herramientas cubiertas en el taller. Sin embargo, se espera que los alumnos estén familiarizados con conceptos biológicos, incluido el concepto de secuenciación de ADN, genoma, microbioma y taxonomía. Los participantes deben tener sus propias computadoras portátiles, acceso a internet y planear participar activamente.

* Al inscribirte al taller está bajo tu responsabilidad contar con los conocimientos previos requeridos.

h

Descripción

En este taller se aprenderá a identificar clústeres de genes de metabolismo especializado en un linaje bacteriano. Para ello se hablará un poco sobre el pangenoma y se entenderán las diferencias entre genes conservados y genes variables. Para ello, se explorarán los ocho genomas de Streptococcus con los que originalmente Tettelin definió el pangenoma. Finalmente, se mostrarán los principales recursos y bases de datos de metabolismo especializado.

i

Contenido

Organización y Gestión de Proyectos
Estructurar metadatos, organizar y documentar datos metagenómicos y flujos de trabajo bioinformático. Acceder a la base de datos del archivo de lectura de secuencias (SRA) del NCBI.
1. Orden de los datos¿Qué metadatos debo recopilar?
¿Cómo debo estructurar mis datos y metadatos de secuenciación?
¿Qué consideraciones éticas involucran datos y metadatos del microbioma?
2. Planificación de proyectos NGS¿Cómo planifico y organizo un proyecto de secuenciación del genoma?
¿Qué información necesita una instalación de secuenciación?
¿Cuáles son las pautas para el almacenamiento de datos?
3. Examinar datos en la base de datos NCBI SRA¿Cómo accedo a los datos públicos de secuenciación?
Introducción a la línea de comando
Navegar por el sistema de archivos, crear, copiar, mover y eliminar archivos y directorios. Automatizar tareas repetitivas mediante scripts y comodines.
1. Presentación del shell¿Qué es un shell de comandos y por qué debería utilizar uno? ¿Cómo puedo moverme en una computadora?¿Cómo puedo ver qué archivos y directorios tengo? ¿Cómo puedo especificar la ubicación de un archivo o directorio en mi computadora?
2. Navegar por archivos y directorios¿Cómo puedo realizar operaciones en archivos fuera de mi directorio de trabajo? ¿Cuáles son algunos atajos de navegación que puedo utilizar para hacer mi trabajo más eficiente?
3. Trabajar con archivos y directorios¿Cómo puedo ver y buscar contenidos de archivos? ¿Cómo puedo crear, copiar y eliminar archivos y directorios? ¿Cómo puedo controlar quién tiene permiso para modificar un archivo? ¿Cómo puedo repetir los comandos usados ​​recientemente?
4. Redirección¿Cómo puedo buscar dentro de archivos? ¿Cómo puedo combinar comandos existentes para hacer cosas nuevas?
5. Escribir guiones y trabajar con datos¿Cómo podemos automatizar un conjunto de comandos de uso común? ¿Cómo podemos transferir archivos entre computadoras locales y remotas?
6. Organización del proyecto¿Cómo puedo organizar mi sistema de archivos para un nuevo proyecto de bioinformática?
¿Cómo puedo documentar mi trabajo?
Introducción a R
Utilizar R Studio para gestionar varios tipos y estructuras de datos.
1. Primeros pasos en R¿Qué es R y por qué es importante aprender a utilizarlo?
2. Tipos de datos R¿Qué tipos de datos tiene el lenguaje R?
3. Manipulación del marco de datosMarcos de datos. ¿Qué son y cómo gestionarlos?
4. Hacer gráficos con ggplot2¿Cómo puedo crear gráficos útiles en R?
5. Encontrar ayuda en R¿Cómo puedo pedirle ayuda a R?
Procesamiento y visualización de datos para metagenómica
Utiliza herramientas de línea de comandos para realizar control de calidad, ensamblaje metagenómico, agrupación metagenómica, asignación taxonómica y exploración de diversidad.
1. Iniciar un proyecto de metagenómica¿Cómo se planifica un experimento de metagenómica? ¿Cómo es un proyecto de metagenómica?
2. Evaluación de la calidad de lectura¿Cómo puedo describir la calidad de mis datos?
3. Recorte y filtrado¿Cómo podemos deshacernos de los datos de secuencia que no cumplen con nuestros estándares de calidad?
4. Ensamble de metagenoma¿Por qué deberían recopilarse datos genómicos? ¿Cuál es la diferencia entre lecturas y contigs? ¿Cómo podemos ensamblar un metagenoma?
5. Agrupación de metagenomas¿Cómo podemos obtener los genomas originales de un metagenoma?
6. Asignación taxonómica¿Cómo puedo saber a qué taxones pertenecen mis secuencias?
7. Explorando la taxonomía con R¿Cómo puedo utilizar los resultados de mi asignación taxonómica para realizar análisis?
8. Diversidad abordada con R¿Cómo podemos medir la diversidad? ¿Cómo puedo usar R para analizar la diversidad?
9. Análisis taxonómico con R¿Cómo podemos saber qué taxones están en nuestras muestras? ¿Cómo podemos comparar muestras que contrastan en profundidad? ¿Cómo podemos manipular nuestros datos para entregar un mensaje?
10. Otros recursos¿Dónde están otros recursos metagenómicos?
l

¿Quién es nuestra audiencia?

Personas interesadas en conocer brevemente el lenguaje R, estudiantes e investigadores en genómica, genética, bioinformática o ciencias computacionales, con especial interés en el manejo de datos metagenómicos.

Formato del curso: en línea

Este es un curso digital. Las sesiones y material del curso serán presentados en línea. Esta modalidad incluirá grabaciones de video o audio del material, intercambio de archivos y sesiones de discusión temáticos, ejercicios de auto-evaluación y acceso a los instructores para comentarios durante el curso.

Profesores

Dra. Nelly Sélem Mojica

Centro de Ciencias Matemáticas UNAM

Dr. César Augusto Aguilar

Investigador asociado en la Universidad de Purdue