Biologia
· Questão 1
Descreva claramente as entradas e saídas do BLAST. O que são arquivos FASTA e PDB.
R: Para usar as ferramentas BLAST, existem formatos pré-definidos de entradas e saídas que as representações dos genes devem seguir. As bases nitrogenadas do DNA, como vimos, podem ser representadas em arquivos texto onde cada letra representa uma base, A (adenina), T (timina), G (guanina) ou C (citosina). Essas bases, tomadas três a três, formam os vinte aminoácidos usualmente encontrados nas proteínas, portanto, outra forma de representarmos o gene pode ser a forma traduzida em sequências de aminoácidos, e nesse caso cada letra representa um deles. Esse raciocínio aplica-se tanto ao formato de consulta quanto ao formato do banco. Os arquivos que representam as sequências de DNA ou proteínas das consultas e dos bancos de dados devem seguir o formato FASTA. O formato FASTA consiste em uma linha com o identificador do gene ou sequência, seguido de uma pequena descrição, que deve se iniciar com o símbolo > (maior que), sendo ambos opcionais, seguido da sequência em si. Recomenda-se que as linhas da sequência possuam no máximo 80 caracteres, o que também é opcional. Existem dois tipos de arquivo FASTA, um que representa a sequência por suas bases, ou seja, basicamente cada letra é um nucleotídeo, e outro que as bases já se apresentam convertidas em aminoácidos e cada letra representa um deles. Complemento:
Os programas que compõem a família de aplicações BLAST estão encapsulados em um único programa executável, o blastall. E para usar cada um deles deve-se passar seu nome como argumento. Abaixo, descrevemos brevemente cada programa dessa família: blastn - comparar uma sequência de nucleotídeos com o banco de dados de nucleotídeos. blastp - comparar uma sequência de proteína com o banco de dados de proteínas, tem uma opção de procurar domínios conservados na proteína. blastx -