MMF Matrix to Huge Sequences
J. I. K. Gonçalves1, F. G. Torres1, M. O. Malaquias1 and A. T. L. Queiroz1
1
Laboratório de Imunoparasitologia – Centro de Pesquisa Gonçalo Moniz – Fiocruz – BA
Revisão da literatura.
Em bio informática, a maioria dos algoritmos exatos de comparação de sequências, usam matrizes como principal estrutura de dados para armazenamento e organização de dados posicionais, dados de traceback e de score. Tais algoritmos tem um problema mútuo no que diz respeito ao gerenciamento de grandes sequências, pois as estruturas de dados utilizadas são limitadas pela quantidade de endereços que um processador de 32 ou 64 bits poderá gerenciar e manipular. Além deste fato, o tamanho das estruturas de dados crescem exponencialmente, fazendo com que estas estruturas consumam ainda mais recursos de máquina. Em apenas um alinhamento, utilizando o mínimo de recurso de gerenciamento de pilha de execução, e em um processador de 32 bits, é possível criar matrizes baseadas em memória de até
100.000.000 registros, isto representa o alinhamento de apenas duas sequências de 10kpb(genoma completo do HIV por exemplo). Porém, se estas sequências fossem apenas 500pb ou 0.5kpb maiores, o número de endereços que o processador poderá gerenciar acaba, e o processo é interrompido pro falta de memória. Para otimizar a utilização de recursos pelos algoritmos, é proposta a implementação de um modelo genérico de uma estrutura de dados em formato de matriz, onde todos os dados da matriz, seus endereços e marcações, serão armazenados de forma ordenada e balanceada em arquivos mapeados em memória(Memory Mapped Files), sendo assim, requerendo puco recurso de máquina e melhorando a velocidade do algoritmo. Esta implementação foi