Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/9222
Tipo: Tese
Título: O Problema do Mapeamento de Sequências em Grafos de De Bruijn
Autor(es): LUCAS BARBOSA ROCHA
Primeiro orientador: Said Sadique Adi
Resumo: Um problema relevante na Biologia Computacional consiste na tarefa de mapear uma sequência em outra, visando a comparação entre elas. Normalmente, esse processo utiliza uma sequência de referência de alta qualidade construída a partir de um conjunto específico de sequências. No entanto, a limitação dessa abordagem é evidente, pois a sequência de referência tende a ser enviesada, representando apenas um conjunto restrito de sequências e sendo incapaz de abranger todas as possibilidades. Para contornar esse viés, uma boa estratégia é representar múltiplas sequências por meio de estruturas mais robustas, como o grafo de sequências ou o grafo de De Bruijn, e mapear sequências nesses grafos. O grafo de sequência é um grafo na qual cada vértice é rotulado com um ou mais caracteres. No grafo de De Bruijn, de ordem k, cada vértice é rotulado com uma sequência distinta de comprimento k e há uma arco de um vértice para outro vértice se e somente se existe uma sobreposição de comprimento k-1 do sufixo do primeiro vértice com o prefixo do segundo vértice. Dadas como entrada uma sequência s e um grafo de sequência (ou De Bruijn) G, mapear s em G consiste em encontrar um percurso p em G tal que a sequência induzia s' por p seja a mais semelhante possível a s. Essa definição dá origem aos problemas abordados nesta tese, a saber o Problema do Mapeamento de Sequências em Grafos de Sequência -- PMSG e o Problema do Mapeamento de Sequências em Grafos de De Bruijn - PMSB. Ambos os problemas admitem três variantes: 1) mudanças apenas na sequência, 2) mudanças no grafo e 3) mudanças na sequência e no grafo. Apresentamos neste trabalho uma análise aprofundada do PMSB. Para a variante 1, temos a implementação e avaliação de algoritmos exatos que a resolvem. Propomos, ainda, heurísticas para o PMSB e conduzimos testes comparativos entre os algoritmos exatos, nossas heurísticas e aquelas encontradas na literatura. Além disso, realizamos um estudo demonstrando que é possível converter um grafo de De Bruijn em um grafo de sequência simples, de tal forma que todas as sequências do grafo de De Bruijn também são induzidas no grafo de sequência simples. No que diz respeito à variante 2, abordamos o problema considerando a capacidade de induzir novos arcos quando um k-mer é modificado no grafo de De Bruijn. Essa abordagem torna o problema mais fácil, permitindo-nos apresentar uma solução polinomial exata para essa variante.
Abstract: A relevant problem in Computational Biology consists of the task of mapping one sequence onto another for comparison purposes. Typically, this process utilizes a high-quality reference sequence constructed from a specific set of sequences. However, the limitation of this approach is evident, as the reference sequence tends to be biased, representing only a restricted set of sequences and being incapable of encompassing all possibilities. To mitigate this bias, a good strategy is to represent multiple sequences through more robust structures, such as sequence graphs or De Bruijn graphs, and map sequences onto these graphs. The sequence graph is a graph where each vertex is labeled with one or more characters. In the De Bruijn graph of order k each vertex is labeled with a distinct sequence of length k, and there is an edge from one vertex to another if and only if there exists a length k-1 overlap of the suffix of the first vertex with the prefix of the second vertex. Given as input a sequence s and a sequence (or De Bruijn) graph G, mapping s onto G consists of finding a path p in G such that the induced sequence s' by p is as similar as possible to s. This definition gives rise to the problems addressed in this thesis, namely the Sequence Mapping onto Sequence Graphs problem -- PMSG and the Sequence Mapping onto De Bruijn Graphs problem -- PMSB. Both problems admit three variants: 1) changes only in the sequence, 2) changes in the graph, and 3) changes in both the sequence and the graph. In this work, we present an in-depth analysis of PMSB. For variant 1, we implement and evaluate exact algorithms that solve it. Furthermore, we propose heuristics for PMSB and conduct comparative tests between the exact algorithms, our heuristics, and those found in the literature. Additionally, we perform a study demonstrating that it is possible to convert a De Bruijn graph into a simple sequence graph, such that all sequences from the De Bruijn graph are also induced in the simple sequence graph. As for variant 2, we address the problem by considering the ability to induce new edges when a k-mer is modified in the De Bruijn graph. This approach makes the problem easier, allowing us to present a novel exact polynomial solution for this variant.
Palavras-chave: Distância de Hamming, Distância de edição, Mudanças na sequência, Mudanças no grafo, Grafo de De Bruijn
País: Brasil
Editor: Fundação Universidade Federal de Mato Grosso do Sul
Sigla da Instituição: UFMS
Tipo de acesso: Acesso Aberto
URI: https://repositorio.ufms.br/handle/123456789/9222
Data do documento: 2024
Aparece nas coleções:Programa de Pós-graduação em Ciência da Computação

Arquivos associados a este item:
Arquivo TamanhoFormato 
Tese_doutorado.pdf1,18 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.