Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/13816
Tipo: Trabalho de Conclusão de Curso
Título: Adaptive Load Balancing for Distributed LLM Inference Using Ollama
Autor(es): RODINEI MARTINS COELHO
Primeiro orientador: VITOR MESAQUE ALVES DE LIMA
Resumo: Modelos de linguagem de grande porte (LLMs) se tornaram componentes cruciais de sistemas de IA modernos, apoiando uma ampla gama de aplicações por meio de tarefas de geração de linguagem natural. Embora plataformas de execução de código aberto, como o Ollama, simplifiquem a implantação de LLMs em ambientes locais e on-premises, a distribuição eficiente das cargas de inferência entre múltiplas instâncias do Ollama ainda representa um desafio em aberto. Estratégias convencionais de balanceamento de carga, originalmente projetadas para serviços web sem estado, não consideram as características dinâmicas de execução da inferência de LLMs, resultando em uso subótimo de recursos e aumento de latência, especialmente em ambientes computacionais heterogêneos. Este artigo propõe o OllamaRouter, uma estratégia especializada de balanceamento de carga voltada à inferência distribuída de LLMs utilizando a API de geração de texto do Ollama. A estratégia proposta aloca dinamicamente as requisições com base em estimativas de tempo de processamento de tokens em tempo de execução e na carga das filas, adaptando-se ao desempenho heterogêneo dos nós sem introduzir sobrecarga computacional significativa. Para avaliar a eficácia do OllamaRouter, foi conduzido um experimento controlado comparando seu desempenho com as estratégias convencionais Round Robin e Least Connection, sob uma taxa constante de requisições. Os resultados mostram que o OllamaRouter proporciona maior vazão e menor latência média por requisição, especialmente à medida que o número de requisições em espera aumenta. As melhorias práticas observadas e o aumento da estabilidade destacam o potencial do balanceamento de carga adaptativo na otimização de cenários de execução distribuída de LLMs.
Abstract: Large Language Models (LLMs) have become crucial components of modern AI systems, supporting a wide range of applications through natural language generation tasks. While open-source serving platforms such as Ollama simplify the deployment of LLMs in local and on-premises environments, efficiently distributing inference workloads across multiple Ollama instances remains an open challenge. Conventional load balancing strategies, initially designed for stateless web services, fail to account for the dynamic execution characteristics of LLM inference, leading to suboptimal resource utilization and increased latency, particularly in heterogeneous computing environments. This paper proposes OllamaRouter, a specialized load balancing strategy tailored for distributed LLM inference using the Ollama text generation API. The proposed strategy dynamically allocates requests based on runtime estimates of token processing time and queue load, adapting to heterogeneous node performance without introducing significant computational overhead. To evaluate the effectiveness of OllamaRouter, we conducted a controlled experiment comparing its performance agains conventional Round Robin and Least Connection strategies, under a constant incoming request rate. The results show that OllamaRouter delivers higher throughput and lower average request latency, particularly as the number of waiting requests increases. The observed practical improvements and increased stability highlight the potential of adaptive load balancing in optimizing distributed LLM serving scenarios.
Palavras-chave: Ollama
Large Language Model
Load Balancer
AI Engineering.
País: 
Editor: Fundação Universidade Federal de Mato Grosso do Sul
Sigla da Instituição: UFMS
Tipo de acesso: Acesso Aberto
URI: https://repositorio.ufms.br/handle/123456789/13816
Data do documento: 2025
Aparece nas coleções:Sistemas de Informação - Bacharelado (CPTL)

Arquivos associados a este item:
Arquivo TamanhoFormato 
12466.pdf996,97 kBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.