IA auto-hospedada de código aberto — quando você quiser executar a IA offline, em segredo em seu próprio computador

por Stélio Inácio, fundador da Jon AI e especialista em IA

Sua própria IA privada: o mundo da auto-hospedagem

Até agora, falamos sobre o uso de modelos de IA, como o ChatGPT ou o Gemini, que são executados em enormes servidores de computador de propriedade de grandes empresas de tecnologia. Quando você os usa, seus dados viajam pela Internet até seus computadores, são processados e uma resposta é enviada de volta. Mas e se você pudesse executar um poderoso modelo de IA inteiramente em seu próprio computador, sem a necessidade de internet e com privacidade absoluta?

Bem-vindo ao mundo da IA de código aberto e auto-hospedada. Pense nisso como cozinhar em casa versus comer em um restaurante. Quando você usa um serviço público de IA, está comendo no restaurante deles; é conveniente, e eles têm uma cozinha enorme, mas você não sabe a receita exata e está em um espaço público. Hospedar-se sozinho é como ter sua própria cozinha privada. Você escolhe os ingredientes (os modelos de IA), controla todo o processo e ninguém mais vê o que você está fazendo. Seus dados nunca saem do seu dispositivo.

Por que executar a IA em seu próprio computador?

Optar por uma configuração auto-hospedada envolve algumas etapas extras, mas as desvantagens são convincentes para muitos usuários.

As vantagens (seu laboratório privado de IA)

Privacidade absoluta: Esse é o motivo número um. Suas conversas e os dados que você usa nunca são enviados a terceiros. Eles ficam na sua máquina, ponto final.
Capacidade offline: depois de baixar os modelos, você pode usar seu assistente de IA mesmo sem uma conexão com a Internet. É perfeito para um voo ou uma cabine remota.
Sem taxas de assinatura: o software e os modelos de código aberto são gratuitos. Você está limitado apenas pelo poder do seu próprio computador.
Personalização definitiva: você pode baixar e alternar entre centenas de modelos diferentes, desde modelos pequenos e rápidos até modelos grandes e poderosos, cada um com pontos fortes exclusivos.

As considerações (Qual é o problema?)

Demandas de hardware: a execução desses modelos requer um computador razoavelmente moderno com bastante RAM (16 GB é um bom começo). Uma placa gráfica (GPU) poderosa faz uma grande diferença na velocidade.
Um pouco mais técnico: as ferramentas tornaram tudo muito mais fácil, mas ainda exigem algum conforto com a instalação de software e, ocasionalmente, com o uso de uma linha de comando.
Desempenho do modelo: embora os modelos de código aberto sejam incrivelmente poderosos e melhorem a cada dia, os modelos de última geração (como os mais recentes da OpenAI ou do Google) normalmente não estão disponíveis para hospedagem própria.

Guia passo a passo: Configurando sua IA pessoal

Pronto para experimentá-lo? Usaremos uma ferramenta fantástica chamada Ollama, que faz todo o trabalho pesado de gerenciar e executar os modelos. Em seguida, adicionaremos uma interface de bate-papo amigável para que você não precise morar em um terminal.

Instale o “Motor” (Ollama):
O Ollama é o programa principal executado em segundo plano no seu computador, servindo aos modelos de IA. É o motor da nossa configuração. Acesse ollama.com e baixe o instalador para seu sistema operacional (Mac, Windows ou Linux). Siga as instruções simples de instalação.
Baixe seu primeiro modelo de IA:
Depois que o Ollama estiver instalado, abra a ferramenta de linha de comando do seu computador (Terminal no Mac/Linux, prompt de comando ou PowerShell no Windows). Para baixar e conversar com o popular modelo Llama 3 da Meta, digite o seguinte comando e pressione Enter:
ollama run llama3
Na primeira vez que você executar isso, ele fará o download do modelo (alguns gigabytes). Depois disso, ele iniciará uma sessão de bate-papo diretamente no seu terminal. Isso confirma que seu motor está funcionando! Você pode digitar /bye para sair.
Instale uma interface de usuário (Open WebUI):
Agora, a parte fácil de usar. Precisamos de um “front-end” ou um “painel” para conversar com nossos modelos. Uma ótima opção é o Open WebUI, que oferece uma experiência semelhante ao ChatGPT. A maneira mais fácil de instalá-lo é com o Docker. Se você não tem o Docker, pode obtê-lo no site oficial do Docker.

Com o Docker em execução, abra sua ferramenta de linha de comando e execute este único comando:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui: /app/backend/data --name open-webui --restart sempre ghcr.io/open-webui/open-webui:main
Esse comando baixa o Open WebUI, o configura e o conecta ao Ollama em execução no seu computador.
Comece a conversar de forma privada:
Abra seu navegador da web e acesse http://localhost:3000. Você verá a interface Open WebUI. Crie uma conta local e você pode começar a conversar! Você pode selecionar qual modelo usar (como o modelo `llama3` que você baixou) e até mesmo extrair novos modelos diretamente da interface da web. Parabéns, agora você está executando sua própria IA privada!

Uma nota sobre os recursos do computador

Executar modelos de IA localmente pode ser exigente em seu computador. Quanto maior o modelo (por exemplo, um modelo de 70 bilhões de parâmetros versus um modelo de 7 bilhões), mais RAM será necessária e mais lenta será a execução, especialmente sem uma GPU poderosa. Não desanime se for um pouco lento; experimentar modelos menores e mais rápidos faz parte da diversão!

Verificação rápida

Qual é o principal e mais importante motivo para alguém escolher uma configuração de IA auto-hospedada?

A) Para garantir a privacidade e a segurança dos dados, mantendo todas as conversas em seu próprio computador.

B) Para ter acesso gratuito aos modelos mais poderosos, como o GPT-4o.

C) Porque é a maneira mais fácil e menos técnica de usar uma IA.

Recapitulação: IA auto-hospedada de código aberto

O que abordamos:

O conceito de IA auto-hospedada, em que você executa modelos de código aberto em seu próprio computador.
Os principais benefícios: privacidade absoluta, acesso off-line, sem taxas e personalização total.
As principais considerações: requisitos de hardware e a natureza técnica da configuração.
Um guia passo a passo para começar a usar o Ollama como “mecanismo” e uma interface de usuário da Web como “painel”.

Por que isso é importante:

A hospedagem automática coloca o controle definitivo de volta em suas mãos. É uma maneira poderosa de usar a IA do seu jeito, garantindo que seus dados permaneçam realmente seus enquanto você explora o vasto mundo dos modelos de código aberto.

A seguir:

Examinaremos o outro lado da moeda de código aberto: executar modelos de IA de código aberto na nuvem quando você não quiser usar seu próprio hardware, mas ainda assim evitar o compartilhamento de dados com a Big Tech.

Junte-se aos serviços de IA