USE-CASE • RAG & DOCUMENT QA

Construa RAG e Document QA com 104 modelos
por $5.99/mês

Q: Qual modelo recomendado para RAG em produção?

Para retrieval+reasoning multilíngue: Claude Sonnet 4.6 (200k context, melhor citação). Para custo agressivo: DeepSeek-V3 (90% mais barato). Para streaming + tool use: GPT-5 ou Gemini 3 Pro (1M context).

Q: Quantos tokens de contexto suporto?

Até 1M tokens via Gemini 3 Pro ou Claude Opus 4.7. Para PDFs grandes (livros inteiros), cabe em 1 chamada sem chunking. Embeddings com até 8192 tokens por documento.

Q: Como integro com pgvector ou Pinecone?

Brainiall serve apenas embeddings + LLM. O vector store (pgvector, Pinecone, Weaviate, Qdrant, Chroma) você escolhe e hospeda. Brainiall retorna o vetor 1536/3072d, você indexa e usa retrieval similarity para o prompt aumentado.

Embeddings, retrieval, reasoning multilíngue, citação automática. Drop-in OpenAI-compatible — funciona com LangChain, LlamaIndex, Haystack sem refatoração.

Comece gratuitamente — 7 dias Ver docs API

Stack RAG completa em 1 API

🔢

Embeddings

text-embedding-3-small (1536d), text-embedding-3-large (3072d), Cohere embed-multilingual-v3 (1024d, 100+ idiomas).

🧠

Reasoning LLM

Claude 4.6/4.7 (200k-1M ctx), GPT-5 (1M ctx), Gemini 3 Pro (1M ctx), DeepSeek-V3, Llama 4 Maverick. 60+ chat models.

⚡

Reasoning rápido

o3-mini, DeepSeek-R1, Qwen-QwQ-32B — chain-of-thought transparente para tarefas complexas com citação.

🌍

100+ idiomas

Embeddings multilíngues sem custo extra. Português, Espanhol, Árabe, Japonês, Mandarim — query em qualquer idioma, retrieval cross-lingual.

Quickstart: PDF chat em 30 linhas Python

from openai import OpenAI
import numpy as np
from pypdf import PdfReader

# 1. Setup Brainiall (OpenAI-compatible)
client = OpenAI(
    base_url="https://api.brainiall.com/v1",
    api_key="brnl-..."  # get at app.brainiall.com
)

# 2. Extract + chunk PDF
reader = PdfReader("contract.pdf")
chunks = [p.extract_text()[:1500] for p in reader.pages]

# 3. Embed chunks (one-time)
emb_response = client.embeddings.create(
    model="text-embedding-3-small",
    input=chunks
)
embeddings = [d.embedding for d in emb_response.data]

# 4. Query embedding
query = "Quais cláusulas de rescisão antecipada?"
q_emb = client.embeddings.create(
    model="text-embedding-3-small",
    input=[query]
).data[0].embedding

# 5. Cosine similarity retrieval
sims = [np.dot(q_emb, e) / (np.linalg.norm(q_emb) * np.linalg.norm(e))
        for e in embeddings]
top_chunks = [chunks[i] for i in np.argsort(sims)[-3:][::-1]]

# 6. Generate answer with retrieved context
context = "\n\n".join(top_chunks)
answer = client.chat.completions.create(
    model="claude-sonnet-4-6",
    messages=[
        {"role": "system", "content": "Responda usando apenas o contexto fornecido. Cite página."},
        {"role": "user", "content": f"Contexto:\n{context}\n\nPergunta: {query}"}
    ]
)
print(answer.choices[0].message.content)

Total: ~30 linhas, ~$0.0003 por query. Para produção, troque a similarity loop por pgvector, Pinecone, Qdrant ou Weaviate.

Combinações recomendadas por caso

Caso	Embedding	LLM	Custo/1k queries
PDF chat (jurídico, contratos)	embedding-3-large	claude-sonnet-4-6	$0.40
Customer support knowledge base	embedding-3-small	llama-4-maverick	$0.05
Multilíngue (CN/AR/JP/ES)	cohere-multilingual-v3	gemini-3-pro	$0.30
Reasoning complexo (matemática, código)	embedding-3-large	deepseek-r1	$0.18
Bulk processing (50k docs)	embedding-3-small	deepseek-v3	$0.02

FAQ

O Brainiall serve embeddings para RAG?

Sim. text-embedding-3-small (1536d), text-embedding-3-large (3072d) e Cohere embed-multilingual-v3 (1024d) — todos via /v1/embeddings OpenAI-compatible. Incluso no plano $5.99/mês.

Posso usar com LangChain, LlamaIndex e Haystack?

Sim. Como Brainiall é OpenAI-compatible, todos os frameworks RAG funcionam apenas trocando base_url. Passe base_url="https://api.brainiall.com/v1" no OpenAI client.

Qual modelo recomendado para RAG em produção?

Para retrieval+reasoning multilíngue: Claude Sonnet 4.6 (200k context, melhor citação). Para custo agressivo: DeepSeek-V3 (90% mais barato). Para streaming + tool use: GPT-5 ou Gemini 3 Pro (1M context).

Quantos tokens de contexto suporto?

Até 1M tokens via Gemini 3 Pro ou Claude Opus 4.7. Para PDFs grandes (livros inteiros), cabe em 1 chamada sem chunking. Embeddings com até 8192 tokens por documento.

Como integro com pgvector ou Pinecone?

Brainiall serve apenas embeddings + LLM. O vector store (pgvector, Pinecone, Weaviate, Qdrant, Chroma) você escolhe e hospeda. Brainiall retorna o vetor 1536/3072d, você indexa e usa retrieval similarity para o prompt aumentado.

Comece com 7 dias grátis

Sem cartão de crédito. 60 modelos chat + 15 reasoning + 12 image + embeddings + retries automáticos.

Criar conta gratuitamente

Ver docs completas · Comparar planos · Calculadora de economia