Construa RAG e Document QA com 104 modelos
por $5.99/mês
Embeddings, retrieval, reasoning multilíngue, citação automática. Drop-in OpenAI-compatible — funciona com LangChain, LlamaIndex, Haystack sem refatoração.
Stack RAG completa em 1 API
Embeddings
text-embedding-3-small (1536d), text-embedding-3-large (3072d), Cohere embed-multilingual-v3 (1024d, 100+ idiomas).
Reasoning LLM
Claude 4.6/4.7 (200k-1M ctx), GPT-5 (1M ctx), Gemini 3 Pro (1M ctx), DeepSeek-V3, Llama 4 Maverick. 60+ chat models.
Reasoning rápido
o3-mini, DeepSeek-R1, Qwen-QwQ-32B — chain-of-thought transparente para tarefas complexas com citação.
100+ idiomas
Embeddings multilíngues sem custo extra. Português, Espanhol, Árabe, Japonês, Mandarim — query em qualquer idioma, retrieval cross-lingual.
Quickstart: PDF chat em 30 linhas Python
from openai import OpenAI
import numpy as np
from pypdf import PdfReader
# 1. Setup Brainiall (OpenAI-compatible)
client = OpenAI(
base_url="https://api.brainiall.com/v1",
api_key="brnl-..." # get at app.brainiall.com
)
# 2. Extract + chunk PDF
reader = PdfReader("contract.pdf")
chunks = [p.extract_text()[:1500] for p in reader.pages]
# 3. Embed chunks (one-time)
emb_response = client.embeddings.create(
model="text-embedding-3-small",
input=chunks
)
embeddings = [d.embedding for d in emb_response.data]
# 4. Query embedding
query = "Quais cláusulas de rescisão antecipada?"
q_emb = client.embeddings.create(
model="text-embedding-3-small",
input=[query]
).data[0].embedding
# 5. Cosine similarity retrieval
sims = [np.dot(q_emb, e) / (np.linalg.norm(q_emb) * np.linalg.norm(e))
for e in embeddings]
top_chunks = [chunks[i] for i in np.argsort(sims)[-3:][::-1]]
# 6. Generate answer with retrieved context
context = "\n\n".join(top_chunks)
answer = client.chat.completions.create(
model="claude-sonnet-4-6",
messages=[
{"role": "system", "content": "Responda usando apenas o contexto fornecido. Cite página."},
{"role": "user", "content": f"Contexto:\n{context}\n\nPergunta: {query}"}
]
)
print(answer.choices[0].message.content)
Total: ~30 linhas, ~$0.0003 por query. Para produção, troque a similarity loop por pgvector, Pinecone, Qdrant ou Weaviate.
Combinações recomendadas por caso
| Caso | Embedding | LLM | Custo/1k queries |
|---|---|---|---|
| PDF chat (jurídico, contratos) | embedding-3-large | claude-sonnet-4-6 | $0.40 |
| Customer support knowledge base | embedding-3-small | llama-4-maverick | $0.05 |
| Multilíngue (CN/AR/JP/ES) | cohere-multilingual-v3 | gemini-3-pro | $0.30 |
| Reasoning complexo (matemática, código) | embedding-3-large | deepseek-r1 | $0.18 |
| Bulk processing (50k docs) | embedding-3-small | deepseek-v3 | $0.02 |
FAQ
O Brainiall serve embeddings para RAG?
Sim. text-embedding-3-small (1536d), text-embedding-3-large (3072d) e Cohere embed-multilingual-v3 (1024d) — todos via /v1/embeddings OpenAI-compatible. Incluso no plano $5.99/mês.
Posso usar com LangChain, LlamaIndex e Haystack?
Sim. Como Brainiall é OpenAI-compatible, todos os frameworks RAG funcionam apenas trocando base_url. Passe base_url="https://api.brainiall.com/v1" no OpenAI client.
Qual modelo recomendado para RAG em produção?
Para retrieval+reasoning multilíngue: Claude Sonnet 4.6 (200k context, melhor citação). Para custo agressivo: DeepSeek-V3 (90% mais barato). Para streaming + tool use: GPT-5 ou Gemini 3 Pro (1M context).
Quantos tokens de contexto suporto?
Até 1M tokens via Gemini 3 Pro ou Claude Opus 4.7. Para PDFs grandes (livros inteiros), cabe em 1 chamada sem chunking. Embeddings com até 8192 tokens por documento.
Como integro com pgvector ou Pinecone?
Brainiall serve apenas embeddings + LLM. O vector store (pgvector, Pinecone, Weaviate, Qdrant, Chroma) você escolhe e hospeda. Brainiall retorna o vetor 1536/3072d, você indexa e usa retrieval similarity para o prompt aumentado.
Comece com 7 dias grátis
Sem cartão de crédito. 60 modelos chat + 15 reasoning + 12 image + embeddings + retries automáticos.
Criar conta gratuitamenteVer docs completas · Comparar planos · Calculadora de economia