LLM-генератор для RAG-системы

RAG-система на Qwen 3.5 397B
с 1M контекста

OpenAI-совместимый endpoint для финального шага вашего RAG. LangChain, LlamaIndex, Haystack — работают как с OpenAI. 1M контекста — большой top-K без агрессивного chunking. Данные в РФ.

Подключить к моему RAG →Документация

RAG pipeline

Запрос пользователя→Ваш retriever
(вектор-БД, BM25, гибрид)→42gpu / Qwen 3.5 397B
generator, до 1M контекста→Ответ

Мы — generator-step. Эмбеддинги/retriever — на ваше усмотрение (any embeddings endpoint).

Подключение

LangChain / LlamaIndex — base_url и работаете

langchain.py

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    base_url="https://api.42gpu.ru/v1",
    api_key="sk-...",
    model="local/qwen3.5-397b",
)

# Дальше — стандартный RAG chain
retriever = vectorstore.as_retriever()
chain = create_stuff_documents_chain(llm, prompt)
rag = create_retrieval_chain(retriever, chain)

llamaindex.py

from llama_index.llms.openai_like import OpenAILike

llm = OpenAILike(
    api_base="https://api.42gpu.ru/v1",
    api_key="sk-...",
    model="local/qwen3.5-397b",
    context_window=1_000_000,
)

# Дальше — стандартный QueryEngine
index = VectorStoreIndex.from_documents(docs)
query_engine = index.as_query_engine(llm=llm)

Почему именно для RAG

4 причины брать 42gpu как generator-step

Меньше chunking — лучше качество

С 1M контекста можно подавать в LLM весь top-K retrieval (десятки длинных чанков) без агрессивной пересборки. Меньше «склейка из кусков» — выше связность ответа.

OpenAI / LangChain / LlamaIndex работают

OpenAI-совместимый endpoint — ваши existing pipelines на LangChain / LlamaIndex / Haystack подключаются по base_url. Без переписывания цепочек и кастомных адаптеров.

Данные в РФ

Ваша knowledge base не покидает страну. Подходит для банков, госкомпаний, медицины — и для любых RAG-систем над конфиденциальными документами.

Дешёвая итерация на этапе разработки

Welcome-кредит 1 000 ₽ при регистрации хватит на сотни RAG-запросов в pipeline-тестах. Без подписки, списание только за реальные токены.

Вопросы по интеграции

Подключение за 2 минуты

Получите API-ключ — подключите к своему RAG

Email + пароль → готовый ключ. Welcome-кредит 1 000 ₽ хватит на сотни RAG-запросов в тестировании pipeline.

LangChain / LlamaIndex
1M контекста
Данные в РФ

Зарегистрироваться Примеры интеграции

RAG-система на Qwen 3.5 397Bс 1M контекста