lightspeed-core · asimurka · May 6, 2026
diff --git a/src/app/endpoints/conversations_v2.py b/src/app/endpoints/conversations_v2.py
@@ -6,6 +6,7 @@
 
 from authentication import get_auth_dependency
 from authorization.middleware import authorize
+from cache.cache_entry import CacheEntry
 from configuration import configuration
 from log import get_logger
 from models.api.requests import ConversationUpdateRequest
@@ -24,7 +25,6 @@
     ConversationsListResponseV2,
     ConversationUpdateResponse,
 )
-from models.cache_entry import CacheEntry
 from models.common import (
     ConversationTurn,
     Message,

diff --git a/src/app/endpoints/responses.py b/src/app/endpoints/responses.py
@@ -54,8 +54,8 @@
 )
 from models.api.responses.successful import ResponsesResponse
 from models.common.moderation import ShieldModerationBlocked
+from models.common.responses.contexts import ResponsesContext
 from models.common.responses.responses_api_params import ResponsesApiParams
-from models.common.responses.responses_context import ResponsesContext
 from models.common.turn_summary import TurnSummary
 from models.config import Action
 from observability import ResponsesEventData, build_responses_event, send_splunk_event

diff --git a/src/app/endpoints/rlsapi_v1.py b/src/app/endpoints/rlsapi_v1.py
@@ -26,6 +26,7 @@
 from constants import ENDPOINT_PATH_INFER
 from log import get_logger
 from metrics import recording
+from models.api.requests.rlsapi import RlsapiV1InferRequest, RlsapiV1SystemInfo
 from models.api.responses.constants import UNAUTHORIZED_OPENAPI_EXAMPLES
 from models.api.responses.error import (
     ForbiddenResponse,
@@ -37,9 +38,11 @@
     UnauthorizedResponse,
     UnprocessableEntityResponse,
 )
+from models.api.responses.successful.rlsapi import (
+    RlsapiV1InferData,
+    RlsapiV1InferResponse,
+)
 from models.config import Action
-from models.rlsapi.requests import RlsapiV1InferRequest, RlsapiV1SystemInfo
-from models.rlsapi.responses import RlsapiV1InferData, RlsapiV1InferResponse
 from observability import InferenceEventData, build_inference_event, send_splunk_event
 from utils.endpoints import check_configuration_loaded
 from utils.query import (

diff --git a/src/app/endpoints/streaming_query.py b/src/app/endpoints/streaming_query.py
@@ -74,10 +74,10 @@
     UnprocessableEntityResponse,
 )
 from models.api.responses.successful import StreamingQueryResponse
+from models.common.responses.contexts import ResponseGeneratorContext
 from models.common.responses.responses_api_params import ResponsesApiParams
 from models.common.turn_summary import ReferencedDocument, TurnSummary
 from models.config import Action
-from models.context import ResponseGeneratorContext
 from utils.conversations import append_turn_items_to_conversation
 from utils.endpoints import (
     check_configuration_loaded,

diff --git a/src/cache/README.md b/src/cache/README.md
@@ -6,6 +6,9 @@ Various cache implementations.
 ## [cache.py](cache.py)
 Abstract class that is parent for all cache implementations.
 
+## [cache_entry.py](cache_entry.py)
+Pydantic model for a conversation history cache entry.
+
 ## [cache_error.py](cache_error.py)
 Any exception that can occur during cache operations.
 

diff --git a/src/cache/cache.py b/src/cache/cache.py
@@ -2,7 +2,7 @@
 
 from abc import ABC, abstractmethod
 
-from models.cache_entry import CacheEntry
+from cache.cache_entry import CacheEntry
 from models.common import ConversationData
 from utils.suid import check_suid
 

diff --git a/src/models/cache_entry.py → src/cache/cache_entry.py b/src/models/cache_entry.py → src/cache/cache_entry.py
diff --git a/src/cache/in_memory_cache.py b/src/cache/in_memory_cache.py
@@ -1,8 +1,8 @@
 """In-memory cache implementation."""
 
 from cache.cache import Cache
+from cache.cache_entry import CacheEntry
 from log import get_logger
-from models.cache_entry import CacheEntry
 from models.common import ConversationData
 from models.config import InMemoryCacheConfig
 from utils.connection_decorator import connection

diff --git a/src/cache/noop_cache.py b/src/cache/noop_cache.py
@@ -1,8 +1,8 @@
 """No-operation cache implementation."""
 
 from cache.cache import Cache
+from cache.cache_entry import CacheEntry
 from log import get_logger
-from models.cache_entry import CacheEntry
 from models.common import ConversationData
 from utils.connection_decorator import connection
 

diff --git a/src/cache/postgres_cache.py b/src/cache/postgres_cache.py
@@ -6,9 +6,9 @@
 from psycopg2.extensions import AsIs
 
 from cache.cache import Cache
+from cache.cache_entry import CacheEntry
 from cache.cache_error import CacheError
 from log import get_logger
-from models.cache_entry import CacheEntry
 from models.common import ConversationData
 from models.common.turn_summary import (
     ReferencedDocument,

diff --git a/src/cache/sqlite_cache.py b/src/cache/sqlite_cache.py
@@ -5,9 +5,9 @@
 from time import time
 
 from cache.cache import Cache
+from cache.cache_entry import CacheEntry
 from cache.cache_error import CacheError
 from log import get_logger
-from models.cache_entry import CacheEntry
 from models.common import ConversationData
 from models.common.turn_summary import (
     ReferencedDocument,

diff --git a/src/models/README.md b/src/models/README.md
@@ -3,15 +3,9 @@
 ## [__init__.py](__init__.py)
 Pydantic models.
 
-## [cache_entry.py](cache_entry.py)
-Model for conversation history cache entry.
-
 ## [config.py](config.py)
 Model with service configuration.
 
-## [context.py](context.py)
-Context objects for internal operations.
-
 ## [api/](api/)
 Models for API request and response bodies.
 
@@ -20,6 +14,3 @@ Shared models and types used across endpoints.
 
 ## [database/](database/)
 SQLAlchemy ORM models.
-
-## [rlsapi/](rlsapi/)
-Models for the rlsapi v1 API surface.
diff --git a/src/models/__init__.py b/src/models/__init__.py
@@ -1 +1,11 @@
 """Pydantic models."""
+
+from models import api, common, database
+from models.config import Configuration
+
+__all__ = [
+    "Configuration",
+    "api",
+    "common",
+    "database",
+]
diff --git a/src/models/api/README.md b/src/models/api/README.md
@@ -3,5 +3,8 @@
 ## [__init__.py](__init__.py)
 Typed HTTP API models (OpenAPI-oriented) for FastAPI routes. Exposes the [`responses`](responses/README.md) subpackage.
 
+## [requests/](requests/)
+REST request body models, including [`requests/rlsapi.py`](requests/rlsapi.py) for the rlsapi v1 surface.
+
 ## [responses/](responses/README.md)
 HTTP response shapes (successful payloads, errors, and OpenAPI description constants).
diff --git a/src/models/api/requests/__init__.py b/src/models/api/requests/__init__.py
@@ -7,6 +7,14 @@
 from models.api.requests.prompts import PromptCreateRequest, PromptUpdateRequest
 from models.api.requests.query import QueryRequest, StreamingInterruptRequest
 from models.api.requests.responses_openai import ResponsesRequest
+from models.api.requests.rlsapi import (
+    RlsapiV1Attachment,
+    RlsapiV1CLA,
+    RlsapiV1Context,
+    RlsapiV1InferRequest,
+    RlsapiV1SystemInfo,
+    RlsapiV1Terminal,
+)
 from models.api.requests.vector_stores import (
     VectorStoreCreateRequest,
     VectorStoreFileCreateRequest,
@@ -23,6 +31,12 @@
     "PromptUpdateRequest",
     "QueryRequest",
     "ResponsesRequest",
+    "RlsapiV1Attachment",
+    "RlsapiV1CLA",
+    "RlsapiV1Context",
+    "RlsapiV1InferRequest",
+    "RlsapiV1SystemInfo",
+    "RlsapiV1Terminal",
     "StreamingInterruptRequest",
     "VectorStoreCreateRequest",
     "VectorStoreFileCreateRequest",

diff --git a/src/models/rlsapi/requests.py → src/models/api/requests/rlsapi.py b/src/models/rlsapi/requests.py → src/models/api/requests/rlsapi.py
diff --git a/src/models/api/responses/successful/README.md b/src/models/api/responses/successful/README.md
@@ -33,5 +33,8 @@ Successful response models for synchronous query and streaming query documentati
 ## [responses_openai.py](responses_openai.py)
 Successful response model for the OpenAI-compatible Responses API.
 
+## [rlsapi.py](rlsapi.py)
+Successful response payloads for the rlsapi v1 `/infer` endpoint.
+
 ## [vector_stores.py](vector_stores.py)
 Successful responses for vector stores and vector store files.
diff --git a/src/models/api/responses/successful/__init__.py b/src/models/api/responses/successful/__init__.py
@@ -45,6 +45,10 @@
     StreamingQueryResponse,
 )
 from models.api.responses.successful.responses_openai import ResponsesResponse
+from models.api.responses.successful.rlsapi import (
+    RlsapiV1InferData,
+    RlsapiV1InferResponse,
+)
 from models.api.responses.successful.vector_stores import (
     FileResponse,
     VectorStoreDeleteResponse,
@@ -83,6 +87,8 @@
     "RAGListResponse",
     "ReadinessResponse",
     "ResponsesResponse",
+    "RlsapiV1InferData",
+    "RlsapiV1InferResponse",
     "ShieldsResponse",
     "StatusResponse",
     "StreamingInterruptResponse",

diff --git a/src/models/rlsapi/responses.py → ...models/api/responses/successful/rlsapi.py b/src/models/rlsapi/responses.py → ...models/api/responses/successful/rlsapi.py
diff --git a/src/models/common/responses/README.md b/src/models/common/responses/README.md
@@ -3,6 +3,6 @@
 ## [responses_api_params.py](responses_api_params.py)
 Request parameter model for Llama Stack responses API calls.
 
-## [responses_context.py](responses_context.py)
-Request-scoped context model for the responses endpoint pipeline.
+## [contexts.py](contexts.py)
+Context models for pipeline and streaming.
 
diff --git a/src/models/common/responses/__init__.py b/src/models/common/responses/__init__.py
@@ -1,7 +1,7 @@
 """Shared models for the OpenAI-compatible Responses API pipeline."""
 
+from models.common.responses.contexts import ResponsesContext
 from models.common.responses.responses_api_params import ResponsesApiParams
-from models.common.responses.responses_context import ResponsesContext
 from models.common.responses.responses_conversation_context import (
     ResponsesConversationContext,
 )

diff --git a/...els/common/responses/responses_context.py → src/models/common/responses/contexts.py b/...els/common/responses/responses_context.py → src/models/common/responses/contexts.py
@@ -1,12 +1,14 @@
-"""Request-scoped context model for the responses endpoint pipeline."""
+"""Context objects for the responses endpoint pipeline and streaming query generators."""
 
+from dataclasses import dataclass, field
 from datetime import datetime
 from typing import Optional
 
 from fastapi import BackgroundTasks
 from llama_stack_client import AsyncLlamaStackClient
 from pydantic import BaseModel, ConfigDict, Field
 
+from models.api.requests import QueryRequest
 from models.common.moderation import ShieldModerationResult
 from models.common.turn_summary import RAGContext
 
@@ -53,3 +55,49 @@ class ResponsesContext(BaseModel):
         default=False,
         description="Whether to generate a topic summary for new conversations",
     )
+
+
+@dataclass
+class ResponseGeneratorContext:  # pylint: disable=too-many-instance-attributes
+    """
+    Context object for response generator creation.
+
+    This class groups all the parameters needed to create a response generator
+    for streaming query endpoints, reducing function parameter count from 10 to 1.
+
+    Attributes:
+        conversation_id: The conversation identifier
+        request_id: Unique identifier for the streaming request
+        user_id: The user identifier
+        skip_userid_check: Whether to skip user ID validation
+        model_id: The model identifier
+        query_request: The query request object
+        started_at: Timestamp when the request started (ISO 8601 format)
+        client: The Llama Stack client for API interactions
+        moderation_result: The moderation result
+        inline_rag_context: Inline RAG context
+        vector_store_ids: Vector store IDs used in the query for source resolution.
+        rag_id_mapping: Mapping from vector_db_id to user-facing rag_id.
+    """
+
+    # Conversation & User context
+    conversation_id: str
+    request_id: str
+    user_id: str
+    skip_userid_check: bool
+
+    # Model info
+    model_id: str
+
+    # Request & Timing
+    query_request: QueryRequest
+    started_at: str
+
+    # Dependencies & State
+    client: AsyncLlamaStackClient
+    moderation_result: ShieldModerationResult
+
+    # RAG index identification
+    inline_rag_context: RAGContext
+    vector_store_ids: list[str] = field(default_factory=list)
+    rag_id_mapping: dict[str, str] = field(default_factory=dict)
diff --git a/src/models/context.py b/src/models/context.py
diff --git a/src/models/rlsapi/README.md b/src/models/rlsapi/README.md
diff --git a/src/models/rlsapi/__init__.py b/src/models/rlsapi/__init__.py
diff --git a/src/utils/query.py b/src/utils/query.py
@@ -21,6 +21,7 @@
 import constants
 from app.database import get_session
 from authorization.azure_token_manager import AzureEntraIDManager
+from cache.cache_entry import CacheEntry
 from cache.cache_error import CacheError
 from client import AsyncLlamaStackClientHolder
 from configuration import configuration
@@ -35,7 +36,6 @@
     ServiceUnavailableResponse,
     UnprocessableEntityResponse,
 )
-from models.cache_entry import CacheEntry
 from models.common.query import Attachment
 from models.common.turn_summary import TurnSummary
 from models.config import Action