STT

class pipecat.services.openai.stt.OpenAISTTService(*, model='gpt-4o-transcribe', api_key=None, base_url=None, language=Language.EN, prompt=None, temperature=None, **kwargs)[source]

Bases: BaseWhisperSTTService

OpenAI Speech-to-Text service that generates text from audio.

Uses OpenAI’s transcription API to convert audio to text. Requires an OpenAI API key set via the api_key parameter or OPENAI_API_KEY environment variable.

Parameters:

model (str) – Model to use — either gpt-4o or Whisper. Defaults to “gpt-4o-transcribe”.
api_key (str | None) – OpenAI API key. Defaults to None.
base_url (str | None) – API base URL. Defaults to None.
language (Language | None) – Language of the audio input. Defaults to English.
prompt (str | None) – Optional text to guide the model’s style or continue a previous segment.
temperature (float | None) – Optional sampling temperature between 0 and 1. Defaults to 0.0.
**kwargs – Additional arguments passed to BaseWhisperSTTService.