diff --git a/vertexai/_genai/types/__init__.py b/vertexai/_genai/types/__init__.py
index e04a9c823c..43ad9847b0 100644
--- a/vertexai/_genai/types/__init__.py
+++ b/vertexai/_genai/types/__init__.py
@@ -1082,6 +1082,9 @@
 from .common import ToolParameterKVMatchSpec
 from .common import ToolParameterKVMatchSpecDict
 from .common import ToolParameterKVMatchSpecOrDict
+from .common import Transcription
+from .common import TranscriptionDict
+from .common import TranscriptionOrDict
 from .common import TuningResourceUsageAssessmentConfig
 from .common import TuningResourceUsageAssessmentConfigDict
 from .common import TuningResourceUsageAssessmentConfigOrDict
@@ -1826,6 +1829,9 @@
     "EventActions",
     "EventActionsDict",
     "EventActionsOrDict",
+    "Transcription",
+    "TranscriptionDict",
+    "TranscriptionOrDict",
     "EventMetadata",
     "EventMetadataDict",
     "EventMetadataOrDict",
diff --git a/vertexai/_genai/types/common.py b/vertexai/_genai/types/common.py
index 0108d118d3..b7fbba0eea 100644
--- a/vertexai/_genai/types/common.py
+++ b/vertexai/_genai/types/common.py
@@ -11211,6 +11211,31 @@ class EventActionsDict(TypedDict, total=False):
 EventActionsOrDict = Union[EventActions, EventActionsDict]
 
 
+class Transcription(_common.BaseModel):
+    """Audio transcription in Server Content."""
+
+    text: Optional[str] = Field(
+        default=None, description="""Optional. Transcription text."""
+    )
+    finished: Optional[bool] = Field(
+        default=None,
+        description="""Optional. The bool indicates the end of the transcription.""",
+    )
+
+
+class TranscriptionDict(TypedDict, total=False):
+    """Audio transcription in Server Content."""
+
+    text: Optional[str]
+    """Optional. Transcription text."""
+
+    finished: Optional[bool]
+    """Optional. The bool indicates the end of the transcription."""
+
+
+TranscriptionOrDict = Union[Transcription, TranscriptionDict]
+
+
 class EventMetadata(_common.BaseModel):
     """Metadata relating to a LLM response event."""
 
@@ -11241,6 +11266,12 @@ class EventMetadata(_common.BaseModel):
         default=None,
         description="""Optional. Indicates whether the response from the model is complete. Only used for streaming mode.""",
     )
+    input_transcription: Optional[Transcription] = Field(
+        default=None, description="""Optional. Audio transcription of user input."""
+    )
+    output_transcription: Optional[Transcription] = Field(
+        default=None, description="""Optional. Audio transcription of model output."""
+    )
 
 
 class EventMetadataDict(TypedDict, total=False):
@@ -11267,6 +11298,12 @@ class EventMetadataDict(TypedDict, total=False):
     turn_complete: Optional[bool]
     """Optional. Indicates whether the response from the model is complete. Only used for streaming mode."""
 
+    input_transcription: Optional[TranscriptionDict]
+    """Optional. Audio transcription of user input."""
+
+    output_transcription: Optional[TranscriptionDict]
+    """Optional. Audio transcription of model output."""
+
 
 EventMetadataOrDict = Union[EventMetadata, EventMetadataDict]