openai
diff --git a/‎examples/basic/retry.py‎
Lines changed: 112 additions & 0 deletions b/‎examples/basic/retry.py‎
Lines changed: 112 additions & 0 deletions
diff --git a/‎examples/basic/retry_litellm.py‎
Lines changed: 114 additions & 0 deletions b/‎examples/basic/retry_litellm.py‎
Lines changed: 114 additions & 0 deletions
diff --git a/‎src/agents/__init__.py‎
Lines changed: 20 additions & 0 deletions b/‎src/agents/__init__.py‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎src/agents/extensions/models/litellm_model.py‎
Lines changed: 15 additions & 1 deletion b/‎src/agents/extensions/models/litellm_model.py‎
Lines changed: 15 additions & 1 deletion
@@ -0,0 +1,112 @@
+import asyncio
+import inspect
+
+from agents import (
+    Agent,
+    ModelRetrySettings,
+    ModelSettings,
+    RetryDecision,
+    RunConfig,
+    Runner,
+    retry_policies,
+)
+
+
+def format_error(error: object) -> str:
+    if not isinstance(error, BaseException):
+        return "Unknown error"
+    return str(error) or error.__class__.__name__
+
+
+async def main() -> None:
+    apply_policies = retry_policies.any(
+        # On OpenAI-backed models, provider_suggested() follows provider retry advice,
+        # including fallback retryable statuses when x-should-retry is absent
+        # (for example 408/409/429/5xx).
+        retry_policies.provider_suggested(),
+        retry_policies.retry_after(),
+        retry_policies.network_error(),
+        retry_policies.http_status([408, 409, 429, 500, 502, 503, 504]),
+    )
+
+    async def policy(context) -> bool | RetryDecision:
+        raw_decision = apply_policies(context)
+        decision: bool | RetryDecision
+        if inspect.isawaitable(raw_decision):
+            decision = await raw_decision
+        else:
+            decision = raw_decision
+        if isinstance(decision, RetryDecision):
+            if not decision.retry:
+                print(
+                    f"[retry] stop after attempt {context.attempt}/{context.max_retries + 1}: "
+                    f"{format_error(context.error)}"
+                )
+                return False
+
+            print(
+                " | ".join(
+                    part
+                    for part in [
+                        f"[retry] retry attempt {context.attempt}/{context.max_retries + 1}",
+                        (
+                            f"waiting {decision.delay:.2f}s"
+                            if decision.delay is not None
+                            else "using default backoff"
+                        ),
+                        f"reason: {decision.reason}" if decision.reason else None,
+                        f"error: {format_error(context.error)}",
+                    ]
+                    if part is not None
+                )
+            )
+            return decision
+
+        if not decision:
+            print(
+                f"[retry] stop after attempt {context.attempt}/{context.max_retries + 1}: "
+                f"{format_error(context.error)}"
+            )
+        return decision
+
+    retry = ModelRetrySettings(
+        max_retries=4,
+        backoff={
+            "initial_delay": 0.5,
+            "max_delay": 5.0,
+            "multiplier": 2.0,
+            "jitter": True,
+        },
+        policy=policy,
+    )
+
+    # RunConfig-level model_settings are shared defaults for the run.
+    # If an Agent also defines model_settings, the Agent wins for overlapping
+    # keys, while nested objects like retry/backoff are merged.
+    run_config = RunConfig(model_settings=ModelSettings(retry=retry))
+
+    agent = Agent(
+        name="Assistant",
+        instructions="You are a concise assistant. Answer in 3 short bullet points at most.",
+        # This Agent repeats the same retry config for clarity. In real code you
+        # can keep shared defaults in RunConfig and only put per-agent overrides
+        # here when you need different retry behavior.
+        model_settings=ModelSettings(retry=retry),
+    )
+
+    print(
+        "Retry support is configured. You will only see [retry] logs if a transient failure happens."
+    )
+
+    result = await Runner.run(
+        agent,
+        "Explain exponential backoff for API retries in plain English.",
+        run_config=run_config,
+    )
+
+    print("\nFinal output:\n")
+    print(result.final_output)
+
+
+if __name__ == "__main__":
+    asyncio.run(main())
@@ -0,0 +1,114 @@
+import asyncio
+import inspect
+
+from agents import (
+    Agent,
+    ModelRetrySettings,
+    ModelSettings,
+    RetryDecision,
+    RunConfig,
+    Runner,
+    retry_policies,
+)
+
+
+def format_error(error: object) -> str:
+    if not isinstance(error, BaseException):
+        return "Unknown error"
+    return str(error) or error.__class__.__name__
+
+
+async def main() -> None:
+    apply_policies = retry_policies.any(
+        # On OpenAI-backed models, provider_suggested() follows provider retry advice,
+        # including fallback retryable statuses when x-should-retry is absent
+        # (for example 408/409/429/5xx).
+        retry_policies.provider_suggested(),
+        retry_policies.retry_after(),
+        retry_policies.network_error(),
+        retry_policies.http_status([408, 409, 429, 500, 502, 503, 504]),
+    )
+
+    async def policy(context) -> bool | RetryDecision:
+        raw_decision = apply_policies(context)
+        decision: bool | RetryDecision
+        if inspect.isawaitable(raw_decision):
+            decision = await raw_decision
+        else:
+            decision = raw_decision
+        if isinstance(decision, RetryDecision):
+            if not decision.retry:
+                print(
+                    f"[retry] stop after attempt {context.attempt}/{context.max_retries + 1}: "
+                    f"{format_error(context.error)}"
+                )
+                return False
+
+            print(
+                " | ".join(
+                    part
+                    for part in [
+                        f"[retry] retry attempt {context.attempt}/{context.max_retries + 1}",
+                        (
+                            f"waiting {decision.delay:.2f}s"
+                            if decision.delay is not None
+                            else "using default backoff"
+                        ),
+                        f"reason: {decision.reason}" if decision.reason else None,
+                        f"error: {format_error(context.error)}",
+                    ]
+                    if part is not None
+                )
+            )
+            return decision
+
+        if not decision:
+            print(
+                f"[retry] stop after attempt {context.attempt}/{context.max_retries + 1}: "
+                f"{format_error(context.error)}"
+            )
+        return decision
+
+    retry = ModelRetrySettings(
+        max_retries=4,
+        backoff={
+            "initial_delay": 0.5,
+            "max_delay": 5.0,
+            "multiplier": 2.0,
+            "jitter": True,
+        },
+        policy=policy,
+    )
+
+    # RunConfig-level model_settings are shared defaults for the run.
+    # If an Agent also defines model_settings, the Agent wins for overlapping
+    # keys, while nested objects like retry/backoff are merged.
+    run_config = RunConfig(model_settings=ModelSettings(retry=retry))
+
+    agent = Agent(
+        name="Assistant",
+        instructions="You are a concise assistant. Answer in 3 short bullet points at most.",
+        # Prefix with litellm/ to route this request through the LiteLLM adapter.
+        model="litellm/openai/gpt-4o-mini",
+        # This Agent repeats the same retry config for clarity. In real code you
+        # can keep shared defaults in RunConfig and only put per-agent overrides
+        # here when you need different retry behavior.
+        model_settings=ModelSettings(retry=retry),
+    )
+
+    print(
+        "Retry support is configured. You will only see [retry] logs if a transient failure happens."
+    )
+
+    result = await Runner.run(
+        agent,
+        "Explain exponential backoff for API retries in plain English.",
+        run_config=run_config,
+    )
+
+    print("\nFinal output:\n")
+    print(result.final_output)
+
+
+if __name__ == "__main__":
+    asyncio.run(main())
@@ -87,6 +87,17 @@
 from .repl import run_demo_loop
 from .responses_websocket_session import ResponsesWebSocketSession, responses_websocket_session
 from .result import AgentToolInvocation, RunResult, RunResultStreaming
+from .retry import (
+    ModelRetryAdvice,
+    ModelRetryAdviceRequest,
+    ModelRetryBackoffSettings,
+    ModelRetryNormalizedError,
+    ModelRetrySettings,
+    RetryDecision,
+    RetryPolicy,
+    RetryPolicyContext,
+    retry_policies,
+)
 from .run import (
     ReasoningItemIdPolicy,
     RunConfig,
@@ -284,6 +295,15 @@ def enable_verbose_stdout_logging():
     "ModelProvider",
     "ModelTracing",
     "ModelSettings",
+    "ModelRetryAdvice",
+    "ModelRetryAdviceRequest",
+    "ModelRetryBackoffSettings",
+    "ModelRetryNormalizedError",
+    "ModelRetrySettings",
+    "RetryDecision",
+    "RetryPolicy",
+    "RetryPolicyContext",
+    "retry_policies",
     "OpenAIChatCompletionsModel",
     "MultiProvider",
     "OpenAIProvider",
 
@@ -41,12 +41,15 @@
 from ...items import ModelResponse, TResponseInputItem, TResponseStreamEvent
 from ...logger import logger
 from ...model_settings import ModelSettings
+from ...models._openai_retry import get_openai_retry_advice
+from ...models._retry_runtime import should_disable_provider_managed_retries
 from ...models.chatcmpl_converter import Converter
 from ...models.chatcmpl_helpers import HEADERS, HEADERS_OVERRIDE, ChatCmplHelpers
 from ...models.chatcmpl_stream_handler import ChatCmplStreamHandler
 from ...models.fake_id import FAKE_RESPONSES_ID
 from ...models.interface import Model, ModelTracing
 from ...models.openai_responses import Converter as OpenAIResponsesConverter
+from ...retry import ModelRetryAdvice, ModelRetryAdviceRequest
 from ...tool import Tool
 from ...tracing import generation_span
 from ...tracing.span_data import GenerationSpanData
@@ -148,6 +151,11 @@ def __init__(
         self.base_url = base_url
         self.api_key = api_key
 
+    def get_retry_advice(self, request: ModelRetryAdviceRequest) -> ModelRetryAdvice | None:
+        # LiteLLM exceptions mirror OpenAI-style status/header fields.
+        # Reuse the same normalization to expose retry-after and explicit retry/no-retry hints.
+        return get_openai_retry_advice(request)
+
     async def get_response(
         self,
         system_instructions: str | None,
@@ -479,7 +487,7 @@ async def _fetch_response(
         if stream and model_settings.include_usage is not None:
             stream_options = {"include_usage": model_settings.include_usage}
 
-        extra_kwargs = {}
+        extra_kwargs: dict[str, Any] = {}
         if model_settings.extra_query:
             extra_kwargs["extra_query"] = copy(model_settings.extra_query)
         if model_settings.metadata:
@@ -491,6 +499,12 @@ async def _fetch_response(
         if model_settings.extra_args:
             extra_kwargs.update(model_settings.extra_args)
 
+        if should_disable_provider_managed_retries():
+            # Preserve provider-managed retries on the first attempt, but make runner retries the
+            # sole retry layer by forcing LiteLLM's retry knobs off on replay attempts.
+            extra_kwargs["num_retries"] = 0
+            extra_kwargs["max_retries"] = 0
+
         # Prevent duplicate reasoning_effort kwargs when it was promoted to a top-level argument.
         extra_kwargs.pop("reasoning_effort", None)