Revert D30117838: [WIP] Gate DistributedOptimizers on RPC availability

Test Plan: revert-hammer Differential Revision: D30117838 (3f09485d7e) Original commit changeset: e6365a910a3d fbshipit-source-id: f276b2b2bdf5f7bd27df473fca0eebaee9f7aef2
2025-12-07 12:21:27 +01:00 · 2021-08-06 22:09:23 -07:00 · 2021-08-06 22:09:23 -07:00 · b45cf9b81b
commit b45cf9b81b
parent e6a3154519
4 changed files with 32 additions and 33 deletions
--- a/test/run_test.py
+++ b/test/run_test.py
@ -233,6 +233,7 @@ WINDOWS_BLOCKLIST = [
    'distributed/pipeline/sync/test_stream',
    'distributed/pipeline/sync/test_transparency',
    'distributed/pipeline/sync/test_worker',
+    'distributed/optim/test_zero_redundancy_optimizer',
    "distributed/elastic/agent/server/test/api_test",
    'distributed/elastic/multiprocessing/api_test',
 ]
--- a/torch/distributed/optim/init.py
+++ b/torch/distributed/optim/init.py
@ -5,34 +5,6 @@ optimizer locally on the workers where the parameters live.  The distributed
 optimizer can use any of the local optimizer :ref:`optimizer-algorithms` to
 apply the gradients on each worker.
 """
-import torch
-from torch import optim
-from .functional_adagrad import _FunctionalAdagrad
-from .functional_adam import _FunctionalAdam
-from .functional_adamw import _FunctionalAdamW
-from .functional_sgd import _FunctionalSGD
-from .functional_adadelta import _FunctionalAdadelta
-from .functional_rmsprop import _FunctionalRMSprop
-from .functional_rprop import _FunctionalRprop
-from .functional_adamax import _FunctionalAdamax
-
-# dict to map a user passed in optimizer_class to a functional
-# optimizer class if we have already defined inside the
-# distributed.optim package, this is so that we hide the
-# functional optimizer to user and still provide the same API.
-functional_optim_map = {
-    optim.Adagrad: _FunctionalAdagrad,
-    optim.Adam: _FunctionalAdam,
-    optim.AdamW: _FunctionalAdamW,
-    optim.SGD: _FunctionalSGD,
-    optim.Adadelta: _FunctionalAdadelta,
-    optim.RMSprop: _FunctionalRMSprop,
-    optim.Rprop: _FunctionalRprop,
-    optim.Adamax: _FunctionalAdamax,
-}
-
-if hasattr(torch._C, '_rpc_init'):
 from .optimizer import DistributedOptimizer
-
 from .post_localSGD_optimizer import PostLocalSGDOptimizer
 from .zero_redundancy_optimizer import ZeroRedundancyOptimizer
--- a/torch/distributed/optim/optimizer.py
+++ b/torch/distributed/optim/optimizer.py
@ -2,11 +2,19 @@ from typing import List, Optional
 import logging

 import torch.distributed.rpc as rpc
+import torch.optim as optim
 import torch.jit as jit
 import torch.nn as nn
 from torch import Tensor
 from torch.distributed.rpc import RRef
-from torch.distributed.optim import functional_optim_map
+from .functional_adagrad import _FunctionalAdagrad
+from .functional_adam import _FunctionalAdam
+from .functional_adamw import _FunctionalAdamW
+from .functional_sgd import _FunctionalSGD
+from .functional_adadelta import _FunctionalAdadelta
+from .functional_rmsprop import _FunctionalRMSprop
+from .functional_rprop import _FunctionalRprop
+from .functional_adamax import _FunctionalAdamax
 import torch.distributed.autograd as dist_autograd


@ -185,13 +193,28 @@ class DistributedOptimizer:
    __ https://github.com/pytorch/tutorials/pull/1465
    """

+    # dict to map a user passed in optimizer_class to a functional
+    # optimizer class if we have already defined inside the
+    # distributed.optim package, this is so that we hide the
+    # functional optimizer to user and still provide the same API.
+    functional_optim_map = {
+        optim.Adagrad: _FunctionalAdagrad,
+        optim.Adam: _FunctionalAdam,
+        optim.AdamW: _FunctionalAdamW,
+        optim.SGD: _FunctionalSGD,
+        optim.Adadelta: _FunctionalAdadelta,
+        optim.RMSprop: _FunctionalRMSprop,
+        optim.Rprop: _FunctionalRprop,
+        optim.Adamax: _FunctionalAdamax,
+    }
+
    def __init__(self, optimizer_class, params_rref, *args, **kwargs):
        per_worker_params_rref = defaultdict(list)
        for param in params_rref:
            per_worker_params_rref[param.owner()].append(param)

-        if optimizer_class in functional_optim_map and jit._state._enabled:
-            optim_ctor = functional_optim_map.get(optimizer_class)
+        if optimizer_class in DistributedOptimizer.functional_optim_map and jit._state._enabled:
+            optim_ctor = DistributedOptimizer.functional_optim_map.get(optimizer_class)
        else:
            optim_ctor = optimizer_class
        self.is_functional_optim = (optim_ctor != optimizer_class)
--- a/torch/distributed/optim/zero_redundancy_optimizer.py
+++ b/torch/distributed/optim/zero_redundancy_optimizer.py
@ -14,7 +14,7 @@ from typing import Any, Callable, Dict, List, NamedTuple, Optional, Type, Union
 import torch
 import torch.distributed as dist
 from torch.distributed.algorithms.join import Join, Joinable, JoinHook
-from torch.distributed.optim import functional_optim_map
+from torch.distributed.optim import DistributedOptimizer
 from torch.optim import Optimizer

 __all__ = ["ZeroRedundancyOptimizer"]
@ -309,6 +309,8 @@ class ZeroRedundancyOptimizer(Optimizer, Joinable):

    """

+    functional_optim_map = DistributedOptimizer.functional_optim_map
+
    def __init__(
        self,
        params,
@ -1335,6 +1337,7 @@ class ZeroRedundancyOptimizer(Optimizer, Joinable):
                - if ``overlap_with_ddp=False`` and ``optimizer_class`` is a
                    functional optimizer.
        """
+        functional_optim_map = ZeroRedundancyOptimizer.functional_optim_map
        functional_optims = functional_optim_map.values()
        if not self._overlap_with_ddp:
            if optimizer_class in functional_optims: