Revert D33992795: Add BUILD_LAZY_CUDA_LINALG option

Test Plan: revert-hammer Differential Revision: D33992795 (82130758f0) Original commit changeset: d1fa351a3206 Original Phabricator Diff: D33992795 (82130758f0) fbshipit-source-id: f0a66d7431aea2c358718eef16fab05712cd6cae (cherry picked from commit df4900115f712e477ed5cc97510e6515a1ca17a9)
2025-12-06 12:20:52 +01:00 · 2022-02-25 10:18:50 -08:00 · 2022-02-25 10:18:50 -08:00 · 31271284bc
commit 31271284bc
parent dc1bd9711e
11 changed files with 33 additions and 290 deletions
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@ -189,8 +189,6 @@ option(USE_CUDA "Use CUDA" ON)
 cmake_dependent_option(
    BUILD_SPLIT_CUDA "Split torch_cuda library into torch_cuda_cu and torch_cuda_cpp" OFF
    "USE_CUDA AND NOT CUDA_SEPARABLE_COMPILATION" OFF)
 cmake_dependent_option(
     BUILD_LAZY_CUDA_LINALG "Build cuda linalg ops as separate library" ON "USE_CUDA AND LINUX AND BUILD_PYTHON" OFF)
 option(USE_FAST_NVCC "Use parallel NVCC build" OFF)
 option(USE_ROCM "Use ROCm" ON)
 option(CAFFE2_STATIC_LINK_CUDA "Statically link CUDA libraries" OFF)
--- a/aten/CMakeLists.txt
+++ b/aten/CMakeLists.txt
@ -23,7 +23,6 @@ set(ATen_CPU_INCLUDE)
 set(ATen_THIRD_PARTY_INCLUDE)
 set(ATen_CUDA_CPP_SRCS)
 set(ATen_CUDA_CU_SRCS)
 set(ATen_CUDA_LINALG_SRCS)
 set(ATen_CUDA_SRCS_W_SORT_BY_KEY)
 set(ATen_CUDA_TEST_SRCS)
 set(ATen_CUDA_INCLUDE)
@ -100,7 +99,6 @@ set(ATen_CPU_SRCS ${ATen_CPU_SRCS} PARENT_SCOPE)
 set(ATen_CORE_SRCS ${ATen_CORE_SRCS} PARENT_SCOPE)
 set(ATen_CUDA_CU_SRCS ${ATen_CUDA_CU_SRCS} PARENT_SCOPE)
 set(ATen_CUDA_CPP_SRCS ${ATen_CUDA_CPP_SRCS} PARENT_SCOPE)
 set(ATen_CUDA_LINALG_SRCS ${ATen_CUDA_LINALG_SRCS} PARENT_SCOPE)
 set(ATen_CUDA_SRCS_W_SORT_BY_KEY ${ATen_CUDA_SRCS_W_SORT_BY_KEY} PARENT_SCOPE)
 set(ATen_CUDA_CU_SRCS_W_SORT_BY_KEY ${ATen_CUDA_CU_SRCS_W_SORT_BY_KEY} PARENT_SCOPE)
 set(ATen_HIP_SRCS ${ATen_HIP_SRCS} PARENT_SCOPE)
--- a/aten/src/ATen/CMakeLists.txt
+++ b/aten/src/ATen/CMakeLists.txt
@ -194,6 +194,7 @@ if(USE_CUDA)
  list(APPEND ATen_CUDA_CU_SRCS
    ${cuda_cu}
    ${native_cuda_cu}
    ${native_cuda_linalg_cpp}
    ${native_sparse_cuda_cu}
    ${native_quantized_cuda_cu}
    ${cuda_generated_sources}
@ -207,10 +208,6 @@ if(USE_CUDA)
    ${native_quantized_cudnn_cpp}
    ${native_sparse_cuda_cpp}
  )
  set(ATen_CUDA_LINALG_SRCS ${native_cuda_linalg_cpp})
  if(NOT BUILD_LAZY_CUDA_LINALG)
    list(APPEND ATen_CUDA_CU_SRCS ${native_cuda_linalg_cpp})
  endif()
  if(CAFFE2_USE_CUDNN)
    list(APPEND ATen_CUDA_CPP_SRCS ${cudnn_cpp})
  endif()
@ -395,24 +392,16 @@ if(USE_CUDA AND NOT USE_ROCM)
      ${CUDA_TOOLKIT_ROOT_DIR}/lib64/libcurand_static.a
      ${CUDA_TOOLKIT_ROOT_DIR}/lib64/libcublas_static.a
      ${CUDA_TOOLKIT_ROOT_DIR}/lib64/libcufft_static_nocallback.a
      ${CUDA_TOOLKIT_ROOT_DIR}/lib64/libcusolver_static.a
      ${CUDA_TOOLKIT_ROOT_DIR}/lib64/liblapack_static.a     # needed for libcusolver_static
      )
   if(NOT BUILD_LAZY_CUDA_LINALG)
     list(APPEND ATen_CUDA_DEPENDENCY_LIBS
       ${CUDA_TOOLKIT_ROOT_DIR}/lib64/libcusolver_static.a
       ${CUDA_TOOLKIT_ROOT_DIR}/lib64/liblapack_static.a     # needed for libcusolver_static
       )
   endif()
  else()
    list(APPEND ATen_CUDA_DEPENDENCY_LIBS
      ${CUDA_LIBRARIES}
      ${CUDA_cusparse_LIBRARY}
      ${CUDA_curand_LIBRARY}
      ${CUDA_cusolver_LIBRARY}
      )
   if(NOT BUILD_LAZY_CUDA_LINALG)
     list(APPEND ATen_CUDA_DEPENDENCY_LIBS
       ${CUDA_cusolver_LIBRARY}
     )
   endif()
  endif()
  if(CAFFE2_USE_CUDNN)
@ -426,9 +415,9 @@ endif()
  if(USE_MAGMA)
-    if(USE_CUDA AND NOT BUILD_LAZY_CUDA_LINALG)
+    if(USE_CUDA)
      list(APPEND ATen_CUDA_DEPENDENCY_LIBS torch::magma)
-    endif(USE_CUDA AND NOT BUILD_LAZY_CUDA_LINALG)
+    endif(USE_CUDA)
    if(USE_ROCM)
      list(APPEND ATen_HIP_DEPENDENCY_LIBS torch::magma)
    endif(USE_ROCM)
@ -547,7 +536,6 @@ set(ATen_CORE_SRCS ${ATen_CORE_SRCS} PARENT_SCOPE)
 set(ATen_CPU_SRCS ${ATen_CPU_SRCS} PARENT_SCOPE)
 set(ATen_CUDA_CU_SRCS ${ATen_CUDA_CU_SRCS} PARENT_SCOPE)
 set(ATen_CUDA_CPP_SRCS ${ATen_CUDA_CPP_SRCS} PARENT_SCOPE)
 set(ATen_CUDA_LINALG_SRCS ${ATen_CUDA_LINALG_SRCS} PARENT_SCOPE)
 set(ATen_CUDA_SRCS_W_SORT_BY_KEY ${ATen_CUDA_SRCS_W_SORT_BY_KEY} PARENT_SCOPE)
 set(ATen_CUDA_CU_SRCS_W_SORT_BY_KEY ${ATen_CUDA_CU_SRCS_W_SORT_BY_KEY} PARENT_SCOPE)
 set(ATen_NVRTC_STUB_SRCS ${ATen_NVRTC_STUB_SRCS} PARENT_SCOPE)
--- a/aten/src/ATen/DynamicLibrary.cpp
+++ b/aten/src/ATen/DynamicLibrary.cpp
@ -25,7 +25,7 @@ static void* checkDL(void* x) {
  return x;
 }
-DynamicLibrary::DynamicLibrary(const char* name, const char* alt_name, bool leak_handle_): leak_handle(leak_handle_) {
+DynamicLibrary::DynamicLibrary(const char* name, const char* alt_name) {
  // NOLINTNEXTLINE(hicpp-signed-bitwise)
  handle = dlopen(name, RTLD_LOCAL | RTLD_NOW);
  if (!handle) {
@ -46,9 +46,8 @@ void* DynamicLibrary::sym(const char* name) {
 }
 DynamicLibrary::~DynamicLibrary() {
-  if (!handle || leak_handle) {
+  if (!handle)
    return;
  }
  dlclose(handle);
 }
@ -56,7 +55,7 @@ DynamicLibrary::~DynamicLibrary() {
 // Windows
-DynamicLibrary::DynamicLibrary(const char* name, const char* alt_name, bool leak_handle_): leak_handle(leak_handle_) {
+DynamicLibrary::DynamicLibrary(const char* name, const char* alt_name) {
  // NOLINTNEXTLINE(hicpp-signed-bitwise)
  HMODULE theModule;
  bool reload = true;
@ -98,7 +97,7 @@ void* DynamicLibrary::sym(const char* name) {
 }
 DynamicLibrary::~DynamicLibrary() {
-  if (!handle || leak_handle) {
+  if (!handle) {
    return;
  }
  FreeLibrary((HMODULE)handle);
--- a/aten/src/ATen/DynamicLibrary.h
+++ b/aten/src/ATen/DynamicLibrary.h
@ -8,14 +8,13 @@ namespace at {
 struct DynamicLibrary {
  AT_DISALLOW_COPY_AND_ASSIGN(DynamicLibrary);
-  TORCH_API DynamicLibrary(const char* name, const char* alt_name = nullptr, bool leak_handle = false);
+  TORCH_API DynamicLibrary(const char* name, const char* alt_name = nullptr);
  TORCH_API void* sym(const char* name);
  TORCH_API ~DynamicLibrary();
 private:
  bool leak_handle;
  void* handle = nullptr;
 };
--- a/aten/src/ATen/native/cuda/LinearAlgebraStubs.cpp
+++ b/aten/src/ATen/native/cuda/LinearAlgebraStubs.cpp
@ -1,203 +0,0 @@
 // LinearAlgebraStubs.cpp
 // Mostly a no-op unless BUILD_LAZY_CUDA_LINALG is defined
 // In that case load library is dynamically loaded when first linalg call is made
 // This helps reduce size of GPU memory context if linear algebra functions are not used
 #include <ATen/Context.h>
 #include <ATen/cuda/CUDAContext.h>
 #include <ATen/cuda/CUDAConfig.h>
 #include <ATen/NativeFunctions.h>
 #include <ATen/Dispatch.h>
 #include <ATen/DynamicLibrary.h>
 #include <ATen/NativeFunctions.h>
 #include <ATen/native/cuda/MiscUtils.h>
 #include <ATen/native/Resize.h>
 #include <ATen/native/LinearAlgebra.h>
 #include <ATen/native/BatchLinearAlgebra.h>
 #if defined(BUILD_LAZY_CUDA_LINALG)
 #include <ATen/native/cuda/linalg/BatchLinearAlgebraLib.h>
 #if AT_MAGMA_ENABLED()
 #include <ATen/cuda/detail/CUDAHooks.h>
 namespace {
 struct MagmaInitializer {
  MagmaInitializer() {
    ::at::cuda::detail::set_magma_init_fn([]{ });
  };
 } initializer;
 }  // namespace (anonymous)
 #endif
 #endif
 namespace at {
 namespace native {
 #if defined(BUILD_LAZY_CUDA_LINALG)
 namespace {
 cuda::detail::LinalgDispatch disp = {nullptr, nullptr, nullptr, nullptr, nullptr, nullptr};
 at::DynamicLibrary& getTorchLinalgLibrary() {
  static at::DynamicLibrary lib("libtorch_cuda_linalg.so", nullptr, true);
  return lib;
 }
 // Lazy dispatches do nothing but load linalg library and call the stub
 // Loading the library should override the registration of those with the proper implementation
 // getTorchLinalgLibrary() throws an exception if library is not found
 // Which makes it unnecessary to have an explicit error checking
 void lazy_cholesky_kernel(const Tensor& input, const Tensor& info, bool upper) {
  getTorchLinalgLibrary();
  cholesky_stub(DeviceType::CUDA, input, info, upper);
 }
 Tensor& lazy_cholesky_inverse_kernel(Tensor &result, Tensor& infos, bool upper) {
  getTorchLinalgLibrary();
  return cholesky_inverse_stub(DeviceType::CUDA, result, infos, upper);
 }
 void lazy_lu_factor(const Tensor& input, const Tensor& pivots, const Tensor& infos, bool compute_pivots) {
  getTorchLinalgLibrary();
  lu_factor_stub(DeviceType::CUDA, input, pivots, infos, compute_pivots);
 }
 void lazy_triangular_solve_kernel(const Tensor& A, const Tensor& B, bool left, bool upper, TransposeType transpose, bool unitriangular) {
  getTorchLinalgLibrary();
  triangular_solve_stub(DeviceType::CUDA, A, B, left, upper, transpose, unitriangular);
 }
 Tensor& lazy_orgqr_kernel(Tensor& result, const Tensor& tau) {
  getTorchLinalgLibrary();
  return orgqr_stub(DeviceType::CUDA, result, tau);
 }
 void lazy_ormqr_kernel(const Tensor& input, const Tensor& tau, const Tensor& other, bool left, bool transpose) {
  getTorchLinalgLibrary();
  ormqr_stub(DeviceType::CUDA, input, tau, other, left, transpose);
 }
 void lazy_geqrf_kernel(const Tensor& input, const Tensor& tau) {
  getTorchLinalgLibrary();
  geqrf_stub(DeviceType::CUDA, input, tau);
 }
 void lazy_linalg_eigh_kernel(const Tensor& eigenvalues, const Tensor& eigenvectors, const Tensor& infos, bool upper, bool compute_eigenvectors) {
  getTorchLinalgLibrary();
  linalg_eigh_stub(DeviceType::CUDA, eigenvalues, eigenvectors, infos, upper, compute_eigenvectors);
 }
 std::tuple<Tensor, Tensor> lazy_eig_kernel(const Tensor& self, bool& eigenvectors) {
  getTorchLinalgLibrary();
  return eig_stub(DeviceType::CUDA, self, eigenvectors);
 }
 void lazy_linalg_eig_kernel(Tensor& eigenvalues, Tensor& eigenvectors, Tensor& infos, const Tensor& input, bool compute_eigenvectors) {
  getTorchLinalgLibrary();
  linalg_eig_stub(DeviceType::CUDA, eigenvalues, eigenvectors, infos, input, compute_eigenvectors);
 }
 void lazy_svd_kernel(const Tensor& A,
                     const bool full_matrices,
                     const bool compute_uv,
                     const Tensor& U,
                     const Tensor& S,
                     const Tensor& Vh,
                     const Tensor& info) {
  getTorchLinalgLibrary();
  svd_stub(DeviceType::CUDA, A, full_matrices, compute_uv, U, S, Vh, info);
 }
 void lazy_lu_solve_trans(const Tensor& b, const Tensor& lu, const Tensor& pivots, TransposeType trans) {
  getTorchLinalgLibrary();
  lu_solve_trans_stub(DeviceType::CUDA, b, lu, pivots, trans);
 }
 void lazy_lu_solve(const Tensor& b, const Tensor& lu, const Tensor& pivots) {
  getTorchLinalgLibrary();
  lu_solve_stub(DeviceType::CUDA, b, lu, pivots);
 }
 void lazy_lstsq_kernel(const Tensor& a, Tensor& b, Tensor& rank, Tensor& singular_values, Tensor& infos, double rcond, std::string driver_name)  {
  getTorchLinalgLibrary();
  lstsq_stub(DeviceType::CUDA, a, b, rank, singular_values, infos, rcond, driver_name);
 }
 REGISTER_CUDA_DISPATCH(cholesky_stub, &lazy_cholesky_kernel)
 REGISTER_CUDA_DISPATCH(cholesky_inverse_stub, &lazy_cholesky_inverse_kernel);
 REGISTER_CUDA_DISPATCH(lu_factor_stub, &lazy_lu_factor);
 REGISTER_CUDA_DISPATCH(triangular_solve_stub, &lazy_triangular_solve_kernel);
 REGISTER_CUDA_DISPATCH(orgqr_stub, &lazy_orgqr_kernel);
 REGISTER_CUDA_DISPATCH(ormqr_stub, &lazy_ormqr_kernel);
 REGISTER_CUDA_DISPATCH(geqrf_stub, &lazy_geqrf_kernel);
 REGISTER_CUDA_DISPATCH(linalg_eigh_stub, &lazy_linalg_eigh_kernel);
 REGISTER_CUDA_DISPATCH(eig_stub, &lazy_eig_kernel);
 REGISTER_CUDA_DISPATCH(linalg_eig_stub, &lazy_linalg_eig_kernel);
 REGISTER_CUDA_DISPATCH(svd_stub, &lazy_svd_kernel)
 REGISTER_CUDA_DISPATCH(lu_solve_trans_stub, &lazy_lu_solve_trans);
 REGISTER_CUDA_DISPATCH(lu_solve_stub, &lazy_lu_solve);
 REGISTER_CUDA_DISPATCH(lstsq_stub, &lazy_lstsq_kernel);
 } // anonymous namespace
 // Old style dispatches
 // torch_cuda_linalg dynamic library should have a global constructor
 // that calls regiserLinaglDispatch so in order ot lazy bind
 // old style dispatch all one have to do is to load library and call disp.func_name
 namespace cuda {
 namespace detail {
 void registerLinalgDispatch(const LinalgDispatch& disp_) {
  disp = disp_;
 }
 }} //namespace cuda::detail
 Tensor& _linalg_inv_out_helper_cuda(Tensor &result, Tensor& infos_lu, Tensor& infos_getri) {
    getTorchLinalgLibrary();
    TORCH_CHECK(disp.inv_out_helper != nullptr, "Can't find _linalg_inv_out_helper_cuda");
    return disp.inv_out_helper(result, infos_lu, infos_getri);
 }
 std::tuple<Tensor, Tensor> legacy_lstsq_cuda(const Tensor &B, const Tensor &A) {
    getTorchLinalgLibrary();
    TORCH_CHECK(disp.legacy_lstsq != nullptr, "Can't find legacy_lstsq_cuda");
    return disp.legacy_lstsq(B, A);
 }
 Tensor _cholesky_solve_helper_cuda(const Tensor& self, const Tensor& A, bool upper) {
    getTorchLinalgLibrary();
    TORCH_CHECK(disp.cholesky_solve_helper != nullptr, "Can't find _cholesky_solve_helper_cuda");
    return disp.cholesky_solve_helper(self, A, upper);
 }
 std::tuple<Tensor, Tensor> _linalg_qr_helper_cuda(const Tensor& input, c10::string_view mode) {
    getTorchLinalgLibrary();
    TORCH_CHECK(disp.qr_helper != nullptr, "Can't find _linalg_qr_helper_cuda");
    return disp.qr_helper(input, mode);
 }
 std::tuple<Tensor, Tensor> _symeig_helper_cuda(const Tensor& self, bool eigenvectors, bool upper) {
    getTorchLinalgLibrary();
    TORCH_CHECK(disp.symeig_helper != nullptr, "Can't find _symeig_helper_cuda");
    return disp.symeig_helper(self, eigenvectors, upper);
 }
 std::tuple<Tensor, Tensor> _solve_helper_cuda(const Tensor& self, const Tensor& A) {
    getTorchLinalgLibrary();
    TORCH_CHECK(disp.solve_helper != nullptr, "Can't find _solve_helper_cuda");
    return disp.solve_helper(self, A);
 }
 #endif /*defined(BUILD_LAZY_CUDA_LINALG)*/
 std::tuple<Tensor&, Tensor&> legacy_lstsq_out_cuda(
    const Tensor& B, const Tensor& A, Tensor& B_out, Tensor& A_out) {
  const auto dtype = A.scalar_type();
  TORCH_CHECK(B.scalar_type() == dtype, "exepected A and B dtypes to match but found ",
              A.scalar_type(), " and ", B.scalar_type());
  TORCH_CHECK(A_out.scalar_type() == dtype, "A_out to have scalar type ", dtype,
              " but found", A_out.scalar_type());
  TORCH_CHECK(B_out.scalar_type() == dtype, "A_out to have scalar type ", dtype,
              " but found", B_out.scalar_type());
  Tensor A_tmp, B_tmp;
  std::tie(B_tmp, A_tmp) = native::legacy_lstsq_cuda(B, A);
  resize_output(A_out, A_tmp.sizes());
  A_out.copy_(A_tmp);
  resize_output(B_out, B_tmp.sizes());
  B_out.copy_(B_tmp);
  return std::tuple<Tensor&, Tensor&>(B_out, A_out);
 }
 }} // namespace at::native
--- a/aten/src/ATen/native/cuda/linalg/BatchLinearAlgebra.cpp
+++ b/aten/src/ATen/native/cuda/linalg/BatchLinearAlgebra.cpp
@ -9,6 +9,7 @@
 #include <ATen/native/LinearAlgebraUtils.h>
 #include <ATen/native/cuda/MiscUtils.h>
 #include <ATen/native/Resize.h>
 #include <ATen/native/LinearAlgebra.h>
 #include <ATen/native/BatchLinearAlgebra.h>
 #include <ATen/native/cuda/linalg/BatchLinearAlgebraLib.h>
@ -25,12 +26,8 @@ const bool use_magma_ = true;
 namespace {
 struct MagmaInitializer {
  MagmaInitializer() {
 #if defined(BUILD_LAZY_CUDA_LINALG)
    magma_init();
 #else
    ::at::cuda::detail::set_magma_init_fn([]{ magma_init(); });
-#endif
+  };
  }
 } initializer;
 }  // namespace (anonymous)
@ -3248,22 +3245,25 @@ std::tuple<Tensor, Tensor> legacy_lstsq_cuda(const Tensor &B, const Tensor &A) {
 #endif  // AT_MAGMA_ENABLED()
 }
 std::tuple<Tensor&, Tensor&> legacy_lstsq_out_cuda(
    const Tensor& B, const Tensor& A, Tensor& B_out, Tensor& A_out) {
  const auto dtype = A.scalar_type();
  TORCH_CHECK(B.scalar_type() == dtype, "exepected A and B dtypes to match but found ",
              A.scalar_type(), " and ", B.scalar_type());
  TORCH_CHECK(A_out.scalar_type() == dtype, "A_out to have scalar type ", dtype,
              " but found", A_out.scalar_type());
  TORCH_CHECK(B_out.scalar_type() == dtype, "A_out to have scalar type ", dtype,
              " but found", B_out.scalar_type());
  Tensor A_tmp, B_tmp;
  std::tie(B_tmp, A_tmp) = native::legacy_lstsq_cuda(B, A);
  resize_output(A_out, A_tmp.sizes());
  A_out.copy_(A_tmp);
  resize_output(B_out, B_tmp.sizes());
  B_out.copy_(B_tmp);
  return std::tuple<Tensor&, Tensor&>(B_out, A_out);
 }
 #if defined(BUILD_LAZY_CUDA_LINALG)
 namespace {
 struct DispatchInitializer {
  DispatchInitializer() {
    cuda::detail::LinalgDispatch disp{ _solve_helper_cuda,
                                       _symeig_helper_cuda,
                                       _linalg_qr_helper_cuda,
                                       _cholesky_solve_helper_cuda,
                                       legacy_lstsq_cuda,
                                       _linalg_inv_out_helper_cuda};
    cuda::detail::registerLinalgDispatch(disp);
  };
 } initializer;
 }  // namespace (anonymous)
 #endif
 }}  // namespace at::native
 #undef ALLOCATE_ARRAY
--- a/aten/src/ATen/native/cuda/linalg/BatchLinearAlgebraLib.h
+++ b/aten/src/ATen/native/cuda/linalg/BatchLinearAlgebraLib.h
@ -65,20 +65,4 @@ void lu_factor_looped_cusolver(const Tensor& self, const Tensor& pivots, const T
 #endif  // USE_CUSOLVER
 #if defined(BUILD_LAZY_CUDA_LINALG)
 namespace cuda { namespace detail {
 // This is only used for an old-style dispatches
 // Please do not add any new entires to it
 struct LinalgDispatch {
   std::tuple<Tensor, Tensor> (*solve_helper)(const Tensor& self, const Tensor& A);
   std::tuple<Tensor, Tensor> (*symeig_helper)(const Tensor& self, bool eigenvectors, bool upper);
   std::tuple<Tensor, Tensor> (*qr_helper)(const Tensor& input, c10::string_view mode);
   Tensor (*cholesky_solve_helper)(const Tensor& self, const Tensor& A, bool upper);
   std::tuple<Tensor, Tensor> (*legacy_lstsq)(const Tensor &B, const Tensor &A);
   Tensor& (*inv_out_helper)(Tensor &result, Tensor& infos_lu, Tensor& infos_getri);
 };
 C10_EXPORT void registerLinalgDispatch(const LinalgDispatch&);
 }} // namespace cuda::detail
 #endif
 }}  // namespace at::native
--- a/caffe2/CMakeLists.txt
+++ b/caffe2/CMakeLists.txt
@ -901,22 +901,6 @@ elseif(USE_CUDA)
    target_link_libraries(torch_cuda PRIVATE __caffe2_nccl)
    target_compile_definitions(torch_cuda PRIVATE USE_NCCL)
  endif()
  if(BUILD_LAZY_CUDA_LINALG)
    add_library(torch_cuda_linalg ${ATen_CUDA_LINALG_SRCS})
    target_compile_definitions(torch_cuda_linalg PRIVATE USE_CUDA BUILD_LAZY_CUDA_LINALG)
    target_link_libraries(torch_cuda_linalg PRIVATE
        torch_cpu
        torch_cuda
        ${CUDA_cusolver_LIBRARY}
    )
    if(USE_MAGMA)
      target_link_libraries(torch_cuda_linalg PRIVATE torch::magma)
      # CUDAHooks reports version of MAGMA PyTorch was compiled against, i.e. needs to be able to include magma headers
      set_source_files_properties(${CMAKE_CURRENT_SOURCE_DIR}/../aten/src/ATen/cuda/detail/CUDAHooks.cpp PROPERTIES INCLUDE_DIRECTORIES  "${MAGMA_INCLUDE_DIR}")
    endif()
    set_source_files_properties(${CMAKE_CURRENT_SOURCE_DIR}/../aten/src/ATen/native/cuda/LinearAlgebraStubs.cpp PROPERTIES COMPILE_FLAGS "-DBUILD_LAZY_CUDA_LINALG")
    install(TARGETS torch_cuda_linalg DESTINATION "${TORCH_INSTALL_LIB_DIR}")
  endif()
  if(USE_PRECOMPILED_HEADERS)
    if(BUILD_SPLIT_CUDA)
--- a/test/cpp_extensions/setup.py
+++ b/test/cpp_extensions/setup.py
@ -51,18 +51,15 @@ if torch.cuda.is_available() and (CUDA_HOME is not None or ROCM_HOME is not None
 # todo(mkozuki): Figure out the root cause
 if (not IS_WINDOWS) and torch.cuda.is_available() and CUDA_HOME is not None:
    # malfet: One shoudl not assume that PyTorch re-exports CUDA dependencies
    cublas_extension = CUDAExtension(
        name='torch_test_cpp_extension.cublas_extension',
-        sources=['cublas_extension.cpp'],
+        sources=['cublas_extension.cpp']
        libraries=['cublas'] if torch.version.hip is None else [],
    )
    ext_modules.append(cublas_extension)
    cusolver_extension = CUDAExtension(
        name='torch_test_cpp_extension.cusolver_extension',
-        sources=['cusolver_extension.cpp'],
+        sources=['cusolver_extension.cpp']
        libraries=['cusolver'] if torch.version.hip is None else [],
    )
    ext_modules.append(cusolver_extension)
--- a/tools/build_variables.bzl
+++ b/tools/build_variables.bzl
@ -1339,7 +1339,6 @@ aten_cuda_cu_source_list = [
    "aten/src/ATen/cuda/CUDASparseBlas.cpp",
    "aten/src/ATen/cuda/CublasHandlePool.cpp",
    "aten/src/ATen/native/cuda/Activation.cpp",
    "aten/src/ATen/native/cuda/LinearAlgebraStubs.cpp",
    "aten/src/ATen/native/cuda/Blas.cpp",
    "aten/src/ATen/native/cuda/Equal.cpp",
    "aten/src/ATen/native/cuda/GridSampler.cpp",