Viewing a single comment thread. View all comments

lambda_matt t1_j8facir wrote on February 13, 2023 at 9:50 PM

Short answer is, it’s complicated. Some workloads can handle being distributed across slower memory busses.

Frameworks have also implemented strategies for doing single node distributed training https://pytorch.org/tutorials/beginner/dist_overview.html