如何在GCP中找到rank0机器的地址和端口？

2024-05-05 • 问答

我正在尝试在GCP上使用单节点和多GPU配置进行分布式培训。我已经设置了我的代码和数据所在实例的IP地址。我收到此错误。我在这里想念什么吗？有什么办法吗？更多{@ 3}。我想找到rank0机器的IP地址。

init_process_group中的文件“ /opt/conda/lib/python3.6/site-packages/torch/distributed/distributed_c10d.py”，第400行         商店，等级，world_size = next（rendezvous（url））       _env_rendezvous_handler中的文件“ /opt/conda/lib/python3.6/site-packages/torch/distributed/rendezvous.py”，第143行         商店= TCPStore（master_addr，master_port，world_size，start_daemon）     RuntimeError：连接超时

yrxxxyr 回答：如何在GCP中找到rank0机器的地址和端口？

暂时没有好的解决方案，如果你有好的解决方案，请发邮件至：iooj@foxmail.com

distributed-computing google-cloud-platform google-compute-engine pytorch

本文链接：https://www.f2er.com/3113386.html

如何在GCP中找到rank0机器的地址和端口？

yrxxxyr 回答：如何在GCP中找到rank0机器的地址和端口？

大家都在问