我正在尝试在GCP上使用单节点和多GPU配置进行分布式培训。我已经设置了我的代码和数据所在实例的IP地址。我收到此错误。我在这里想念什么吗?有什么办法吗?更多{@ 3}。我想找到rank0机器的IP地址。
init_process_group中的文件“ /opt/conda/lib/python3.6/site-packages/torch/distributed/distributed_c10d.py”,第400行 商店,等级,world_size = next(rendezvous(url)) _env_rendezvous_handler中的文件“ /opt/conda/lib/python3.6/site-packages/torch/distributed/rendezvous.py”,第143行 商店= TCPStore(master_addr,master_port,world_size,start_daemon) RuntimeError:连接超时