checkpointing

在C ++中训练模型时，如何使用tensorflow C ++ API tensorflow :: ops :: SaveV2做检查点

我想知道如何使用tensorflow C ++ API：<code>tensorflow::ops::SaveV2</code>进行检查点。它的签名是： <pre><code>Sa

前端之家
2022-08-15 • 问答
PyTorch中的.pt，.pth和.pwf扩展之间有什么区别？

我在一些代码示例中看到，人们使用.pwf作为模型文件保存格式。但是在PyTorch文档中，建议使用.pt和.pth

前端之家
2022-08-12 • 问答
由于它不是“检查点”，因此恢复TensorFlow 2.0 Training的崩溃恢复的标准方法是什么？

要在崩溃后恢复训练，不仅必须还原模型，还必须还原进入<code>model.fit(...)</code>进程状态的所有对象和

前端之家
2022-08-04 • 问答
正在进行的快照太多。增加kafka生产者池的大小或减少并发检查点的数量

我正在研究下沉到Kafka的Flink应用程序。我创建了一个Kafka生产者，其默认池大小为5。我使用以下配置启

前端之家
2022-07-16 • 问答
Flink检查点大小上的Apache Beam作业随着时间的推移而增长

通过<strong> FlinkRunner </strong>运行的<strong> Apache Beam </strong>任务之一是<strong>出现了具有检查点大小的奇怪

前端之家
2022-07-04 • 问答
在Job Manager高可用性的情况下Flink外部化检查点

我们为Flink作业启用了外部检查点以进行状态恢复，因为它们在竞价型节点上运行。但是现在我们正在将

前端之家
2022-06-20 • 问答
如何在tensorflow2中恢复特定的检查点（以实现提早停止）？

我使用以下代码在训练模型的循环之外创建检查点管理器： <pre><code>checkpoint_path = "./checkpoints/train&

前端之家
2022-06-08 • 问答
有什么方法可以确保通过保存点取消作业时Flink上所有检查点完成通知给所有CheckpointListener吗？

我正在使用flink 1.9和REST API <code>/jobs/:jobid/savepoints</code>来触发保存点并取消作业（适当地停止作业，以

前端之家
2022-06-02 • 问答
创建Runc容器集群或可行的替代方案

我正在寻找创建Raspberry Pi集群作为我的论文的设置。这样做的目的是了解如何在运行大量计算的同时维

前端之家
2022-05-28 • 问答
重新启动任务管理器后，Apache Flink丢失记录

我正在将Flink集群与一个作业管理器容器和一个Kubernetes群集中的两个任务管理器容器一起使用。当我将

前端之家
2022-05-23 • 问答
Apache Flink将S3用于后端状态和检查点背景步骤

<h3>背景</h3> <ul> <li>我打算使用S3通过<code>FsStateBackend</code>存储Flink的检查点。但是不知何故我遇到了以下错

前端之家
2022-05-23 • 问答
有状态转换，可跨多个批次合并数据

对于spark dstream应用程序，我需要访问以前的批处理数据帧/ rdds，因此，我尝试重新创建一个玩具示例以

前端之家
2022-05-20 • 问答
Azure 事件中心流：检查点是否覆盖 setStartingPosition？

如果我们像这样在 EventHub conf 中指定起始位置： <pre><code>EventHubsConf(ConnectionStringBuilder(eventHubConnectionSt

前端之家
2022-04-27 • 问答
使用现有检查点文件在 Java 中打开 RocksDB

我有一个流管道，它使用 Rocksdbjni 6.15.2 来管理和检查点状态。我正在尝试在单独的离线 Scala 进程中使用

前端之家
2022-04-24 • 问答
如何在保存为 .pth 文件的 AI 模型上获取层执行时间？

我正在尝试在 CPU 上运行类似 Resnet 的图像分类模型，并想知道运行模型的每一层所需的时间细分。 <p

前端之家
2022-04-23 • 问答