large-data

如何通过解压缩提取大型数据集的一部分

我从 gbif (178GB) 压缩了一个非常大的物种数据集，解压时大约有 800GB (TSV) 我的 Mac 只有 512GB 内存和 8GB 内

前端之家
2022-04-17 • 问答
如何在开源工具中存储大量增量数据

我每个月都收到大量数据（50 列的 500 万条记录），我正在寻找一种有效的数据存储方式，可以在 R 中读

前端之家
2022-04-17 • 问答
我应该如何使用 pexpect 管理非常大的输出？

我想使用 pexpect 通过 debugfs 检查 inode 的文件内容。这样做的简单、明显……和错误的方法是期待“debugf

前端之家
2022-04-17 • 问答
如何解决 Matlab 函数 csaps 的非平滑结果

我的目标是为大量非均匀间隔数据找到平滑曲线，使得曲线的最小幅度尽可能大。 “csaps”函数似乎是

前端之家
2022-04-17 • 问答
自动将大型 PSQL 表归档到单独的表中 [django]

我有一个基表，它定期从 IOT 设备收集数据，该表随着大小呈线性增长，并减慢了整个系统的速度。 <

前端之家
2022-04-17 • 问答
同时使用多个处理器内核

当您运行一个函数时，是否可以同时在多个内核上运行它以加快计算速度？我有一个简单的函数，但是

前端之家
2022-04-16 • 问答
更快的 Django 过滤器查询非常大的数据库

我正在创建一个地理空间网络应用程序，并且有一个非常大的数据库，目前它有 750 万个条目，到所有数

前端之家
2022-04-16 • 问答
追加大型 Pytables HDF5 文件的最快方法

我使用多处理来生成大量非常大的 Pytables (H5) 文件——大到足以在单次扫描时出现内存问题。这些文件

前端之家
2022-04-16 • 问答
通过切片训练数据集来训练模型（基本上加载少量数据，训练和卸载再次加载另一部分训练并再次卸载重复）

我有大约 40 万张图像的数据集（仅用于训练用于验证和测试的单独数据集）。如果我使用 30k 图

前端之家
2022-04-16 • 问答
我如何使用 bteq 从 teradata 下载 200 多万条记录？

使用以下语句，我可以下载 100 万条记录。但不知道如何将 teradata 表中的 200 多万条记录下载到管道分隔

前端之家
2022-04-16 • 问答
矢量构建需要太长时间，替代方案？

我有一个 <code>vector<vector<vector<int>>></code>，它对于特定图像的定义如下： <strong>第一

前端之家
2022-04-16 • 问答
如何有效地计算 R 中的最短路径？

我有 3500 多个起点和 3500 多个目的地，它们通过 54000 多个链接与 24000 个节点相连。我正在使用 Igraph 和

前端之家
2022-04-16 • 问答
我怎样才能尽快做到这一点？ - 遍历图像垫

这个问题很简单。我还将解释我会做什么，以防有更快的方法来做到这一点，而无需优化这种特定方式

前端之家
2022-04-16 • 问答
postgresql v13 是否解决了“could not stat file”相关的bug？

在尝试将一些大文件复制到 postgresql 时，我遇到了与以下帖子相同的错误“无法统计文件 XXX”。根据答

前端之家
2022-04-16 • 问答
处理大数据集时 IPython 内核重启

我正在尝试处理混合变量（整数和字符串）的大型 csv（56、72,000），最终目标是将初始 csv 划分为更小、

前端之家
2022-04-16 • 问答
python中使用多个大字符串列表的最佳方法

我有 6 个列表，每个列表包含 100000 个字符串，而不是明确声明它们，我想使用更有效的东西。有人有想

前端之家
2022-04-16 • 问答

首页
上一页

末页