-
如何通过解压缩提取大型数据集的一部分
我从 gbif (178GB) 压缩了一个非常大的物种数据集,解压时大约有 800GB (TSV) 我的 Mac 只有 512GB 内存和 8GB 内 -
如何在开源工具中存储大量增量数据
我每个月都收到大量数据(50 列的 500 万条记录),我正在寻找一种有效的数据存储方式,可以在 R 中读 -
我应该如何使用 pexpect 管理非常大的输出?
我想使用 pexpect 通过 debugfs 检查 inode 的文件内容。 这样做的简单、明显……和错误的方法是期待“debugf -
如何解决 Matlab 函数 csaps 的非平滑结果
我的目标是为大量非均匀间隔数据找到平滑曲线,使得曲线的最小幅度尽可能大。 “csaps”函数似乎是 -
自动将大型 PSQL 表归档到单独的表中 [django]
我有一个基表,它定期从 IOT 设备收集数据,该表随着大小呈线性增长,并减慢了整个系统的速度。 < -
同时使用多个处理器内核
当您运行一个函数时,是否可以同时在多个内核上运行它以加快计算速度?我有一个简单的函数,但是 -
更快的 Django 过滤器查询非常大的数据库
我正在创建一个地理空间网络应用程序,并且有一个非常大的数据库,目前它有 750 万个条目,到所有数 -
追加大型 Pytables HDF5 文件的最快方法
我使用多处理来生成大量非常大的 Pytables (H5) 文件——大到足以在单次扫描时出现内存问题。这些文件 -
通过切片训练数据集来训练模型(基本上加载少量数据,训练和卸载再次加载另一部分训练并再次卸载重复)
我有大约 40 万张图像的数据集(仅用于训练用于验证和测试的单独数据集)。 如果我使用 30k 图 -
我如何使用 bteq 从 teradata 下载 200 多万条记录?
使用以下语句,我可以下载 100 万条记录。但不知道如何将 teradata 表中的 200 多万条记录下载到管道分隔 -
矢量构建需要太长时间,替代方案?
我有一个 <code>vector<vector<vector<int>>></code>,它对于特定图像的定义如下: <strong>第一 -
如何有效地计算 R 中的最短路径?
我有 3500 多个起点和 3500 多个目的地,它们通过 54000 多个链接与 24000 个节点相连。我正在使用 Igraph 和 -
我怎样才能尽快做到这一点? - 遍历图像垫
这个问题很简单。我还将解释我会做什么,以防有更快的方法来做到这一点,而无需优化这种特定方式 -
postgresql v13 是否解决了“could not stat file”相关的bug?
在尝试将一些大文件复制到 postgresql 时,我遇到了与以下帖子相同的错误“无法统计文件 XXX”。根据答 -
处理大数据集时 IPython 内核重启
我正在尝试处理混合变量(整数和字符串)的大型 csv(56、72,000),最终目标是将初始 csv 划分为更小、 -
python中使用多个大字符串列表的最佳方法
我有 6 个列表,每个列表包含 100000 个字符串,而不是明确声明它们,我想使用更有效的东西。有人有想