CSV到SQL Server：批量导入噩梦（T-SQL和/或Pandas）

2024-05-15 • 问答

我试图将from itertools import groupby def solution(vector): n = 0 for group in groupby(vector): n += 1 return n // 2 + 1 if n > 1 else n文件批量插入SQL Server中，但收效甚微。

一些背景：

1。。我需要在SQL Server（2017）数据库中插入1600万条记录。每条记录有130列。我在.CSV中有一个字段，该字段来自我们其中一位供应商的API调用，我不允许提及。我有整数，浮点数和字符串数据类型。

2。。我尝试了常规操作：.CSV，但无法传递数据类型错误。我发布了一个问题here，但无法解决该问题。

3。。我尝试使用python进行实验，并尝试了所有可以找到的方法，但BULK INSERT的所有人都警告说它非常慢。我陷入了数据类型和字符串截断错误。与pandas.to_sql不同。

4。。由于没有太多选择，我尝试了BULK INSERT，尽管它没有引发任何数据类型或截断错误，但由于tmp SQL数据库空间不足而失败了。尽管我有足够的空间并且我所有的数据文件（和日志文件）都设置为无限制自动增长，但我也无法通过此错误。

那时我陷入困境。我的代码（用于pd.to_sql段）很简单：

pd.to_sql

我不太确定还有什么尝试，欢迎提出任何建议。我看到的所有代码和示例都涉及较小的数据集（列不多）。我愿意尝试任何其他方法。任何指针，我将不胜感激。

谢谢！

import pandas as pd from sqlalchemy import create_engine engine = create_engine("mssql+pyodbc://@myDSN") a = 1 b = 1001 while b <= len(df): try: df[a:b].to_sql('myTable',engine,schema='dbo',if_exists='append',index=False,chunksize=100) a = b + 1 b = b + 1000 except: print(f'Error between {a} and {b}') continue

BEGIN TRANSACTION BEGIN TRY BULK INSERT OurTable FROM 'c:\OurTable.txt' WITH (CODEPAGE = 'RAW',DATAFILETYPE = 'char',FIELDTERMINATOR = '\t',ROWS_PER_BATCH = 10000,TABLOCK) COMMIT TRANSACTION END TRY BEGIN CATCH ROLLBACK TRANSACTION END CATCH

CSV到SQL Server：批量导入噩梦（T-SQL和/或Pandas）

zkx993299184 回答：CSV到SQL Server：批量导入噩梦（T-SQL和/或Pandas）

大家都在问