PDFJS-错误:PDFDocument:网络抓取时流必须具有数据

我正在尝试执行一项可能会指向pdf网址的网络抓取任务。如果该网址恰好是pdf文档,我将使用PDFJS通过该网址从pdf文档中提取纯文本。

但是,有些pdf会引发以下错误,我似乎无法弄清楚为什么会这样。这些pdf可以在我的机器上本地下载和打开,并且可以在浏览器中查看而没有任何问题。

我尝试输入的代码:

const pdfUrl = 'https://www.ura.gov.sg/-/media/Corporate/Guidelines/Development-control/Circulars/2019/Sep/dc19-17/Appendix%204.pdf?la=en';
const urlOptions = {
    url: pdfUrl,httpHeaders: {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/78.0.3904.97 Safari/537.36"
    }
}

var loadingTask = pdfjslib.getDocument(urlOptions);
loadingTask.promise.then(async (doc) => {
    console.log(doc);
})
.catch((err)=>{
    console.log(err)
});

错误:

{ Error
    at UnknownErrorExceptionClosure (.../pdf_test/node_modules/pdfjs-dist/build/pdf.js:645:37)
    at Object.<anonymous> (.../pdf_test/node_modules/pdfjs-dist/build/pdf.js:648:2)
    at __w_pdfjs_require__ (.../pdf_test/node_modules/pdfjs-dist/build/pdf.js:52:30)
    at Object.defineProperty.value (.../node_modules/pdfjs-dist/build/pdf.js:129:23)
    at __w_pdfjs_require__ (.../node_modules/pdfjs-dist/build/pdf.js:52:30)
    at pdfjsVersion (.../node_modules/pdfjs-dist/build/pdf.js:116:18)
    at .../node_modules/pdfjs-dist/build/pdf.js:119:10
    at webpackUniversalModuleDefinition (.../node_modules/pdfjs-dist/build/pdf.js:25:20)
    at Object.<anonymous> (.../node_modules/pdfjs-dist/build/pdf.js:32:3)
    at Module._compile (internal/modules/cjs/loader.js:776:30)
  name: 'UnknownErrorException',message: 'PDFDocument: Stream must have data',details: 'Error: PDFDocument: Stream must have data' }

请注意,在我需要抓取的域中,只有上述域www.ura.gov.sg似乎有此问题。这是安全的事情还是什么?有人可以提供建议吗?

slxy2009 回答:PDFJS-错误:PDFDocument:网络抓取时流必须具有数据

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3087677.html

大家都在问