我正在处理一个我无法编辑的第三方
PHP库,它已经运行了将近一年.它对远程服务器的响应使用simplexml_load_string.最近,它一直在阻止大量的回应.这是房地产列表的数据Feed,格式如下所示:
- <?xml version="1.0"?>
- <RETS ReplyCode="0" ReplyText="Operation Successful Reference ID: 9bac803e-b507-49b7-ac7c-d8e8e3f3aa89">
- <COUNT Records="9506" />
- <DELIMITER value="09" />
- <COLUMNS> sysid 1 2 3 4 5 6 </COLUMNS>
- <DATA> 252370080 Residential 0.160 No ADDR0 06051</DATA>
- <DATA> 252370081 Residential 0.440 Yes ADDR0 06043</DATA>
- <DATA> 252370082 Residential 1.010 No ADDR0 06023</DATA>
- <DATA>More tab delimited text</DATA>
- <!-- snip 9000+ lines -->
- </RETS>
我下载了一个响应的示例文件(大约22MB),这里我结束了我的调试和理智.两台服务器都运行PHP 5.3.8版,但请注意不同的结果.我确定,我可以这两个文件是一样的(我认为不同的文件大小,strlen,最后50个字符可以解释由Windows换行符额外的回车字符).测试脚本:
- error_reporting(-1);
- ini_set('display_errors',1);
- $file = 'error-example.xml';
- $xml = file_get_contents($file);
- echo 'filesize: ';
- var_dump(filesize($file));
- echo 'strlen: ';
- var_dump(strlen($xml));
- echo 'simplexml object? ';
- var_dump(is_object(simplexml_load_string($xml)));
- echo 'Last 50 characters: ';
- var_dump(substr($xml,-50));
在Windows上本地输出:
- filesize: int(21893604)
- strlen: int(21893604)
- simplexml object? bool(true)
- Last 50 characters: string(50) "RD DR CT Watertown 203-555-5555 </DATA>
- </RETS>"
远程UNIX服务器上的输出:
- filesize: int(21884093)
- strlen: int(21884093)
- simplexml object?
- Warning: simplexml_load_string(): Entity: line 9511: parser error : internal error in /path/to/test.PHP on line 19
- Warning: simplexml_load_string(): AULTED CEILING IN FOYER,BRICK FP IN FR,NEW FLOORING IN LR DR FR FOYER KITCHEN in /path/to/test.PHP on line 19
- Warning: simplexml_load_string(): ^ in /path/to/test.PHP on line 19
- Warning: simplexml_load_string(): Entity: line 9511: parser error : Extra content at the end of the document in /path/to/test.PHP on line 19
- Warning: simplexml_load_string(): AULTED CEILING IN FOYER,NEW FLOORING IN LR DR FR FOYER KITCHEN in /path/to/test.PHP on line 19
- Warning: simplexml_load_string(): ^ in /path/to/test.PHP on line 19
- bool(false)
- Last 50 characters: string(50) "ORD DR CT Watertown 203-555-5555 </DATA>
- </RETS>"
> XML本身似乎是有效的,只要我能告诉(它在我的系统上工作).
> magic_quotes_runtime绝对是关闭的.
>工作服务器具有libxml版本2.7.7,而另一个具有2.7.6.真的可以有所作为吗?我找不到一个libxml更改日志,但似乎不太可能.
>这似乎只发生在响应/文件超过一定大小时,错误总是发生在下一个最后一行.
>我没有遇到内存问题,测试脚本会立即运行.
如果我知道哪些相关的PHP配置有差异,我可以发布.任何想法可能是什么问题,还是知道其他什么我可能想检查?
libxml2 changelog包含
“608773 add a missing check in xmlGROW (Daniel Veillard)”,这似乎与输入缓冲有关.注意我不了解libxml2内部的任何内容,但似乎可以想象,您已经在2.7.7中修复了一个2.7.6的错误.
当您直接使用simplexml_load_file()时,检查行为是否有所不同,并尝试设置libxml解析器相关选项,例如.
- simplexml_load_string($xml,'SimpleXMLElement',LIBXML_COMPACT | LIBXML_PARSEHUGE)
具体来说,您可能需要尝试LIBXML_PARSEHUGE标志.
07002
XML_PARSE_HUGE
flag relaxes any hardcoded limit from the parser. This affects limits like maximum depth of a document or the entity recursion,as well as limits of the size of text nodes.