我正在从数据分析师的角度获取关于数据I / O的经验教训,而没有受益于数据工程专业知识(并且对此缺点非常清楚)。为了提供各种选择的上下文,并考虑到我的商店中的限制,我简要地尝试了XML导入/导出,并完成了有关模式的在线阅读。我注意到有关第四代语言环境的开源实用程序的一件事似乎是使用默认值(我尚未指定默认值):
<?xml version="1.0" encoding="utf-8"?>
<y>
<DataFrame1>
<DataFrame1_Field1>[75;75;75;75;75;75;75;75;75;...;75;75]</DataFrame1_Field1>
<DataFrame1_Field2>[2014;2014;2015;2015;2016;2016;...;2083;2084;2084;2085;2085;2086;2086]</DataFrame1_Field2>
<DataFrame1_Field3>
<item>ABC</item>
<item>DEF</item>
<...snip...>
<item>00-00</item>
<item>00-00</item>
<item>00-00</item>
</DataFrameP_FieldM>
<DataFrameP_FieldN>[2;2;4;2;5;3;5;3;3;1;5;5;...;4;5;3;3;2;4;2;1;2;4]</DataFrameP_FieldN>
</DataFrameQ>
<DataFrameR>
<DataFrameR_Field1>[75;75;75;75;75;75;...;75;75;75;75;75]</DataFrameR_Field1>
<DataFrameR_Field2>[1;2;3;4;5;6;7;...;1638;1639;1640;1641;1642]</DataFrameR_Field2>
<DataFrameR_Field3>[0;0;0;0;0;0.014925;0.223881;0.014925;...;0;0.059701;0;0;0;0;0;0;0.626866]</DataFrameR_Field3>
</DataFrameR>
<DataFrameS>
<DataFrameS_Field1>[75;75;75;75;75;75;...;75;75;75;75;75;75;75]</DataFrameS_Field1>
<DataFrameS_Field2>[1;1;1;1;1;1;1;...;1642;1642;1642;1642;1642]</DataFrameS_Field2>
<DataFrameS_Field3>[0;0;0;0;0;0;0;0;...;7;0.7;0.7;0.8;0.8;0.8;0.9;0.9;1]</DataFrameS_Field3>
<DataFrameS_Field4>[0;0.1;0.2;...;0;0.1;0.2;0;0.1;0]</DataFrameS_Field4>
<DataFrameS_Field5>[1;0.9;0.8;...;0.3;0.2;0.1;0;0.2;0.1;0;0.1;0;0]</DataFrameS_Field5>
<DataFrameS_Field6>[0;0;0;0;0;0;...1;1;1;1;1;1;1;1;1;1]</DataFrameS_Field6>
</DataFrameS>
</y>
解释标签:所有以字符串“ DataFrame ...”开头的标签都是我在代码中所做的匿名化。在匿名化之前, DataFrame X (其中 X 是任何字母数字字符)是我的4GL环境中数据框对象的名称[1]。包含字符串“ DataFrame”和“ Field”的所有标签也是匿名的。在匿名化之前,它们是数据帧中字段的名称。标签<y>
只是4GL环境中数据帧集合的对象名称。
数据的排列对我来说都是有意义的,因为我知道我对数据所来自的数据帧的处理方式。所有标记都是有意义的。我假设它们来自通用的默认架构。但是,我的网络搜索没有发现任何迹象表明存在这样的默认架构,更不用说已经达成共识/标准化了。是否有这样的通用默认值,或者这些标签是导出实用程序的作者的结果?
[1] 4GL环境是Matlab,但是我的问题是关于XML惯例和约定,而不是Matlab。