使用keras标记生成器预处理keras数据集

2024-05-01 • 问答

我正在尝试使用keras标记程序对使用以下代码读取的数据进行一些预处理：

 dataset = tf.data.Dataset.from_tensor_slices(filenames)
    dataset = dataset.interleave(lambda x:
        tf.data.TFRecordDataset(x).prefetch(params.num_parallel_readers),cycle_length=params.num_parallel_readers,block_length=1)
        dataset = dataset.map(_parse_example,num_parallel_calls = params.num_parallel_calls)

现在我有了已解析的示例（_parse_example映射函数的输出），我想使用tf.keras.preprocessing.text.Tokenizer方法texts_to_sequences对文本进行一些预处理。但是，texts_to_sequences期望输入python字符串，并且在parsed_example中获得张量。

我可以使用py_func包装代码来解决此问题（请参见下面的代码中的'emb'：tf.py_func .. ），但是我将无法序列化我的模型（根据py_func文档）。

dataset = dataset.map(lambda features,labels: 
                              ({'window': features['window'],'winSize': features['winSize'],'LandingPage': features['LandingPage'],'emb': tf.py_func(getEmb,[features['window']],tf.int32)},tf.one_hot(labels,hparams.numClasses) ))

寻找一种方法（或指向类似示例的链接）

使用keras标记生成器预处理keras数据集

maodengsan0000 回答：使用keras标记生成器预处理keras数据集

大家都在问