使用keras标记生成器预处理keras数据集

我正在尝试使用keras标记程序对使用以下代码读取的数据进行一些预处理:

 dataset = tf.data.Dataset.from_tensor_slices(filenames)
    dataset = dataset.interleave(lambda x:
        tf.data.TFRecordDataset(x).prefetch(params.num_parallel_readers),cycle_length=params.num_parallel_readers,block_length=1)
        dataset = dataset.map(_parse_example,num_parallel_calls = params.num_parallel_calls)

现在我有了已解析的示例(_parse_example映射函数的输出),我想使用tf.keras.preprocessing.text.Tokenizer方法texts_to_sequences对文本进行一些预处理。 但是,texts_to_sequences期望输入python字符串,并且在parsed_example中获得张量。

我可以使用py_func包装代码来解决此问题(请参见下面的代码中的'emb':tf.py_func .. ),但是我将无法序列化我的模型(根据py_func文档)。

dataset = dataset.map(lambda features,labels: 
                              ({'window': features['window'],'winSize': features['winSize'],'LandingPage': features['LandingPage'],'emb': tf.py_func(getEmb,[features['window']],tf.int32)},tf.one_hot(labels,hparams.numClasses) ))

寻找一种方法(或指向类似示例的链接)

maodengsan0000 回答:使用keras标记生成器预处理keras数据集

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3123786.html

大家都在问