Dataprovider #1395

studyPaddle · 2017-02-21T05:24:43Z

你好，我是一个PaddlePaddle的初学者，在PaddlePaddle的文档中没有提到DataProvider的那个process函数如果需要传入多个数据文件的，怎么处理，如果train.list中有好多行，需要传入多个数据文件怎么处理呢？

from paddle.trainer.PyDataProvider2 import *

Define a py data provider

@Provider(input_types=[dense_vector(28 * 28), integer_value(10)])
def process(settings, filename): # settings is not used currently.
f = open(filename, 'r') # open one of training file
for line in f: # read each line
label, pixel = line.split(';')
# get features and label
pixels_str = pixel.split(' ')
pixels_float = []
for each_pixel_str in pixels_str:
pixels_float.append(float(each_pixel_str))
# give data to paddle.
yield pixels_float, int(label)

文档中给的这个例子只有传入一个数据文件的情况，请问如何传入多个数据文件？

f.close()  # close file

The text was updated successfully, but these errors were encountered:

helinwang · 2017-02-23T03:52:27Z

这段代码我不是很熟，你试一下process里面加上print filename，看看train.list多行的情况下process有没有被调用多次？（一行文件一次）

Z-TAO · 2017-02-23T05:32:03Z

@studyPaddle 在trainer_config下指定好test.list/train.list 后，dataprovider会：

将list内所有的“文件名“shuffle 一次
每次paddle内部会调用get_batch(or 类似的方法名)，会自动使用process函数，当filelist有多个文件的时候，process函数传入的变量(filename)将会不同。文件的选择是随机的，但是多文件读取中内部的逻辑对你是无感知的。process函数内只需要处理这个文件，下的内容即可。

studyPaddle · 2017-02-24T07:49:30Z

这样说是不是意味着.list文件中不能是多个文件？？？ @Z-TAO

helinwang · 2017-03-01T06:30:30Z

@studyPaddle 听Z-TAO的意思是可以.list文件中可以存多行，每一行是一个文件名吧？

将list内所有的“文件名“shuffle 一次

* fix bart perf * update fastergeneration doc * add img * add img * change img * update img * fix img * update docs * fix readme * update readme * fix perf * fix perf * fix modelling * fix perf and sample code * fix perf * fix perf * fix seq_len for gpt_sample * add forced eos token id for faster * upgrade perf and add forced eos token id * chenge stack to gather * add auto perf * minor fix * remove encoder change * Update bart_perf.py * Update bart_perf.py

xinghai-sun closed this as completed Aug 2, 2017

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Dataprovider #1395

Dataprovider #1395

studyPaddle commented Feb 21, 2017

helinwang commented Feb 23, 2017

Z-TAO commented Feb 23, 2017

studyPaddle commented Feb 24, 2017

helinwang commented Mar 1, 2017

Dataprovider #1395

Dataprovider #1395

Comments

studyPaddle commented Feb 21, 2017

Define a py data provider

helinwang commented Feb 23, 2017

Z-TAO commented Feb 23, 2017

studyPaddle commented Feb 24, 2017

helinwang commented Mar 1, 2017