-
Notifications
You must be signed in to change notification settings - Fork 2.9k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
ctc_decoder的一些问题 #376
Comments
hi, @fanlu 谢谢你的反馈。你的两个问题,回答如下: 1)我们还没有在mac上测试过decoder的编译,在mac上使用,你可以试用下docker镜像paddlepaddle/models:deep-speech-2,其中所有的依赖已经安装好,稍后会更新在README中; 2)decoder是兼容中文的,注意 Thanks! |
@kuke 恩, if (ext_scorer != nullptr &&
(c == space_id || ext_scorer->is_character_based())) {
PathTrie *prefix_toscore = nullptr;
// skip scoring the space
if (ext_scorer->is_character_based()) {
prefix_toscore = prefix_new;
} else {
prefix_toscore = prefix;
}
double score = 0.0;
std::vector<std::string> ngram;
ngram = ext_scorer->make_ngram(prefix_toscore);
score = ext_scorer->get_log_cond_prob(ngram) * ext_scorer->alpha;
log_p += score;
log_p += ext_scorer->beta;
} 我的理解是英文是空格分割的,当有空格的时候就可以算prefix的score了,而中文没有空格,所以任何时候都可以计算这个score,而且kenlm的score python 接口传入的中文参数是空格分割的,如 另外 |
@fanlu 你的理解部分正确,通常的中文语言模型是基于字符的,所以
|
@kuke 哦,是个||,我看过你写的py的版本,过于纠结空格忘了仔细看代码了,我的错,谢谢!也希望能跟python版本似的可以指定blank_id的位置。 |
这个应该是服务器的问题,目前服务器有60s的限制,请参考 #301 |
@fanlu python版的 |
@kuke 恩,应该是固定的。不过不能固定到0吗? |
@pkuyym 谢谢,搞定 |
@fanlu |
@kuke 因为我用别的框架训练的模型的blank_id是0,所以想让vocabulary的index从1开始,这个需要怎么改呢? |
@kuke 因为我用mxnet框架训练的模型的blank_id是0,所以想让vocabulary的index从1开始,这个需要怎么改呢? |
您好,此issue在近一个月内暂无更新,我们将于今天内关闭。若在关闭后您仍需跟进提问,可重新开启此问题,我们将在24小时内回复您。因关闭带来的不便我们深表歉意,请您谅解~感谢您对PaddlePaddle的支持! |
在编译使用中遇到了一些问题。
在swig目录中执行
sh setup.sh
,报了一个错最终安装成功了
但是执行
python -c "import swig_decoders"
还是报以下错误:@kuke 给了解决方案:
升级到3.0.12后问题解决。
但目前仍有两个问题:
ctc_beam_search_decoder.cpp
第122行,c == space_id
中文是没有空格的,怎么把语言模型的转移概率加进去呢?@kuke @lcy-seso
The text was updated successfully, but these errors were encountered: