语义关联API的映射文档bug修改 (#6106)

* some format * add foreach
PaddlePaddle · Aug 23, 2023 · 9efc469 · 9efc469
1 parent 0f56242
commit 9efc469
Show file tree

Hide file tree

Showing 6 changed files with 24 additions and 12 deletions.
diff --git a/...l_convert/convert_from_pytorch/api_difference/optimizer/torch.optim.Adadelta.md b/...l_convert/convert_from_pytorch/api_difference/optimizer/torch.optim.Adadelta.md
@@ -4,10 +4,11 @@
 
 ```python
 torch.optim.Adadelta(params,
+             lr=1.0,
              rho=0.9,
              eps=1e-6,
-             lr=1.0,
              weight_decay=0,
+             foreach=None,
              maximize=False,
              differentiable=False)
 ```
@@ -31,10 +32,11 @@ Pytorch 相比 Paddle 支持更多其他参数，具体如下：
 | PyTorch                             | PaddlePaddle | 备注                                                                    |
 | ----------------------------------- | ------------ | ----------------------------------------------------------------------- |
 | params     | parameters           | 表示指定优化器需要优化的参数，仅参数名不一致。                         |
+| lr     | learning_rate       | 学习率，用于参数更新的计算。参数默认值不一致, Pytorch 默认为`1.0`， Paddle 默认为`0.001`，Paddle 需保持与 Pytorch 一致。                          |
 | rho     | rho           | 表示衰减速率。参数默认值不一致, Pytorch 默认为`0.9`， Paddle 默认为`0.95`，Paddle 需保持与 Pytorch 一致。                          |
 | eps       | epsilon        | 保持数值稳定性的短浮点类型值，仅参数名不一致。                           |
-| lr     | learning_rate       | 学习率，用于参数更新的计算。参数默认值不一致, Pytorch 默认为`1.0`， Paddle 默认为`0.001`，Paddle 需保持与 Pytorch 一致。                          |
 | weight_decay           | weight_decay     | 表示权重衰减系数，参数默认值不一致, Pytorch 默认为`0`， Paddle 默认为`None`，Paddle 需保持与 Pytorch 一致。         |
+| foreach           | -     | 是否使用优化器的 foreach 实现。Paddle 无此参数，一般对网络训练结果影响不大，可直接删除。         |
 | maximize           | -     | 根据目标最大化参数，而不是最小化。Paddle 无此参数，暂无转写方式。         |
 | differentiable      | -     | 是否应通过训练中的优化器步骤进行自动微分。Paddle 无此参数，一般对网络训练结果影响不大，可直接删除。         |
 | -          | grad_clip            | 梯度裁剪的策略。 PyTorch 无此参数，Paddle 保持默认即可。       |
diff --git a/...el_convert/convert_from_pytorch/api_difference/optimizer/torch.optim.Adagrad.md b/...el_convert/convert_from_pytorch/api_difference/optimizer/torch.optim.Adagrad.md
@@ -4,11 +4,12 @@
 
 ```python
 torch.optim.Adagrad(params,
-             lr=0.01,
+             lr=1e-2,
              lr_decay=0,
              weight_decay=0,
              initial_accumulator_value=0,
              eps=1e-10,
+             foreach=None,
              maximize=False,
              differentiable=False)
 ```
@@ -32,11 +33,12 @@ Pytorch 相比 Paddle 支持更多其他参数，具体如下：
 | PyTorch                             | PaddlePaddle | 备注                                                                    |
 | ----------------------------------- | ------------ | ----------------------------------------------------------------------- |
 | params     | parameters           | 表示指定优化器需要优化的参数，仅参数名不一致。                      |
-| lr     | learning_rate       | 学习率，用于参数更新的计算。参数默认值不一致, Pytorch 默认为`0.01`， Paddle 为必选参数，Paddle 需保持与 Pytorch 一致。                          |
+| lr     | learning_rate       | 学习率，用于参数更新的计算。参数默认值不一致, Pytorch 默认为`1e-2`， Paddle 为必选参数，Paddle 需保持与 Pytorch 一致。                          |
+| lr_decay           | -     | 学习率衰减系数。Paddle 无此参数，暂无转写方式。         |
 | weight_decay           | weight_decay     | 表示权重衰减系数，参数默认值不一致, Pytorch 默认为`0`， Paddle 默认为`None`，Paddle 需保持与 Pytorch 一致。         |
 | initial_accumulator_value   | initial_accumulator_value   | 表示 moment 累加器的初始值，参数完全一致。                       |
 | eps       | epsilon        | 保持数值稳定性的短浮点类型值，参数默认值不一致, Pytorch 默认为`1e-10`， Paddle 为`1e-6`，Paddle 需保持与 Pytorch 一致。                           |
-| lr_decay           | -     | 学习率衰减系数。Paddle 无此参数，暂无转写方式。         |
+| foreach           | -     | 是否使用优化器的 foreach 实现。Paddle 无此参数，一般对网络训练结果影响不大，可直接删除。         |
 | maximize           | -     | 根据目标最大化参数，而不是最小化。Paddle 无此参数，暂无转写方式。         |
 | differentiable      | -     | 是否应通过训练中的优化器步骤进行自动微分。Paddle 无此参数，一般对网络训练结果影响不大，可直接删除。       |
 | -          | grad_clip            | 梯度裁剪的策略。 PyTorch 无此参数，Paddle 保持默认即可。       |
diff --git a/...model_convert/convert_from_pytorch/api_difference/optimizer/torch.optim.Adam.md b/...model_convert/convert_from_pytorch/api_difference/optimizer/torch.optim.Adam.md
@@ -9,11 +9,11 @@ torch.optim.Adam(params,
                 eps=1e-08,
                 weight_decay=0,
                 amsgrad=False,
+                foreach=None,
                 maximize=False,
                 capturable=False,
                 differentiable=False,
-                fused=None,
-                name=None)
+                fused=None)
 ```
 
 ### [paddle.optimizer.Adam](https://www.paddlepaddle.org.cn/documentation/docs/zh/develop/api/paddle/optimizer/Adam_cn.html)
@@ -26,8 +26,10 @@ paddle.optimizer.Adam(learning_rate=0.001,
                     parameters=None,
                     weight_decay=None,
                     grad_clip=None,
-                    name=None,
-                    lazy_mode=False)
+                    lazy_mode=False,
+                    multi_precision=False,
+                    use_multi_tensor=False,
+                    name=None)
 ```
 
 Pytorch 相比 Paddle 支持更多其他参数，具体如下：
@@ -42,9 +44,12 @@ Pytorch 相比 Paddle 支持更多其他参数，具体如下：
 | eps       | epsilon        | 保持数值稳定性的短浮点类型值。仅参数名不一致。                           |
 | weight_decay           | weight_decay     | 表示权重衰减系数，参数默认值不一致, Pytorch 默认为`0`， Paddle 默认为`None`，Paddle 需保持与 Pytorch 一致。         |
 | amsgrad   | -    | 是否使用该算法的 AMSGrad 变体。Paddle 无此参数，暂无转写方式。                       |
+| foreach           | -     | 是否使用优化器的 foreach 实现。Paddle 无此参数，一般对网络训练结果影响不大，可直接删除。         |
 | maximize           | -     | 根据目标最大化参数，而不是最小化。Paddle 无此参数，暂无转写方式。         |
 | capturable           | -     | 在 CUDA 图中捕获此实例是否安全。Paddle 无此参数，一般对网络训练结果影响不大，可直接删除。         |
 | differentiable      | -     | 是否应通过训练中的优化器步骤进行自动微分。Paddle 无此参数，一般对网络训练结果影响不大，可直接删除。         |
 | fused      | -     | 是否使用融合实现（仅限 CUDA）。Paddle 无此参数，一般对网络训练结果影响不大，可直接删除。         |
 | -          | grad_clip            | 梯度裁剪的策略。 PyTorch 无此参数，Paddle 保持默认即可。       |
 | -          | lazy_mode            | 设为 True 时，仅更新当前具有梯度的元素。PyTorch 无此参数，Paddle 保持默认即可。       |
+| -          | multi_precision            | 是否在权重更新期间使用 multi-precision。PyTorch 无此参数，Paddle 保持默认即可。       |
+| -          | use_multi_tensor            | 是否使用 multi-tensor 策略一次性更新所有参数。PyTorch 无此参数，Paddle 保持默认即可。       |
diff --git a/...odel_convert/convert_from_pytorch/api_difference/optimizer/torch.optim.AdamW.md b/...odel_convert/convert_from_pytorch/api_difference/optimizer/torch.optim.AdamW.md
@@ -10,6 +10,7 @@ torch.optim.AdamW(params,
                 weight_decay=0.01,
                 amsgrad=False,
                 maximize=False,
+                foreach=None,
                 capturable=False,
                 differentiable=False,
                 fused=None)
@@ -45,6 +46,7 @@ Pytorch 相比 Paddle 支持更多其他参数，具体如下：
 | weight_decay           | weight_decay     | 表示权重衰减系数。参数名和默认值均一致。         |
 | amsgrad   | -    | 是否使用该算法的 AMSGrad 变体。Paddle 无此参数，暂无转写方式。                       |
 | maximize           | -     | 根据目标最大化参数，而不是最小化。Paddle 无此参数，暂无转写方式。         |
+| foreach           | -     | 是否使用优化器的 foreach 实现。Paddle 无此参数，一般对网络训练结果影响不大，可直接删除。         |
 | capturable           | -     | 在 CUDA 图中捕获此实例是否安全。Paddle 无此参数，一般对网络训练结果影响不大，可直接删除。         |
 | differentiable      | -     | 是否应通过训练中的优化器步骤进行自动微分。Paddle 无此参数，一般对网络训练结果影响不大，可直接删除。    |
 | fused      | -     | 是否使用融合实现（仅限 CUDA）。Paddle 无此参数，一般对网络训练结果影响不大，可直接删除。       |

diff --git a/...del_convert/convert_from_pytorch/api_difference/optimizer/torch.optim.Adamax.md b/...del_convert/convert_from_pytorch/api_difference/optimizer/torch.optim.Adamax.md
@@ -8,6 +8,7 @@ torch.optim.Adamax(params,
                 betas=(0.9, 0.999),
                 eps=1e-08,
                 weight_decay=0,
+                foreach=None,
                 maximize=False,
                 differentiable=False)
 ```
@@ -36,7 +37,7 @@ Pytorch 相比 Paddle 支持更多其他参数，具体如下：
 | betas     | beta1、beta2       | 一阶矩估计的指数衰减率。Pytorch 为元祖形式，Paddle 为分开的两个参数。默认值分别一致。                          |
 | eps       | epsilon        | 保持数值稳定性的短浮点类型值，参数默认值不一致, Pytorch 默认为`1e-10`， Paddle 为`1e-6`，Paddle 需保持与 Pytorch 一致。    |
 | weight_decay           | weight_decay     | 表示权重衰减系数，参数默认值不一致, Pytorch 默认为`0`， Paddle 默认为`None`，Paddle 需保持与 Pytorch 一致。         |
-| lr_decay           | -     | 学习率衰减系数。Paddle 无此参数，暂无转写方式。         |
+| foreach           | -     | 是否使用优化器的 foreach 实现。Paddle 无此参数，一般对网络训练结果影响不大，可直接删除。         |
 | maximize           | -     | 根据目标最大化参数，而不是最小化。Paddle 无此参数，暂无转写方式。         |
 | differentiable      | -     | 是否应通过训练中的优化器步骤进行自动微分。Paddle 无此参数，一般对网络训练结果影响不大，可直接删除。      |
 | -          | grad_clip            | 梯度裁剪的策略。 PyTorch 无此参数，Paddle 保持默认即可。       |
diff --git a/...el_convert/convert_from_pytorch/api_difference/optimizer/torch.optim.RMSprop.md b/...el_convert/convert_from_pytorch/api_difference/optimizer/torch.optim.RMSprop.md
@@ -4,7 +4,7 @@
 
 ```python
 torch.optim.RMSprop(params,
-                lr=0.001,
+                lr=0.01,
                 alpha=0.99,
                 eps=1e-08,
                 weight_decay=0,
@@ -35,7 +35,7 @@ Pytorch 相比 Paddle 支持更多其他参数，具体如下：
 | PyTorch                             | PaddlePaddle | 备注                                                                    |
 | ----------------------------------- | ------------ | ----------------------------------------------------------------------- |
 | params     | parameters           | 表示指定优化器需要优化的参数，仅参数名不一致。                      |
-| lr     | learning_rate       | 学习率，用于参数更新的计算。Pytorch 默认为`0.001`，Paddle 无默认值，Paddle 需保持与 Pytorch 一致。          |
+| lr     | learning_rate       | 学习率，用于参数更新的计算。Pytorch 默认为`0.01`，Paddle 无默认值，Paddle 需保持与 Pytorch 一致。          |
 | alpha     | rho       | 平滑常数。参数默认值不一致, Pytorch 默认为`0.99`，Pytorch 默认为`0.95`，Paddle 需保持与 Pytorch 一致。     |
 | eps       | epsilon        | 保持数值稳定性的短浮点类型值。参数默认值不一致, Pytorch 默认为`1e-08`，Pytorch 默认为`1e-06`，Paddle 需保持与 Pytorch 一致。  |
 | weight_decay           | weight_decay     | 表示权重衰减系数。参数默认值不一致, Pytorch 默认为`0`， Paddle 默认为`None`，Paddle 需保持与 Pytorch 一致。         |