allenai · nelson-liu · Jan 26, 2019 · Jan 26, 2019 · Jan 26, 2019 · Jan 26, 2019
diff --git a/allennlp/models/language_model.py b/allennlp/models/language_model.py
@@ -1,4 +1,5 @@
 from typing import Dict, List, Tuple, Union
+import warnings
 
 import torch
 import numpy as np
@@ -74,6 +75,23 @@ class LanguageModel(Model):
     contextualizer: ``Seq2SeqEncoder``
         Used to "contextualize" the embeddings. As described above,
         this encoder must not cheat by peeking ahead.
+
+        .. deprecated:: 0.8.2
+           ``contextualizer`` was deprecated in version 0.8.2 . It was
+           replaced with two more flexible arguments: ``forward_contextualizer``
+           and ``backward_contextualizer``, in order to enable bidirectional
+           language modeling of contiguous text. It will be removed in version 0.10 .
+
+    forward_contextualizer: ``Seq2SeqEncoder``
+        Used to "contextualize" the embeddings for a forward-direction LM.
+        As described above, this encoder must not cheat by peeking ahead.
+    backward_contextualizer: ``Seq2SeqEncoder``
+        Used to "contextualize" the embeddings for a backward-direction LM.
+        The contextualizer should operate from left to right; the the order of the
+        text in the backward inputs is assumed to have been flipped (e.g., by your
+        DatasetReader). If provided, the size of its output must match that of
+        the ``forward_contextualizer``.
+        As described above, this encoder must not cheat by peeking ahead.
     dropout: ``float``, optional (default: None)
         If specified, dropout is applied to the contextualized embeddings before computation of
         the softmax. The contextualized embeddings themselves are returned without dropout.
@@ -91,7 +109,9 @@ class LanguageModel(Model):
     def __init__(self,
                  vocab: Vocabulary,
                  text_field_embedder: TextFieldEmbedder,
-                 contextualizer: Seq2SeqEncoder,
+                 contextualizer: Seq2SeqEncoder = None,
+                 forward_contextualizer: Seq2SeqEncoder = None,
+                 backward_contextualizer: Seq2SeqEncoder = None,
                  dropout: float = None,
                  num_samples: int = None,
                  sparse_embeddings: bool = False,
@@ -100,22 +120,98 @@ def __init__(self,
         super().__init__(vocab)
         self._text_field_embedder = text_field_embedder
 
-        if contextualizer.is_bidirectional() is not bidirectional:
+        # Only true when contextualizer is non-None and bidirectional is True
+        self._use_contextualizer_arg = False
+        if contextualizer is not None and (forward_contextualizer is not None or
+                                           backward_contextualizer is not None):
             raise ConfigurationError(
-                    "Bidirectionality of contextualizer must match bidirectionality of "
-                    "language model. "
-                    f"Contextualizer bidirectional: {contextualizer.is_bidirectional()}, "
-                    f"language model bidirectional: {bidirectional}")
-
-        self._contextualizer = contextualizer
+                    "Cannot provide both contextualizer and either "
+                    "forward_contextualizer or backward_contextualizer.")
+
+        if contextualizer is not None:
+            warnings.warn("``contextualizer`` was deprecated in version 0.8.2 . It was "
+                          "replaced with two more flexible arguments: "
+                          "``forward_contextualizer`` and ``backward_contextualizer``. "
+                          "It will be removed in version 0.10 .",
+                          DeprecationWarning)
+            if contextualizer.is_bidirectional() is not bidirectional:
+                raise ConfigurationError(
+                        "Bidirectionality of contextualizer must match bidirectionality "
+                        "of language model. "
+                        f"Contextualizer bidirectional: {contextualizer.is_bidirectional()}, "
+                        f"language model bidirectional: {bidirectional}")
+            if contextualizer.is_bidirectional():
+                warnings.warn(
+                        "When using a bidirectional contextualizer, it's crucial that "
+                        "the contextualizer does not cheat by looking ahead. For "
+                        "instance, if you're using a multi-layer bidirectional RNN "
+                        "here, the model is cheating because layers >= 2 use opposite "
+                        "direection inputs (a single-layer bidirectional RNN is "
+                        "thus fine). See the BidirectionalLanguageModelTransformer "
+                        "for an example of how to properly ensure that a multilayer "
+                        "bidirectional contextualizer doesn't inadvertently cheat, or "
+                        "provide values for the forward_contextualizer and "
+                        "backward_contextualizer arguments instead.")
+                self._use_contextualizer_arg = True
+            else:
+                # Unidirectional LM with unidirectional contextualizer, so just set
+                # forward_contextualizer to contextualizer.
+                forward_contextualizer = contextualizer
+                contextualizer = None
+            # If self._use_contextualizer_arg is True, this is non-None. Else, it is None.
+            self._contextualizer = contextualizer
+
+        # ``contextualizer`` logic handled, do error checking for
+        # forward_contextualizer and backward_contextualizer
+        if bidirectional and (forward_contextualizer is None or
+                              backward_contextualizer is None):
+            if not self._use_contextualizer_arg:
+                raise ConfigurationError(
+                        "LanguageModel bidirectional is True, but did not "
+                        "provide forward_contextualizer and backward_contextualizer. "
+                        f"Got forward_contextualizer: {forward_contextualizer} and "
+                        f"backward_contextualizer: {backward_contextualizer}")
+        if not self._use_contextualizer_arg and forward_contextualizer is None:
+            raise ConfigurationError(
+                    "The forward_contextualizer argument is required.")
+        if not bidirectional and backward_contextualizer is not None:
+            raise ConfigurationError(
+                    "LanguageModel bidirectional is False, so "
+                    "backward_contextualizer should not be provided."
+                    f"Got backward_contextualizer: {backward_contextualizer}")
+        # Ensure that forward_contextualizer and backward_contextualizer
+        # are unidirectional
+        if forward_contextualizer and forward_contextualizer.is_bidirectional():
+            raise ConfigurationError("forward_contextualizer should not be "
+                                     "bidirectional.")
+        if backward_contextualizer and backward_contextualizer.is_bidirectional():
+            raise ConfigurationError("backward_contextualizer should not be "
+                                     "bidirectional.")
+
+        self._forward_contextualizer = forward_contextualizer
+        self._backward_contextualizer = backward_contextualizer
         self._bidirectional = bidirectional
 
         # The dimension for making predictions just in the forward
         # (or backward) direction.
+        # They must be the same. TODO (nfliu): relax this assumption
         if self._bidirectional:
-            self._forward_dim = contextualizer.get_output_dim() // 2
+            if self._use_contextualizer_arg:
+                self._forward_dim = self._contextualizer.get_output_dim() // 2
+            else:
+                if (self._forward_contextualizer.get_output_dim() !=
+                            self._backward_contextualizer.get_output_dim()):
+                    raise ConfigurationError(
+                            "forward_contextualizer and backward_contextualizer "
+                            "must have the same output dimension. "
+                            "forward_contextualizer output dimension is "
+                            f"{self._forward_contextualizer.get_output_dim()}, while"
+                            "backward_contextualizer output dimension is "
+                            f"{self._forward_contextualizer.get_output_dim()}")
+                self._forward_dim = self._forward_contextualizer.get_output_dim()
         else:
-            self._forward_dim = contextualizer.get_output_dim()
+            # If bidirectional is False, self._use_contextualizer_arg is False.
+            self._forward_dim = self._forward_contextualizer.get_output_dim()
 
         # TODO(joelgrus): more sampled softmax configuration options, as needed.
         if num_samples is not None:
@@ -264,9 +360,34 @@ def forward(self,  # type: ignore
         embeddings = self._text_field_embedder(source)
 
         # Either the top layer or all layers.
-        contextual_embeddings: Union[torch.Tensor, List[torch.Tensor]] = self._contextualizer(
-                embeddings, mask
-        )
+        contextual_embeddings: Union[torch.Tensor, List[torch.Tensor]] = None
+        if self._use_contextualizer_arg:
+            contextual_embeddings = self._contextualizer(embeddings, mask)
+        else:
+            contextual_embeddings = self._forward_contextualizer(embeddings, mask)
+            if self._bidirectional:
+                backward_contextual_embeddings: Union[torch.Tensor, List[torch.Tensor]] = (
+                        self._backward_contextualizer(embeddings, mask))
+                # Concatenate the backward contextual embeddings to the
+                # forward contextual embeddings
+                if (isinstance(contextual_embeddings, list) and
+                            isinstance(backward_contextual_embeddings, list)):
+                    if len(contextual_embeddings) != len(backward_contextual_embeddings):
+                        raise ValueError("Contextualizers produced outputs of different lengths")
+                    for embedding_index, backward_embedding in enumerate(backward_contextual_embeddings):
+                        contextual_embeddings[embedding_index] = torch.cat(
+                                [contextual_embeddings[embedding_index], backward_embedding],
+                                dim=-1)
+                elif (isinstance(contextual_embeddings, torch.Tensor) and
+                      isinstance(backward_contextual_embeddings, torch.Tensor)):
+                    contextual_embeddings = torch.cat(
+                            [contextual_embeddings, backward_contextual_embeddings], dim=-1)
+                else:
+                    raise ValueError("forward and backward contextualizer returned "
+                                     "different types. Output of forward_contextualizer "
+                                     f"has type f{type(contextual_embeddings)}, while"
+                                     "output of backward_contextualizer has type"
+                                     f"f{type(backward_contextual_embeddings)}")
 
         return_dict = {}
 

diff --git a/allennlp/tests/fixtures/language_model/experiment_forward_backward.jsonnet b/allennlp/tests/fixtures/language_model/experiment_forward_backward.jsonnet
@@ -0,0 +1,21 @@
+local config = import "experiment_unsampled.jsonnet";
+
+config + {
+  "model"+: {
+    contextualizer :: super.contextualizer,
+    "forward_contextualizer": {
+        "type": "lstm",
+        "input_size": 16,
+        "hidden_size": 7,
+        "num_layers": 3,
+        "dropout": 0.1
+    },
+    "backward_contextualizer": {
+        "type": "gru",
+        "input_size": 16,
+        "hidden_size": 7,
+        "num_layers": 3,
+        "dropout": 0.1
+    }
+  }
+}
diff --git a/allennlp/tests/fixtures/language_model/experiment_unidirectional_forward.jsonnet b/allennlp/tests/fixtures/language_model/experiment_unidirectional_forward.jsonnet
@@ -0,0 +1,14 @@
+local config = import "experiment_unidirectional_unsampled.jsonnet";
+
+config + {
+  "model"+: {
+    contextualizer :: super.contextualizer,
+    "forward_contextualizer": {
+        "type": "lstm",
+        "input_size": 16,
+        "hidden_size": 7,
+        "num_layers": 3,
+        "dropout": 0.1
+    }
+  }
+}
diff --git a/allennlp/tests/fixtures/language_model/experiment_unsampled.jsonnet b/allennlp/tests/fixtures/language_model/experiment_unsampled.jsonnet
@@ -47,7 +47,7 @@
     "contextualizer": {
         "type": "lstm",
         "bidirectional": true,
-        "num_layers": 3,
+        "num_layers": 1,
         "input_size": 16,
         "hidden_size": 7,
     }

diff --git a/allennlp/tests/models/language_model_test.py b/allennlp/tests/models/language_model_test.py
@@ -50,9 +50,10 @@ def test_mismatching_contextualizer_unidirectionality_throws_configuration_error
         params = Params.from_file(self.param_file)
         # Make the contextualizer unidirectionality wrong - it should be
         # False to match the language model.
-        params["model"]["contextualizer"]["bidirectional"] = (not self.bidirectional)
-        with pytest.raises(ConfigurationError):
-            Model.from_params(vocab=self.vocab, params=params.get("model"))
+        if "contextualizer" in params["model"]:
+            params["model"]["contextualizer"]["bidirectional"] = (not self.bidirectional)
+            with pytest.raises(ConfigurationError):
+                Model.from_params(vocab=self.vocab, params=params.get("model"))
 
 class TestUnidirectionalLanguageModelUnsampled(TestUnidirectionalLanguageModel):
     def setUp(self):
@@ -77,8 +78,34 @@ def test_unidirectional_language_model_can_train_save_and_load(self):
         # they are not used.
         self.ensure_model_can_train_save_and_load(
                 self.param_file, gradients_to_ignore={
-                        "_contextualizer.feedforward_layer_norm_0.gamma",
-                        "_contextualizer.feedforward_layer_norm_0.beta"})
+                        "_forward_contextualizer.feedforward_layer_norm_0.gamma",
+                        "_forward_contextualizer.feedforward_layer_norm_0.beta"})
+
+class TestUnidirectionlLanguageModelForwardContextualizer(TestUnidirectionalLanguageModel):
+    def setUp(self):
+        super().setUp()
+
+        self.set_up_model(self.FIXTURES_ROOT / 'language_model' /
+                          'experiment_unidirectional_forward.jsonnet',
+                          self.FIXTURES_ROOT / 'language_model' / 'sentences.txt')
+
+    def test_unidirectional_no_forward_contextualizer_throws_configuration_error(self):
+        params = Params.from_file(self.param_file)
+        params["model"].pop("forward_contextualizer")
+        with pytest.raises(ConfigurationError):
+            Model.from_params(vocab=self.vocab, params=params.get("model"))
+
+    def test_unidirectional_with_backward_contextualizer_throws_configuration_error(self):
+        params = Params.from_file(self.param_file)
+        params["model"]["backward_contextualizer"] = {
+                "type": "gru",
+                "input_size": 16,
+                "hidden_size": 7,
+                "num_layers": 3,
+                "dropout": 0.1
+        }
+        with pytest.raises(ConfigurationError):
+            Model.from_params(vocab=self.vocab, params=params.get("model"))
 
 class TestBidirectionalLanguageModel(TestUnidirectionalLanguageModel):
     def setUp(self):
@@ -104,3 +131,38 @@ def setUp(self):
 
         self.set_up_model(self.FIXTURES_ROOT / 'language_model' / 'experiment_transformer.jsonnet',
                           self.FIXTURES_ROOT / 'language_model' / 'sentences.txt')
+
+class TestBidirectionalLanguageModelForwardBackward(TestBidirectionalLanguageModel):
+    def setUp(self):
+        super().setUp()
+
+        self.set_up_model(self.FIXTURES_ROOT / 'language_model' /
+                          'experiment_forward_backward.jsonnet',
+                          self.FIXTURES_ROOT / 'language_model' / 'sentences.txt')
+
+    def test_no_backward_contextualizer_throws_configuration_error(self):
+        params = Params.from_file(self.param_file)
+        # Remove the backward contextualizer, leaving only the forward
+        params["model"].pop("backward_contextualizer")
+        with pytest.raises(ConfigurationError):
+            Model.from_params(vocab=self.vocab, params=params.get("model"))
+
+    def test_bidirectional_backward_contextualizer_throws_configuration_error(self):
+        params = Params.from_file(self.param_file)
+        # Set bidirectional to true in backward
+        params["model"]["backward_contextualizer"]["bidirectional"] = True
+        with pytest.raises(ConfigurationError):
+            Model.from_params(vocab=self.vocab, params=params.get("model"))
+
+    def test_bidirectional_forward_contextualizer_throws_configuration_error(self):
+        params = Params.from_file(self.param_file)
+        # Set bidirectional to true in forward
+        params["model"]["forward_contextualizer"]["bidirectional"] = True
+        with pytest.raises(ConfigurationError):
+            Model.from_params(vocab=self.vocab, params=params.get("model"))
+
+    def test_bidirectional_contextualizer_mismatched_output_throws_configuration_error(self):
+        params = Params.from_file(self.param_file)
+        params["model"]["forward_contextualizer"]["hidden_size"] = 8
+        with pytest.raises(ConfigurationError):
+            Model.from_params(vocab=self.vocab, params=params.get("model"))