Sprint | Échéance | Tâche |
---|---|---|
n°1 | 03/10 | Indexation v0 : workflow simple (modèle vectoriel) |
n°2 | 07/10 | Moteur RI (non perso), exploration données, début tâche suivante |
-
Compréhension du sujet
- Indexation des commentaires et plus
- Finalités :
- Réponses personnalisée à des requêtes
- Accès rapide aux features pour l'apprentissage
-
Organisation générale
- Deux sprints par semaine
- Coordination avec les autres groupes : à faire
-
Objectifs identifiés
- Exploration des données (structure) + réalisation d'un sample
- Réalisation d'un workflow simple (indexation des commentaires)
- Modèle vectoriel (TFxIDF)
- PyLucene
- Confirmation de la démarche de gestion de projet
-
Tâches
- Création d'un échantillon des données
- Création d'un premier index (terms -> comments)
- Reflexion : quels index réaliser pour le sprint 2 ?
-
Identification issues
- Déploiement (moteur d'accès) -> interfaçage avec les autres groupes
- Première discussion avec les autres groupes (pas de réponses)
- Technos (pylucene) -> libre
- Gestion données temporelles -> indexées en tant que méta-données du document
- Déploiement (moteur d'accès) -> interfaçage avec les autres groupes
- Tâches
- Exploration des données
- Indexation sur Osirim
- Modèles vectoriels, probabilistes, de langue
- Reordonnancement des résultats selon 'ups' (non personnalisé)
-
Tâches
- Concertation concernant l'interfaçage avec les autres groupes
- Construction d'un profil utilisateur basique
- Mise en place d'un modèle prédictif basique
-
Problèmes
- Représentation partagée entre commentaires et concepts ODP ?
- Comment utiliser l'ensemble des données (commentaire à prédire + reste du thread/subreddit ?) pour la prédiction ?
- Comment évaluer la pertinence d'un document ? Quelle est la vérité terrain ? Les requêtes types ?
- Si on utilise le score pour évaluer la pertinence, on ne peut plus s'en servir pour évaluer la performance du système...
- Tâches
- Requêtes personnalisées (reformulation de requête considérant le profil basique)
- Évaluation système : requêtes aléatoires + présentation résultats
- Tâches
- Mise en place du protocole d'évaluations des features
- Lancement de l'indexation sur la plateforme osirim
- Etudes des représentations vectorielles de documents (embeddings)