Ce cours fait partie du module Information dispensé dans le cadre du DU ISN, en 2ème année.
L’objectif de ce module est de découvrir les bases de la recherche d’information, les modèles simples de recherche d’information, et d’en implémenter un en Python. Ce cours est composé de 3 séances de cours et 3 séances de travaux pratiques.
Cours
Travaux Pratiques
Objectifs des séances
Ces trois séances ont pour objectif de développer un petit moteur de recherche avec le modèle vectoriel. Le développement se fera en Python.
Le déroulé des séances dépendra de l’avancement de chaque groupe. Les étapes du développement sont décrites dans ces diapos.
Les fichiers Python à télécharger :
-
Archive contenant la collection de documents (tar xvvf pour décompresser l’archive)
-
Squelette du programme (disponible sur demande si vous êtes perdus !)
Environnement de développement
PyCharm est un environnement de développement facile à utiliser.
Nous utiliserons Python 3.7.
Pour manipuler le texte, nous utiliserons aussi la librairie python NLTK. Pour l’installer et importer les packages utiles aux TPs, suivez les étapes suivantes :
Si vous n’utilisez pas PyCharm :
-
Dans un terminal, lancez la commande pip install --user nltk
-
Dans un terminal, lancez python
-
Tapez la commande import nltk
-
Tapez la commande nltk.download()
-
Depuis l’onglet All packages, sélectionnez punkt et snowball_data
Si vous utilisez PyCharm :
-
Dans les préférences, choisissez dans le menu déroulant de gauche votre projet>Project interpreter. Cliquez sur le "+" en bas de la fenêtre et sélectionnez nltk puis "install package"
-
Dans la console python de pycharm (Tools>Python Console)
-
Tapez la commande import nltk
-
Tapez la commande nltk.download()
-
Depuis l’onglet All packages, sélectionnez punkt et snowball_data
Bibliographie
Contact
Lorraine Goeuriot - lorraine -point- goeuriot -at- imag -point- fr
COVID-19 - je peux me rendre disponible à la demande en audio/visio pour répondre aux questions