Ce cours fait partie du module Information dispensé dans le cadre du DU ISN, en 2ème année.

L’objectif de ce module est de découvrir les bases de la recherche d’information, les modèles simples de recherche d’information, et d’en implémenter un en Python. Ce cours est composé de 3 séances de cours et 3 séances de travaux pratiques.

Cours

Travaux Pratiques

Objectifs des séances

Ces trois séances ont pour objectif de développer un petit moteur de recherche avec le modèle vectoriel. Le développement se fera en Python.

Le déroulé des séances dépendra de l’avancement de chaque groupe. Les étapes du développement sont décrites dans ces diapos.

Les fichiers Python à télécharger :

Environnement de développement

PyCharm est un environnement de développement facile à utiliser.

Nous utiliserons Python 3.7.

Pour manipuler le texte, nous utiliserons aussi la librairie python NLTK. Pour l’installer et importer les packages utiles aux TPs, suivez les étapes suivantes :

Si vous n’utilisez pas PyCharm :

  • Dans un terminal, lancez la commande pip install --user nltk

  • Dans un terminal, lancez python

  • Tapez la commande import nltk

  • Tapez la commande nltk.download()

  • Depuis l’onglet All packages, sélectionnez punkt et snowball_data

Si vous utilisez PyCharm :

  • Dans les préférences, choisissez dans le menu déroulant de gauche votre projet>Project interpreter. Cliquez sur le "+" en bas de la fenêtre et sélectionnez nltk puis "install package"

  • Dans la console python de pycharm (Tools>Python Console)

  • Tapez la commande import nltk

  • Tapez la commande nltk.download()

  • Depuis l’onglet All packages, sélectionnez punkt et snowball_data

Bibliographie

Contact

Lorraine Goeuriot - lorraine -point- goeuriot -at- imag -point- fr

COVID-19 - je peux me rendre disponible à la demande en audio/visio pour répondre aux questions