Installer et utiliser le framework d'extraction de DBpedia

Nous allons, dans ce tutoriel, installer et utiliser le framework de DBpedia afin d'extraire les données de Wikipédia en RDF et installer notre propre version de DBpedia en local.

Commentez

Article lu fois.

L'auteur

Julien Plu

L'article

Publié le 11 juillet 2013 - Mis à jour le 27 décembre 2015

Public visé : tout le monde

Durée : 2h

Version PDF Version hors-ligne

ePub, Azw et Mobi

Liens sociaux

I. Environnement▲

Cette installation s'est faite sous Ubuntu 14.04. Il est donc admis que vous utilisez la même distribution et que votre éditeur de texte par défaut est Vim.

Installez les prérequis avec la commande suivante :

Sélectionnez

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java7-installer maven git scala mysql-server apache2 php5 php-apc php5-mysql php5-gd

II. Schéma▲

III. Étape 1 : clonage du dépôt Git▲

Placez-vous à l'endroit où vous voulez cloner le dépôt. Ensuite faites :

Sélectionnez

git clone https://github.com/jplu/extraction-framework.git

Si vous ne précisez pas le dossier cible, un dossier nommé « extraction-framework » sera créé automatiquement. Pour la suite, je suppose que le dossier a ce nom par défaut dans votre home. Pour des raisons de simplicités, le dépôt est le mien. De cette façon, tout est déjà configuré pour l'extraction de la version française.

IV. Étape 2 : téléchargement des dumps▲

Une fois le dépôt cloné, il vous faut configurer le téléchargement des dumps. Pour cela, placez-vous dans le dossier ~/extraction-framework/dump, il sera supposé que vous restiez tout le temps placé dans ce dossier, et éditez le fichier download.minimal.properties pour qu'il ressemble à ceci :

Sélectionnez

base-url=http://dumps.wikimedia.org/
base-dir=/home/jplu/extraction-framework/dump/dumps
download=fr:pages-articles.xml.bz2
download=fr:@pages-articles\d+\.xml\.bz2
download=commons:pages-articles.xml.bz2
download=wikidata:pages-articles.xml.bz2
unzip=true
retry-max=5
retry-millis=10000

Pour base-dir, mettez le chemin qui vous convient. N'oubliez pas, par contre, de créer le dossier de destination que vous avez indiqué.

Une fois téléchargé, le dump sera placé dans ~/extraction-framework/dump/dumps/<nom_du_dump>/yyyymmdd/.

Dans le cas où vous utilisez un proxy pour vous connecter à Internet, il faut configurer Maven afin qu'il utilise votre proxy. Dans le fichier ~/.m2/settings.xml (s'il n'existe pas, créez-le) écrivez :

Sélectionnez

<settings>
    <proxies>
        <proxy>
              <active>true</active>
              <protocol>http</protocol>
              <host>proxy.somewhere.com</host>
              <port>XXXX</port>
              <username>proxyuser</username>
              <password>somepassword</password>
        </proxy>
    </proxies>
</settings>

Remplacez les valeurs des balises par les vôtres. Vous devrez aussi faire des modifications dans le fichier ~/extraction-framework/dump/pom.xml. Il faut décommenter les lignes suivantes :

Sélectionnez

<jvmArgs>
    <jvmArg>-server</jvmArg>
    <jvmArg>-Xmx1024m</jvmArg>
    <jvmArg>-Dhttp.proxyHost=proxy.somewhere.com</jvmArg>
    <jvmArg>-Dhttp.proxyPort=XXXX</jvmArg>
    <jvmArg>-Dhttp.proxyUser=user</jvmArg>
    <jvmArg>-Dhttp.proxyPassword=password</jvmArg>
    <!--&lt;jvmArg>-Dhttp.nonProxyHosts="localhost|127.0.0.1"</jvmArg>-->
</jvmArgs>

Remplacez les valeurs par les vôtres et ne gardez en commentaire que la dernière ligne, vous devez faire cela deux fois dans ce fichier. Vous pouvez maintenant lancer la commande :

Sélectionnez

../clean-install-run download config=download.minimal.properties

Il ne vous reste plus qu'à attendre que tout se télécharge et se compile avant de passer à l'étape suivante. Une fois cela fait, il vous faut télécharger manuellement deux autres fichiers :

un premier que vous placerez dans le dossier du dump Wikipédia ;
un second que vous placerez dans le dossier du dump Wikidata.

V. Étape 3 : installation de PHP, MySQL et Apache▲

Cette partie est réservée à l'installation de PHP, MySQL (et sa configuration) ainsi qu'Apache.

V-A. Configuration de MySQL▲

Lancez la commande suivante :

Sélectionnez

mysql -u root -p

Écrivez le mot de passe que vous avez donné lors de l'installation de MySQL. Nous allons créer le même utilisateur que celui de votre session. Par exemple, moi je me connecte sur ma machine avec l'utilisateur jplu, je donne donc le même nom pour l'utilisateur de MySQL. Pour cela, il faut créer l'utilisateur :

Sélectionnez

create user "userSession"@"localhost";

Ensuite, il faut donner un mot de passe à cet utilisateur :

Sélectionnez

SET password FOR "userSession"@"localhost" = password('mot_de_passe');

Pour des questions de sécurité, je vous encourage fortement à supprimer le fichier d'historique de MySQL se trouvant dans votre home juste après cette opération, puisqu'il est en clair dans la commande. Le fichier se nomme .mysql_history. Par contre, si vous quittez tout de suite après cette commande, attention à bien vous reconnecter avec l'utilisateur root et pas celui que l'on vient de créer, car cet utilisateur n'est pas encore administrateur et vous ne pourriez pas faire ce qui suit. Il faut maintenant accorder les droits d'administrateur à ce nouvel utilisateur :

Sélectionnez

grant all privileges on *.* to "userSession"@"localhost";

Dorénavant, pour vous connecter, vous n'avez plus besoin de préciser -u root, mais juste :

Sélectionnez

mysql -p

pour vous connecter à MySQL. Maintenant, passez à la configuration interne de MySQL. Lancez donc la commande :

Sélectionnez

sudo vim /etc/mysql/my.cnf

et modifiez certains paramètres.

Modifiez :

Sélectionnez

key_buffer = 16M

par :

Sélectionnez

key_buffer = 1G

Modifiez :

Sélectionnez

max_allowed_packet =    16M

par :

Sélectionnez

max_allowed_packet = 1G

Modifiez :

Sélectionnez

query_cache_size = 16M

par :

Sélectionnez

query_cache_size = 1G

Et rajoutez dans la section [mysqld] ces deux lignes afin d'avoir MySQL en UTF-8 par défaut :

Sélectionnez

character-set-server=utf8
skip-character-set-client-handshake

Pour que MySQL prenne en compte tous ces changements, vous devez le redémarrer :

Sélectionnez

sudo service mysql restart

Voilà, c'est tout pour MySQL.

V-B. Installation de MediaWiki▲

Pour cela, cloner le dépôt Git en lançant les commandes suivantes :

Sélectionnez

chown jplu:jplu -R /var/www/
git clone https://gerrit.wikimedia.org/r/p/mediawiki/core.git /var/www/mediawiki

Appropriez-vous le dossier et tout son contenu afin de pouvoir y faire le commit tout en laissant les droits d'exécution et de lecture à tout le monde. Maintenant, placez-vous dans /var/www/mediawiki pour que l'on puisse choisir d'installer la version release la plus récente présente sur le dépôt. Pour cela, exécutez la commande suivante afin de la trouver :

Sélectionnez

git branch -r | sort -V

Ensuite, dites à Git de l'utiliser :

Sélectionnez

git checkout -b wmf/<numéro de version> origin/wmf/<numéro de version>

Prenez de préférence la même version que Wikipédia à la date où a été fait le dump, par exemple à l'écriture de ces lignes c'est la version 1.24wmf12. Vous trouverez l'indication de la version au tout début du dump téléchargé, dans la balise <generator>. Maintenant, il faut installer MediaWiki. Pour cela, rendez-vous sur la page d'accueil et suivez les instructions que vous verrez :

1^re page : appuyez sur Continuer ;
2^e page : si à l'écran vous voyez que l'environnement a été vérifié, vous pouvez installer MediaWiki. Alors vous pouvez cliquer sur Continuer. Dans le cas contraire, vous avez mal effectué une des étapes précédentes ;
3^e page :
- Nom d'hôte de la base de données : localhost,
- Nom de la base de données : frwiki,
- Préfixe des tables de la base de données => laissez vide,
- Nom d'utilisateur de la base de données => laissez root,
- Mot de passe de la base de données : votre mot de passe d'un utilisateur root de MySQL,
- cliquez sur Continuer ;
4^e page : appuyez sur Continuer ;
5^e page :
- Nom du wiki : Wikipedia_fr,
- Espace de noms du projet : autre (préciser) => écrire Project,
- Votre nom : celui que vous voulez,
- Mot de passe : celui que vous voulez,
- Adresse de courriel : laissez vide,
- veillez bien à ce que le bouton radio Me poser davantage de questions soit bien coché,
- cliquez sur Continuer ;
6^e page :
- Profil des droits utilisateurs : laissez wiki ouvert,
- Droits d'auteur et licence : laissez « Aucune licence en bas de page »,
- décochez : « Activer les courriers électroniques d'utilisateur à utilisateur »,
- décochez : « Activer l'authentification par courriel »,
- décochez : « Activer les courriels sortants »,
- cochez : « Mise en cache des objets PHP (APC, XCache ou WinCache) »,
- cliquez sur Continuer ;
7^e page : cliquez sur Continuer.

Patientez durant le bref moment de l'installation. Une fois celle-ci terminée, il vous sera proposé un fichier LocalSettings.php en téléchargement. Téléchargez-le et placez-le dans /var/www/mediawiki. Vous pouvez maintenant vérifier que tout fonctionne bien en allant sur la page d'accueil du wiki.

VI. Étape 4 : importation dans MySQL▲

Il faut maintenant importer les résumés des articles contenus dans les dumps dans la base MySQL. Pour cela, replacez-vous dans ~/extraction-framework/dump, ouvrez le fichier pom.xml et modifiez juste la partie concernée pour qu'elle ressemble à ceci :

Sélectionnez

<launcher>
    <id>import</id>
    <mainClass>org.dbpedia.extraction.dump.sql.Import</mainClass>
    <jvmArgs>
        <jvmArg>-server</jvmArg>
    </jvmArgs>
    <args>
        <arg>/home/jplu/extraction-framework/dump/dumps</arg>
        <arg>/var/www/mediawiki/maintenance/tables.sql</arg>
        <arg>jdbc:mysql://localhost:3306/?characterEncoding=UTF-8&amp;user=myuser&amp;password=mypass</arg>
        <arg>true</arg>
        <arg>pages-articles.xml</arg>
        <arg>fr</arg>
    </args>
</launcher>

Tout en faisant bien attention à ne remplacer que ce qui doit l'être comme le jplu dans le premier argument, ainsi que les myuser et mypass dans la ligne du 3^e argument. Vous pouvez maintenant lancer l'importation :

Sélectionnez

../clean-install-run import

VII. Étape 5 : configuration de MediaWiki▲

Pour que le MediaWiki fonctionne bien avec l'outil d'extraction, il faut procéder à quelques changements dans son code source, mais rien de bien méchant. Ouvrez le fichier LocalSettings.php contenu à la racine de MediaWiki et ajoutez ce petit bout de code :

Sélectionnez

if ( !defined( 'MEDIAWIKI' ) ) {
    exit;
}

Sélectionnez

$languageCode = "fr";
$underscoreLanguageCode = str_replace('-', '_', $languageCode);

Juste après.

Remplacez :

Sélectionnez

$wgSitename = "Wikipedia_fr";

par :

Sélectionnez

$wgSitename = "Wikipedia_".$underscoreLanguageCode;

Puis :

Sélectionnez

$wgDBname = "frwiki";

par :

Sélectionnez

$wgDBname = $underscoreLanguageCode."wiki";

Enfin, rajoutez ceci à la fin du fichier :

Sélectionnez

require_once("$IP/extensions/Babel/Babel.php");
require_once("$IP/extensions/CategoryTree/CategoryTree.php");
require_once("$IP/extensions/CharInsert/CharInsert.php");
require_once("$IP/extensions/Cite/Cite.php");
require_once("$IP/extensions/ExpandTemplates/ExpandTemplates.php");
require_once("$IP/extensions/ImageMap/ImageMap.php");
require_once("$IP/extensions/InputBox/InputBox.php");
require_once("$IP/extensions/Interwiki/Interwiki.php");
require_once("$IP/extensions/Math/Math.php");
require_once("$IP/extensions/MwEmbedSupport/MwEmbedSupport.php");
require_once("$IP/extensions/TimedMediaHandler/TimedMediaHandler.php");
require_once("$IP/extensions/GeoData/GeoData.php");
require_once("$IP/extensions/MobileFrontend/MobileFrontend.php");
require_once("$IP/extensions/ParserFunctions/ParserFunctions.php");
require_once("$IP/extensions/Poem/Poem.php");
require_once("$IP/extensions/StringFunctionsEscaped/StringFunctionsEscaped.php");
require_once("$IP/extensions/SyntaxHighlight_GeSHi/SyntaxHighlight_GeSHi.php");
require_once("$IP/extensions/TextExtracts/TextExtracts.php");
require_once("$IP/extensions/timeline/Timeline.php");
require_once("$IP/extensions/wikihiero/wikihiero.php");
require_once("$IP/extensions/Scribunto/Scribunto.php");

Voilà qui en finit avec le fichier LocalSettings.php, il ne reste plus qu'à télécharger toutes les extensions que nous avons listées dans le dernier morceau de code PHP. Cela se fait de manière très simple, placez-vous dans le dossier extensions de MediaWiki, puis faites le clone de chaque dépôt Git correspondant dedans via cette commande :

Sélectionnez

git clone https://gerrit.wikimedia.org/r/p/mediawiki/extensions/<nom_de_l'extension>.git

Par la même occasion, assurez-vous que les extensions ont la même version que mediawiki, toujours avec la même commande git :

Sélectionnez

git checkout -b wmf/<numéro de version> origin/wmf/<numéro de version>

Une fois que vous avez téléchargé toutes les extensions, assurez-vous que le site et l'API fonctionnent correctement (pour la page d'accueil du wiki et de l'API). Cette dernière doit vous afficher la documentation de l'API, si elle ne s'affiche pas, c'est que vous avez fait une fausse manipulation quelque part dans la modification de MediaWiki et je vous encourage donc à relire cette partie. N'oubliez pas que normalement, l'interface du wiki est totalement inutile, seul le bon fonctionnement de l'API est nécessaire.

VIII. Étape 6 : extraction▲

VIII-A. Extraction du dump Wikipédia▲

La première partie de la dernière étape consiste à faire l'extraction des données du dump Wikipédia. Pour cela, il faut éditer le fichier ~/extraction-framework/dump/extraction.default.properties et y appliquer quelques changements. Votre fichier doit donc ressembler à ceci :

Sélectionnez

base-dir=/home/jplu/extraction-framework/dump/dumps
source=@pages-articles\\d+\\.xml
require-download-complete=true
languages=fr
extractors=.ArticleCategoriesExtractor,.ArticleTemplatesExtractor,.CategoryLabelExtractor,\
ExternalLinksExtractor,.GeoExtractor,.InfoboxExtractor,.InterLanguageLinksExtractor,.LabelExtractor,.PageIdExtractor,\
PageLinksExtractor,.RedirectExtractor,.RevisionIdExtractor,.ProvenanceExtractor,.SkosCategoriesExtractor,\
ArticlePageExtractor
extractors.fr=.MappingExtractor,.DisambiguationExtractor,.HomepageExtractor,.ImageExtractor,\
PndExtractor,.TopicalConceptsExtractor,.fr.PopulationExtractor
uri-policy.uri=uri:en; generic:en; xml-safe-predicates:*; reject-long:*
uri-policy.iri=generic:en; xml-safe-predicates:*; reject-long:*
format.nt.gz=n-triples;uri-policy.uri

Ensuite, toujours pareil, n'oubliez pas de remplacer jplu par votre valeur. Pour finir, lancez la commande de compilation et d'extraction :

Sélectionnez

../clean-install-run extraction extraction.default.properties

Une fois toutes ces extractions finies, il ne reste plus qu'à récupérer les extractions au même endroit que celui où vous avez placé les dumps Wikipédia. Elles sont sous la forme d'archives.

VIII-B. Extraction du dump Wikidata▲

L'autre partie de cette dernière étape consiste à faire l'extraction des données du dump Wikidata. Pour cela, il faut éditer le fichier ~/extraction-framework/dump/extraction.wikidata.properties et y appliquer quelques changements, le créer s'il n'existe pas. Votre fichier doit donc ressembler à ceci :

Sélectionnez

base-dir=/home/jplu/extraction-framework/dump/dumps
source=pages-articles.xml
require-download-complete=true
languages=wikidata
extractors=.WikidataFactsExtractor,.WikidataLLExtractor,.WikidataLabelExtractor,.WikidataMappedFactsExtractor,\
WikidataNameSpaceSameAsExtractor,.WikidataSameAsExtractor
uri-policy.uri=uri:en; generic:en; xml-safe-predicates:*; reject-long:*
uri-policy.iri=generic:en; xml-safe-predicates:*; reject-long:*
format.nt.gz=n-triples;uri-policy.uri

Ensuite, toujours pareil, n'oubliez pas de remplacer jplu par votre valeur. Pour finir, lancez la commande de compilation et d'extraction :

Sélectionnez

../clean-install-run extraction extraction.wikidata.properties

Comme pour l'extraction précédente, il ne reste plus qu'à récupérer les extractions au même endroit que celui où vous avez placé le dump Wikidata. Elles sont sous la forme d'archives.

IX. Extraction du Wiktionnaire français▲

IX-A. Téléchargement du dump▲

Cet outil vous permet aussi d'effectuer le même procédé avec le Wiktionnaire, c'est-à-dire téléchargement du dump et extraction. Tout d'abord, l'étape de téléchargement, placez-vous dans le dossier wiktionary et ouvrez le fichier download.properties :

Sélectionnez

wikiName=wiktionary
base-url=http://dumps.wikimedia.org/
base-dir=/home/jplu/extraction-framework/wiktionary/dumps
download=fr:pages-articles.xml.bz2
unzip=true
retry-max=5
retry-millis=10000

Toujours pareil, n'oubliez pas de changer l'emplacement de la variable base-dir. Puis lancez le téléchargement :

Sélectionnez

../clean-install-run download config=download.properties

IX-B. Extraction▲

Maintenant, la dernière étape, l'extraction de ce Wiktionnaire. Pour cela, ouvrez le fichier config.properties et vérifiez qu'il ressemble bien à ceci :

Sélectionnez

base-dir=/var/tmp/dumps
wikiName=wiktionary
languages=fr
source=pages-articles.xml
extractors=.WiktionaryPageExtractor
parser=sweble
uri-policy.iri=xml-safe-predicates:*
uri-policy.uri=uri:en; generic:en; xml-safe-predicates:*
format.nt=n-triples;uri-policy.uri

Toujours la même petite vérification qui est celle de bien contrôler l'emplacement de la variable base-dir, puis lancer l'extraction :

Sélectionnez

mvn scala:run

X. Conclusion▲

Ceci a été réalisé sur un serveur Intel Xeon E5640 avec 64 Go RAM. Il y a environ 6 100 000 pages analysées soit à peu près 0-1 milliseconde par page. Il se peut aussi que quelques extractions de pages échouent, cela est dû à de trop nombreuses erreurs d'écriture contenues dans la page.

XI. Remerciements▲

Merci à Claude Leloup, Malick SECK et Jacques THÉRY pour leur relecture orthographique.

Vous avez aimé ce tutoriel ? Alors partagez-le en cliquant sur les boutons suivants :

Les sources présentées sur cette page sont libres de droits et vous pouvez les utiliser à votre convenance. Par contre, la page de présentation constitue une œuvre intellectuelle protégée par les droits d'auteur. Copyright © 2013-2016 Julien Plu. Aucune reproduction, même partielle, ne peut être faite de ce site ni de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu'à trois ans de prison et jusqu'à 300 000 € de dommages et intérêts.