Etapes du projet

Les étapes de sa réalisation, qui sont détaillées plus avant ici, sont les suivantes :

Exploration des dimensions du jeu de données

Une fois les différents jeux de données fusionnés, les dimensions sont les suivantes : 445 969 lignes comprenant chacune un commentaire, et 14 variables :

1 comment_id : référence unique d’un commentaire d’un utilisateur Reddit
2 author : utilisateur Reddit auteur du commentaire
3 timestamp : permet d’horodater le commentaire
4 txt : contenu du commentaire
5 flair_text : catégorie du commentaire (politique, humour etc)
6 url : lien pris en référence par l’auteur d’une soumission (submission)
7 depth : profondeur du commentaire dans le fil de discussion
8 parent_ comment_id : référence unique du commentaire parent du commentaire d’un utilisateur Reddit - permet de chaîner les commentaires entre eux
9 parent commentauthor : utilisateur Reddit auteur du commentaire parent
10 submission_id : premier commentaire ouvrant un fil de discussion
11 submission_author : auteur du premier commentaire ouvrant un fil de discussion
12 submission_title : titre du premier commentaire ouvrant un fil de discussion
13 permalink : lien permanent pris en référence par le premier commentaire ouvrant un fil de discussion càd : l’utilisatuer Reddit prend par exemple un article de presse, un dessin, une photo, une vidéo en référence externe à Reddit pour la commenter dans le réseau Reddit
14 score : score associé au commentaire, résultat d’un upvote ou un downvote des utilisateurs Reddit - ce champ revêt une importance particulière pour notre recherche.

On a cependant retravaillé certains champs : - on a supprimé les lignes dont le flair text ou submission id sont inconnus car ils sont inclassables ou inchaînables (31 346 enregistrements concernés) ; - pour conserver le maximum de matière sociologique on a passé à ‘inconnu’ (mais qui deviennent donc manipulables sociologiquement et informatiquement) les champs Null des variables submission title, submission author, parent comment author, author et txt.

Découverte du modèle de données

Le modèle de données, inféré à partir du jeu de données (peu de documentation pertinente en ligne), est le suivant :

Sélection des flairs pertinents pour l’étude

On a retenu les flairs Politique, Société et News. Bien qu’intéressant en termes de nombre de commentaires, le forum libre paraît beaucoup plus hétéroclite en matière de contenus.

Intensité quotidienne des messages

Les dynamiques de commentaires postés révèlent que le réseau Reddit sur le flair Politique (ou en tout cas ce qui résulte de la collecte de données) a été actif de janvier à mai 2017, ce qui correspond à la campagne présidentielle, avec des fronts d’intensité croissants jusqu’au deuxième tour.

Le nombre de posts est calculé sur une plage de 24 heures, jour après jour.

Dans la figure suivante, on ne représente que les fils de discussion nouveaux apparaissant jour après jour :