Aller au contenu principal

Exploitation facile des données de l'API en Python

J'ai crée un client python "s4gpy" qui permet d'exploiter les résultats de l'API de façon plus simple, directement en python ou d'exploiter un export CSV à l'aide d'outils externes. Vous pouvez consulter la documentation sur ReadTheDoc

Exemple

exemple s4gpy
Extraction personnalisée de données de l'API en CSV

Finalité

La finalité est d'utiliser une approche de process mining (vidéo tuto ici) enseigné en M2 MIAGE IKSEM et S2I pour valider et invalider certaines hypothèses:

  • Les programmes "prime-space" de netflix sont-ils ceux qui sont proposés dans le "prime-time" en direct (M2moire de Matthieu)?
  • Quand le parcours d'un utilisateur YouTube peut-il être considéré comme autoréalisateur (Mémoire de Léna)?

Ce client permet également aux développeurs des robots d'interagir plus facilement avec l'API.

Et après?

N'hésitez pas à forker le dépôt ou ouvrir des issues si vous souhaitez collaborer sur de nouvelles fonctionnalités de ce client

Déploiement, orchestration & sécurisation des APIs

Dans le cadre du cours de veille technologique et du projet commun de M1 notre groupe effectue un benchmark de plusieurs solutions pour le déploiement, l'orchestration et la sécurisation des APIs utilisées par stream4good.
Après un audit de l’existant nous tâcherons de présenter plusieurs scénarios qui feront l’objet de POCs pour déterminer les technologies les plus pertinentes qui seront ensuite implémentées dans un contexte de production.

Ce projet sera pour nous l'occasion de travailler sur les outils d'orchestrations (eg. Kubernetes, OpenShift...), de routage (eg. Traefik) et de sécurisation d'APIs (Keycloak, Let's Encrypt...).

 

Architecture actuelle d'accès aux APIs
Architecture actuelle d'accès aux APIs

 

Récupération des data Youtube

Bonjour à tous,

Dans le cadre du mémoire de Léna Albert (M2), nous devons développer un outil permettant de récolter différentes informations sur YouTube et de les mettre à disposition de tous.

Après discussion, notre travail se segmente en 2 parties.

Afin d'avoir une meilleure visualisation de notre démarche de développement, voici le diagramme de notre partie 1:

diagramme-p1

 

Nous avons robot qui simule un utilisateur lambda. Dans un cas simple, il va sur la page d'accueil de YouTube puis une extraction des data thumbnails (video_id) se met en place qui par la suite seront envoyées à notre API afin que cette dernière insère les données dans la database.

Voici le diagramme de notre partie 2:

diagramme-p2

Concernant cette 2e partie, le but est interrogé l'API YouTube afin de récupérer des informations précises concernant les videos_id qu'on a récupérés dans notre 1re partie.

Par ailleurs, nos choix techniques se sont portées sur les méthodes/langages suivants:

Robot: Selinenium/Python

Plugin: Chrome/JavaScript

API - Platform: API Platform (Symfony)/PHP

Scrapping: Selinenium/PHP

Database: phpmyadmin/MYSQL

Raspberry Fleet & Scraping Netflix

This is Raspberry-one, do you copy?
5/5 Rasp-one what’s the situation?

Bonjour à tous,

Nous sommes l’équipe chargée de récolter des données de Netflix et Youtube à travers le monde via des Raspberry PI.

En collaboration avec nos collègues, ceux-là contiendront les éléments (programmes et extensions) nécessaires à l’extraction des données. Celle-ci sera mise en place notamment avec des programmes robots (exécutés en parallèle) chargés d’automatiser l’expérience utilisateur sur ces plateformes.

D’ailleurs, la collecte de ces données se fera via un Dashboard ergonomique regroupant toutes les informations que chaque appareil aura acquises. Ce dernier permettra également de gérer la flotte de Raspberry qui se fera de manière sécurisée (en SSH et en exploitant la redirection des ports si le réseau empêche ce dernier).

Pour se faire et afin d’être plus performant ainsi que productif, nous prévoyons d’utiliser dans un premier temps un gestionnaire de flotte. Puis une fois le serveur ovh opérationnel, nous mettrons en place sur ces derniers l’interface d’Ansible Tower ainsi que les playbooks nécessaires. Ces dernières manipulations nous permettraient de gérer notre flotte par nos propres moyens.

Scrapping du Direct de Netflix

prime time

J'ai publié un nouveau dépôt sur le github de l'organisation "stream-for-good"  (me contacter si vous voulez que je vous y rajoute)

Ce dépôt montre comment procéder au scrapping (ou capture des données) des programmes en direct de Netflix. Pour cela, j'utilise Selenium en Python et le driver web du navigateur Chrome.

Une fois les étapes de connexion et le selection de la page du direct passé, le contenu aspiré et  envoyé dans l'API de consommation, et peut être accédé au travers de l'API  dataviz.

Objectif: prime-space vs prime-time

Ces données permettront de voir si les contenus de la programmation directe de netflix, qui répondent à une problématique de "prime-time", correspondent également à celui du supposé "prime-space" de l'algorithme de recommandation.

Ce Scrapping n'est possible uniquement qu'à partir d'un compte Netflix et d'une IP "privée" (c'est à dire pas un serveur sur le cloud). Il est donc nécessaire d'exécuter ce robot sur un microsystème en cours de développement par les équipes L3 Class et L3 App B.

Netflix fait-il la promotion de la diversité des contenus?

Pour mon mémoire de M2, j'ai choisi de m'intéressé à la promotion de diversité des contenus par la plateforme de streaming vidéo Netflix. 

Ainsi, mes fils directeurs sont les suivants: Quel est le rôle du système de recommandation de Netflix dans la diversité des contenus? Il s'agit ici de s'intéresser à l'historique de la plateforme et des systèmes de recommandation.

Quelle sera la stratégie la plus efficace pour améliorer la diversité de contenus? Pour répondre à cette question, nous allons prendre en compte certains critères et effectuer une comparaison entre notre algorithme et celui de Netflix.

Enfin, dans quelle mesure est-il souhaitable pour Netflix d’améliorer son système de recommandation? Et ici, il s'agit entre autre questionner le modèle économique de Netflix.

 

YouTube promeut-il les théories du complot ?

YouTube, comme la plupart des réseaux sociaux cherche à maximiser l'engagement de l'utilisateur et le temps passé sur la plateforme afin de générer des revenus. Pour YouTube, cela se traduit par la mise en avant de contenus sensationnels. Outre sa place de réseau social, YouTube tient aussi lieu de moyen d'information pour de nombreux utilisateurs.

Récemment, YouTube a été accusé de mettre en avant du contenu conspirationniste et complotiste. Face à ces accusations, YouTube a annoncé avoir modifié l'algorithme de recommandation afin de limiter le visionnage de ce type de vidéos. Notre recherche s'intéresse alors à si les actions mises en place par YouTube sont suffisantes pour limiter la prolifération de ces vidéos. Cette partie de la recherche sera menée grâce à une extension installée sur le navigateur d'utilisateur réels afin de constater l'absence (ou non) de vidéos conspirationnistes. D'autre part les algorithmes de recommandation tendent à créer une bulle de filtre qui peut mener à un état d'isolation informationnelle. Si les mesures mises en place par YouTube sont suffisantes, il ne devrait pas être possible de créer une bulle de filtre conspirationnistes. Grâce à des bots nous allons chercher à créer une bulle de filtre conspirationnistes afin de valider ou invalider cette théorie. Un groupe témoin pourra éventuellement être mis en place pour comparer la possibilité de créer une bulle de filtre conspirationniste par rapport à une bulle de filtre autre.

Netflix met-il en avant le contenu Européen ? 

Actuellement étudiant en Master 2 MIAGE S2I en Alternance à la Sorbonne Paris 1, je prépare un mémoire avec comme principal sujet : Netflix et la découvrabilité. Après un mémoire état de l'art en Master 1 sur les solutions de cybersécurité en entreprise j'ai voulu traiter un sujet totalement différent. 

Sachant qu'en 2018 le Parlement Européen a voté une loi qui impose aux plateformes de SVOD de diffuser 30% de contenus issus de l'Union européenne, je m'interroge sur la faisabilité de la mise en place de solution pour répondre à une telle règle. Comment juger qu'un contenu européen est diffusé, est proposé, est mis en avant ? Peut-on appliquer une loi créée pour la télévision aux plateformes de service de vidéo à la demande ? La télévision possède les heures de prime time qui facilitent s'en doute le calcul. Mais comment mesurer la diffusion de contenu EU sur une plateforme ou le choix de visionnage appartient à l'utilisateur ? 

Ces travaux de recherches suivront de manière plus ou moins proche ceux de Grégoire Bideau, étudiant de l'Ecole des Medias et du Numérique de la Sorbonne, qui nous parle de la notion de prime space du SVOD qui est l'équivalent du prime time de la télévision. 

S'abonner à
x

A propos

Le projet Streaming for Good est piloté par par Nicolas Herbaut, Enseignant Chercheur à l'Université Paris 1 Panthéon Sorbonnet et au Centre de Recherche en Informatique.

Il est également associé à la Chaire Pluraliste Culturel et Ethique du Numérique

Equipe Scientifique

L'équipe scientifique, composée des étudiants de Master 2 IKSEM et Master 2 S2I.

  • Matthieu Porembski s'intéresse à la découvrabilité des oeuvres sur la plateforme Netflix
  • Léna Albert s'intéresse à la propagation des théories du complit sur la plateforme Youtube
  • Marie-Françoise Edroux s'intéresse à la diversité des contenus proposés sur la plateforme Netflix