Projets de recherche en analyse des réseaux
sociaux/Wiki's et de logiciel libre

 
 

L'enrichissement des données corporatives, à l'aide des données disponibles sur le Web, est un
domaine de recherche appliquée qui peut améliorer grandement les décisions d'entreprises et
donner un avantage stratégique considérable. Les
techniques d'analyses de contenu de sites Web,
de documents, de vidéos et de Wikis nécessitent 
l'utilisation d'infrastructures Big-Data et la maîtrise de techniques du domaine du linked-data. Voici les projets sur lesquels nous avons actuellement des travaux
en cours:

 

 

 


 

Moteur de statistiques


 
 

Ce projet a été proposé par Revelate qui est une startup Montréalaise spécialisée en
Big Data dans le domaine financier. Les clients typiques de Revelate sont des bourses,
des places de marché alternatifs (ATS) et des groupes de trading dans les institutions
financières. La plateforme peut également être utilisée par des départements de

conformité et des régulateurs.

 

              DÉFI  

 

Travaux sur des quantités massives de données boursières. Le premier objectif consiste à optimiser, mettre à l'échelle
et à généraliser, à l'aide de la technologie Scala/Spark, un prototype logiciel qui crée des statistiques boursières telles
que les courbes d'écart de prix. Le second objectif est de valider les résultats obtenus et s'assurer qu'il est facilement
possible d'ajouter de nouveaux estimateurs dans l'architecture proposée. À terme, un utilisateur pourra fournir lui-même
ses formules et le moteur de statistiques pourra lancer cette formule et lui présenter les résultats automatiquement.
Finalement, le troisième objectif de ce projet, est de créer un module d'analyse post exécution en ajoutant les statistiques
pertinentes liées à l'exécution (c.-à-d. volumes, spreads et volatilité réalisés, glissement, profils d'exécution, etc.)
au moteur de statistiques.


 

             CE QUE NOUS AVONS FAIT  
 
 



 

Cette figure présente la première version du prorotype. Cette première preuve de concept, de génération de
formules statistiques a implanté un parser, à l'aide de «scala.util.parser.combinator», qui crée une grammaire
mathématique et permet d'exprimer syntaxiquement les éléments des formules statistiques. Il sera donc
possible d'utiliser ce parser, à l'aide d'une interface utilisateur, pour qu'un utilisateur construise ou adapte une
formule lui même.

Dans la seconde itération, nous avons développé le code Scala et les RDDs pour effectuer quatres formules
(Volume, VWAP, VWAS et GK) et nous les avons expérimenté, à grande échelle, sur une grappe Amazon.
Finalement, lors de a troisième itération, nous avons générer du code Latex, à partir de chaines de caractéres
Java (qui contiens une formule), et nous la représentons graphiquement de manière à ce que les utilisateurs
puissent les valider visuellement (voir figure ci-dessous):


          

            Screen-Shot-2016-12-07-at-1-53-16-PM.png
             Exemple de l'étude de la seconde itération des différentes configurations sur Amazon

Screen-Shot-2016-12-07-at-1-53-43-PM.png
            Exemple de l'étude de l'efficacité de la parallélisation des tâches Spark sur Amazon

 

              ÉQUIPE D'ÉTUDIANTS      Philippe Grenier-Vallée et Luiz Fernando Santos Pereira

 


              TECHNOLOGIES      Spark 2.0, Scala, Java, Scala Parser Combinators, JLatexmath, JSON, AWS EMR, Maven, BitBucket

 

Ce projet est réalisé sur Screen-Shot-2016-12-07-at-10-42-18-AM-(1).png

 

 

Analyse de texte d'un Wiki (projet en science ouverte)


Le processus de publication d'article est long, couteûx et souvent les résultats

sont privés. Le mouvement open data, récemment 
appuyé par l'Union Européenne,

vise à libéraliser ce processus. Le projet vise à permettre l'évolution d'un artcile

existant en ouvrant son contenu aux commentaires et changements de la


communauté d'intérêt et résultant ainsi en une oeuvre collective. 


              DÉFI  

  Offrir une plateforme permettant aux intervenants de discuter et effectuer des changements à un article déjà
publié. Plusieurs défis sont: qui va participer et proposer des changements. Comment gérer et accepter des
propositions de changements.Comment faire la différence entre des contributions mineures et majeures.
Comment reconaître la contribution des auteurs et identifier les contributeurs les plus influents/sérieux.

             CE QUE NOUS AVONS FAIT  

 

L'équipe du GRISOU a offert un WiKi (adaptation de MediaWiki) adapté à cette situation qui sera expérimenté,
par l'
IEEE Computer Society, lors d'un essai comportant 4 articles déjà publiés dans la revue 
IEEE Software.
L'objectif de cet essai est de voir comment adresser les défis et expérimenter cette nouvelle approche de publication
collaborative. Suite a cet essai, une publication spéciale de ce magazine fera état des résultats obtenus lors de
cette expérimentation.

Faites l'essai en utilisant le Wiki pour mettre à jour ou commenter une publication existante.

Screen-Shot-2017-04-28-at-6-39-13-AM.png

 


Amélioration de la précision des requêtes


              DÉFI  


 

Ce projet, vise l'amélioration de la précision des requêtes en ajoutant des techniques avancées de recherche
de documents. Google est le leader mondial du domaine avec son brevet de Machine Translation for Query
Expansion et ses techniques de snippets et de Statistical Machine Translation. Continuez le bon travail effectué
par M'hammed Oulaidi qui consistait à insérer un thésaurus multilingue, à l'aide de Ginco, qui améliore
la qualité des requêtes.  

 

 
              TECHNOLOGIES       MalletTextBlobCouchDBGoogle Translate APIWordNetNLTKStanford NLP parserSolr

 

 


Conversion vers les logiciels libres 

              DÉFI  

 

Le passage au logiciel libre, pas si facile que ça mais c'est possible. Suivez la dicussion sur le blogue de l'ÉTS.
L'entreprise devrait-elle renouveller ses licences Microsoft ou adopter Linux et ses logiciels de bureautique
OpenOffice? Quelle est la faisabilité et les coûts de migration autre que les seuls coûts des licences? Les projets
de recherche en logiciel libre visent à trouver le meilleur logiciel corresponsant au besoin et d'en étudier le projet
de conversion. (
vue d'ensemble de la problématique)

Guides de conversion vers le libre: Projet d'identification et de choix d'un logiciel libre de remplacement,
de la réalisation d'une analyse d'impact pour la migration, suivi de la réalisation d'un guide d'aide à la conversion


  - 
Exemple d'étude d'identification;

  - Étude des logiciels libres actuels pour 
supporter le développement logiciel