Logiciel

Je prends le développement du logiciel sérieusement. On peut trouver la plupart de mes contributions logicielles sur GitHub.

Contributions choisies:

  • La librairie Ada est peut-être le parseur d’URL le plus rapide au monde. Ada a amélioré la performance du populaire environnement JavaScript Node.js: > “Since Node.js 18, a new URL parser dependency was added to Node.js — Ada. This addition bumped the Node.js performance when parsing URLs to a new level. Some results could reach up to an improvement of 400%. As a regular user, you may not use it directly. But if you use an HTTP server then it’s very likely to be affected by this performance improvement.” (State of Node.js Performance 2023)
  • simdutf : opérations Unicode plusieurs fois plus rapides que les fonctions conventionnelles.
  • fast_float: lecture des nombres à virgule flottante 4 fois plus rapidement que les fonctions conventionnels (strtod).
  • simdjson: le premier parseur JSON capable d’atteindre des vitesses de plusieurs gigaoctets par seconde, avec validation complète en utilisant un seul coeur. La librairie simdjson est utilisée par Facebook, par Shopify, par Intel, par Microsoft, par Apache Doris et par plusieurs autres systèmes importants.
  • Les bitmaps Roaring ont été largement adoptés : Google Procella (base de données de YouTube), Apache Lucene, Solr, Elasticsearch, Metamarkets’ Druid, Apache Spark, Apache Hive, Apache Tez, Apache CarbonData, Netflix Atlas, LinkedIn Pinot, Pilosa, Microsoft Visual Studio Team Services (VSTS), eBay’s Apache Kylin, et ainsi de suite.
  • JavaFastPFOR et FastPFor font partie de Terrier, Apache Parquet, Apache Lucene, et Apache NiFi. Des entreprises comme Quantcast et Seek ont choisi les bitmaps Roaring pour accélérer leurs opérations.
  • EWAHBoolArray et JavaEWAH ont été intégrés dans Git (GitHub), jGit, Apache Hive, et ainsi de suite. JavaEWAH fait partie des distributions Linux populaires comme Ubuntu et RedHat. Les ingénieurs de GitHub ont écrit une série d’articles sur leur application des bitmaps EWAH afin d’accélérer le traitement du code. La documentation de Git traite du format EWAH.

Certains des billets de mon blogue ont mené à des améliorations au sein de logiciel bien connu.

Plusieurs de nos articles scientifiques ont aussi eu un effet notable.

Publications récentes

Vous pouvez trouver mes travaux sur arXiv, sur Google Scholar, sur DBLP, sur le portail ACM, sur R Libre et ailleurs.

Je donne régulièrement des conférences. Ma conférence à QCon San Francisco 2019 a été identifiée comme “best voted” avec un taux de satisfaction de 98% ce qui est beaucoup plus élevé que la moyenne.

Projets

SIMDJSON

Traiter des gigaoctets de documents JSON par seconde

SIMDUTF

Routines Unicode : des milliards de caractères par seconde

fastfloat

Traiter des gigaoctets de documents JSON par seconde

Les bitmaps Roaring

Bitmap compressés et véloces, largement déployés. (photo: Edge Earth)

MaskedVByte

MaskedVByte : VByte accélé par SIMD

Laboratoire

Nous avons la chance d’avoir un laboratoire entièrement équipé avec un technicien dédié. Nous disposons d’une ferme de serveurs qui a été utilisée dans le monde entier pour des expériences sur la performance des logiciels (par exemple, par des chercheurs comme Agner Fog). Nous disposons également de plusieurs stations de travail puissantes et de magnifiques tableaux blancs !

Étudiants

Marina

Je recrute des étudiants et stagiaires post-doctoraux pour mon équipe. Si vous adorez concevoir du logiciel véloce, et que vous souhaitez venir à Montréal, écrivez-moi! Si vous disposez d’un profil GitHub impressionnant, ce sera un atout en votre faveur. Une connaissance du français est un atout si vous souhaitez suivre un programme universitaire sous ma supervision. Certains de mes meilleurs étudiants sont des étudiantes. Nous offrons des bourses pour études supérieurs en performance du logiciel pour l’ingénierie des données.

Si vous êtes un canadien poursuivant des études de premier cycle avec au moins une moyenne de B, vous pourriez être intéressés à venir travailler avec moi dans le cadre d’une bourse de recherche de 1er cycle du CRSNG. Il s’agit d’un stage à temps plein dans nos laboratoires à Montréal. Les dates limites pour postuler sont :

  • le premier mars pour un stage à l’été;
  • le premier juillet pour l’automne;
  • le premier novembre pour l’hiver.

Il s’agit d’un concours qui se poursuit en continu : je reçois des candidatures à toutes les sessions. Merci de prévoir au moins une semaine pour la préparation de votre candidature. Écrivez-moi par courriel pour exprimer votre intérêt.

Si vous souhaitez poursuivre une maîtrise en technologie de l’information en technologie de l’information à temps plein sous ma direction à Montréal, je reçois des candidatures pour les bourses d’études supérieures du CRSNG. Vous devez avoir un solide dossier universitaire pour postuler. Vous devez aussi être citoyen canadien ou résident permanent du Canada. La date limite pour postuler est le premier décembre de chaque année. Vous devez prévoir du temps pour préparer votre demande. Je reçois des candidatures à tous les ans. Écrivez-moi par courriel pour exprimer votre intérêt.

Si vous êtes intéressés par un doctorat en informatique cognitive à temps plein sous ma direction à Montréal, je reçois des candidatures pour les bourses d’études supérieures du CRSNG. Vous devez avoir un solide dossier universitaire pour postuler. Vous devez aussi être citoyen canadien ou résident permanent du Canada. La date limite pour postuler est le premier novembre de chaque année. Vous devez prévoir du temps pour préparer votre demande. Je reçois des candidatures à tous les ans. Écrivez-moi par courriel pour exprimer votre intérêt.

Je dirige régulièrement des étudiants aux cycles supérieurs à l’Université du Québec (TÉLUQ et UQAM). Je co-dirige aussi des étudiants à l’Université du Nouveau-Brunswick, à l’École Polytechnique et à l’Université Concordia.

verret

Quelques diplômés récents:

Quelques ancients étudiants:

Étudiants au doctorat en cours de supervision:

Étudiants à la maîtrise en cours de supervision:

  • Zakia Chaibeddra (bourse Alexander-Graham-Bell)
  • Isaac Hurtubise
  • Dineshkumar Kolimi (avec Y. Yan)
  • Boubacar Foumekoye
  • Juan Hernandez
  • Geneviève Lefebvre
  • Nadine Gauthier
  • Honoré Takamgang Lousse
  • Victor-Anthony Masson
  • Alex Bélisle Turcot
  • Chaqri Fatima-Ezzahra
  • Sara Ait Bouziaren
  • Mbaye Sarr
  • Pomaridès Vofo
  • Rachid Kherchache
  • Caroline Arseneau
  • Patrick Roberge
  • Mathieu Lapointe
  • Nicolas Boulet-Lavoie
  • Valérie Normand
  • Nicolas Irep
  • Blandine Courcot
  • Ernso Decelien
  • Erik Hanley
  • Emna Ben Hamouda

Assistants de recherche récents (premier cycle):

  • Nick Nuon, été 2023, récipiendaire d’une bourse de recherche de premier cycle du CRSNG.
  • Nicolas Boyer, été 2021 et 2022, récipiendaire d’une bourse de recherche de premier cycle du CRSNG.
  • David Favreau, automne 2021.
  • Yoann Le Rouzic, été 2020. GitHub
  • Io Andes Daza-Dillon, été 2019, récipiendaire d’une bourse de recherche de premier cycle du CRSNG. Io est consultant chez Savoir-faire Linux. GitHub
  • Jérémie Piotte, automnes 2018 et 2019, récipiendaire d’une bourse de recherche de premier cycle du CRSNG. Jérémie is Lead Software engineer chez Unity Technologies GitHub
  • Niko Girardelli, hiver 2018. GitHub

Recent research guests :

  • Robert Clausecker

Mentorat

Nouvelles

Plus de posts

Nigel Medforth a défendu avec succès sa thèse de doctorat.

CONTINUER DE LIRE

Alaidine Ben Ayed a soutenu avec succès sa thèse de doctorat.

CONTINUER DE LIRE

Damien Brun a soutenu avec succès sa thèse de doctorat.

CONTINUER DE LIRE

Gary Germeil a soutenu avec succès sa thèse de doctorat.

CONTINUER DE LIRE

Daniel Lemire reçoit le prix d’excellence en recherche de l’Université du Québec pour ses travaux sur simdjson.

CONTINUER DE LIRE

Services

J’organise à Montréal des séries d’ateliers ouverts au public: le technolab et le tribalab.

J’ai fait partie du comité scientifique de plusieurs conférences internationales :

  • ACM Conference on Information and Knowledge Management (ACM CIKM)
  • ACM Conference on Web Search and Data Mining (ACM WSDM)
  • ACM Conference on Information Retrieval (ACM SIGIR)
  • ACM Conference on Recommender Systems (ACM RecSys)
  • ACM/IEEE Joint Conference on Digital Libraries (JCDL)

En juin 2018, j’ai participé au séminaire Dagstuhl 18251 intitulé “Database Architectures for Modern Hardware”.

En 2018, j’ai été reconnu par la revue Software: Practice and Experience comme “distinguished referee”.

En 2019, j’ai été le président d’EDA 2019 (Business Intelligence & Big Data) tenue en octobre 2019 à Montpellier, France.

Je suis éditeur de la revue Software: Practice and Experience journal (Wiley) depuis 2021. Je suis éditeur associé de la section informatique au sein de la revue Heliyon (Elsevier) depuis 2015.

J’ai récemment fait partie des comités scientifiques suivants :

  • ECMLPKDD 2023: European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (September 18-22, 2023, in Turin, Italy)
  • ACM SIGKDD 2023: 29th SIGKDD Conference on Knowledge Discovery and Data Mining (Long Beach, California, August 6 2023)
  • ACM SIGIR 2023: The 46th International ACM SIGIR Conference on Research and Development in Information Retrieval (Taiwan, July 23rd to 27th, 2023).
  • EDA 2022: 18e journées EDA Business Intelligence and Big Data (Clermont-Ferrand,France, 27-28 octobre 2022)
  • SIGIR 2022: The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (Madrid, Spain, July 11-15, 2022)
  • DOLAP 2022: 24th International Workshop on Design, Optimization, Languages and Analytical Processing of Big Data
  • WSDM 2022 15th ACM International WSDM Conference (Phoenix, AZ, USA, Feb. 2nd to March 4th, 2022)
  • ASD 2021: 13th edition of the Conference on Advances in the Science of Data (Blida, Algeria, 24-25 October 2021)
  • CIKM 2021: 30th ACM International Conference on Information and Knowledge (Gold Coast, Queensland, Australia, 1-5 November 2021)
  • ECML/PKDD 21: European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (Bilbao, Spain, 13-17 September)
  • EDA 2021: 17e journées EDA Business Intelligence and Big Data (1-2 July 2021)
  • ACM SIGKDD 2021: 27th International Conference on Knowledge Discovery and Data Mining (Singapore, Aug 14-18, 2021)
  • SIGIR 2021: 44th International ACM SIGIR Conference on Research and Development in Information Retrieval
  • DOLAP 2021: 23nd International Workshop On Design, Optimization, Languages and Analytical Processing of Big Data
  • WSDM 2021:14th ACM International WSDM Conference (Jerusalem, Israel, March 8-12, 2021)
  • EDML20: Second Workshop on Evaluation and Experimental Design
  • RecSys 2020: 14th ACM Recommender Systems Conference (Rio de Janeiro, Brazil)
  • BBIGAP’2020: Second International Workshop for Business Intelligence & Big Data Applications
  • ECML-PKDD 2020: European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (Area Chair)
  • CIKM 2020: 29th ACM International Conference on Information and Knowledge
  • DaWak 2020: 22nd International Conference on Big Data Analytics and Knowledge Discovery
  • SIGIR 2020: 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval
  • DOLAP 2020: 22nd International Workshop On Design, Optimization, Languages and Analytical Processing of Big Data
  • ADBIS 2020: 24th European Conference on Advances in Databases and Information System (August 25-28: Lyon, France)
  • CIKM 2019: 28th ACM International Conference on Information and Knowledge Management (Nov 3-7, 2019: Beijing, China)
  • RecSys 2019: 13th ACM Recommender Systems Conference (September 2019; Copenhagen, Denmark)
  • BBigAP 2019: 1st International Workshop on BI & Big Data applications, In conjunction with the 23rd European Conference on Advances in Databases and Information Systems (ADBIS 2019) (September 8, 2019; Bled, Slovenia)
  • DOLAP 2019 - 21st International Workshop On Design, Optimization, Languages and Analytical Processing of Big Data (March 26, 2019; Lisbon, Portugal)
  • CIKM 2018 - Twenty-Seventh ACM International Conference on Information and Knowledge Management (October 22-26, 2018; Turing, Italy)
  • ASD 2018 - 12th edition of the Conference on Advances of Decisional Systems : Big data & Applications (May 2018; Marrakech, Morocco)
  • RecSys 2018 - 12th ACM Recommender Systems Conference (October 2018; Vancouver, Canada)
  • WABiD* 2018 - 1st International Workshop on Advances on Big Data Management, Analytics and Security (September 2018; Budapest, Hungary)
  • WWW 2018 - Twenty-seventh International WWW Conference (April 23-27 2018; Lyon, France)
  • DOLAP 2018 - Nineteenth International Workshop On Design, Optimization, Languages and Analytical Processing of Big Data (March 26–29, 2018; Vienna, Austria)
  • CIKM 2017 - Twenty-Sixth ACM International Conference on Information and Knowledge Management (November 6-10, 2017; Singapore)
  • SPIRE 2017 - 24th International Symposium on String Processing and Information Retrieval (September 26-29, 2017; Palermo, Italy)

J’ai été un examinateur externe sur les thèses de doctorat suivantes :

  • Nigel Medforth à l’Université Simon Fraser (2022) - dirigé par Robert Cameron.
  • Luca Versari à l’Université de Pise (2021) - dirigé par Roberto Grossi
  • Kareem El Gebaly à l’Université Waterloo (2018) - dirigé par Jimmy Lin, Lukasz Golab et Ashraf Aboulnaga.
  • Mohammed Shaaban à l’Université Pierre et Marie Curie (2017) - dirigé par Patrick Garda.
  • Mehdi Boukhechba à l’UQAC (2016) - dirigé par Abdenour Bouzouane et Charles Gouin-Vallerand.
  • Hicham Assoudi à l’UQAM (2016) - dirigé par Hakim Lounis.
  • Khaled Dehdouh à Lyon 2 (2015) - dirigé par Omar Boussaid.
  • Martin Leginus à l’Université Aalborg (2015) - dirigé par Peter Dolog.
  • Ahmad Taleb à l’Université Concordia (2011) - dirigé par Todd Eavis.

En 2020, j’étais l’un de deux évaluateurs externes du programme de maîtrise en informatique à l’UQAC.

J’ai servi comme membre de comité d’évaluateur au sein d’organisme subventionnaires :

  • FRQNT: comité d’évaluation 03F (informatique théorique) depuis 2007.
  • FRQNT: comité d’évaluation 309 (subvention d’équipe en informatique) depuis 2006.
  • CRSNG: comité d’évaluation du programme de subventions d’outils et d’instruments de recherche dans les sciences informatiques (2012-2015)
  • CRSNG: comité d’évaluation des subventions à la découverte en Sciences informatiques, comité 1507 (2018-2021), co-président du comité en 2019-2020 et 2020-2021.
  • CRSNG: comité d’évaluation de Horizons de la découverte (2022)

En 2022, j’ai fait partie du du sous-comité universitaire sur le génie et les technologies de l’information, au sein du comité sur l’implantation des mesures de l’opération main-d’oeuvre du gouvernement du Québec.

Média

Articles et entrevues

Cliquez sur la photo pour une version agrandie.

D. Lemire's picture

D. Lemire's picture

Me joindre

  • [email protected]
  • Université du Québec (TÉLUQ), 5800, rue Saint-Denis, Bureau 1105, Montréal (Québec) H2S 3L5 Canada
  • sur rendez-vous