Administrateur.rice systèmes sénior.e, Calcul de haute performance

Mila - Institut québécois d'intelligence artificielle
Montreal, QC, CA
Temps plein
Quick Apply

À propos de Mila - About Mila

Fondé par le professeur Yoshua Bengio de l’Université de Montréal, Mila rassemble des chercheurs spécialisés en intelligence artificielle (IA) et plus précisément en apprentissage automatique.

Reconnu mondialement pour ses importantes contributions aux domaines de l’apprentissage profond et apprentissage par renforcement, Mila s’est particulièrement distingué dans la modélisation du langage, la traduction automatique, la reconnaissance d’objets et les modèles génératifs.

Depuis 2017, Mila est le fruit d’une collaboration entre l’Université de Montréal et l’Université McGill, en lien étroit avec Polytechnique Montréal et HEC Montréal.

Mila s’est donné pour mission d’être un pôle mondial d’avancées scientifiques qui inspire l’innovation et l’essor de l’intelligence artificielle pour le bénéfice de tous.

Founded by Professor Yoshua Bengio from the University of Montreal, Mila brings together researchers specializing in artificial intelligence (AI), particularly in machine learning.

Globally recognized for its significant contributions to the fields of deep learning and reinforcement learning, Mila has distinguished itself in areas such as language modeling, machine translation, object recognition, and generative models.

Since 2017, Mila has been the result of a collaboration between the University of Montreal and McGill University, in close partnership with Polytechnique Montreal and HEC Montreal.

Mila’s mission is to be a global hub for scientific advancements, inspiring innovation and the growth of artificial intelligence for the benefit of all.

À propos de ce poste - About this position

Vous aidez à réaliser la mission d’équipe visant à offrir aux chercheurs·euses en IA les meilleurs outils pour exceller dans leur recherche de pointe.

Vous appliquez vos compétences en gestion des systèmes, réseau, stockage et sécurité dans un environnement en constante évolution.

Vos bonnes capacités de communication et d’analyse vous permettent de proposer à l’équipe et au gestionnaire des actions concertées qui pourront être mises en application pour le bien de l’organisation.

You will help fulfill the team’s mission to provide AI researchers with the best tools to excel in their cutting-edge research.

You will apply your expertise in systems management, networking, storage, and security in a constantly evolving environment.

Your strong communication and analytical skills will enable you to propose coordinated actions to the team and supervisor, which can be implemented for the benefit of the organization.

Vos principales responsabilité - Your key responsabilities

  • Assurer le maintien en condition opérationnelle de l’infrastructure de calcul;
  • Déterminer et régler les problèmes de performance et de fonctionnement d’éléments matériels et logiciels.
  • Participer à l’évolution des outils de gestion d’infrastructure en tant que code (IaC) et d’automatisation;
  • Participer à l’architecture et à l’exécution de projets d’infrastructure;
  • Veiller à ce que la documentation technique soit représentative des évolutions de l’infrastructure et des besoins en connaissances des utilisateurs;
  • Agir à titre de référence sur les questions techniques en Calcul Informatique de Pointe;
  • Aider à la productions des spécifications techniques d’appels d’offres et achats gré à gré; évaluer les soumissions et recommander le choix d’équipement;

Dans le contexte d’une équipe en constante évolution, vous pourrez également être amené à participer aux efforts d’implémentation de tous les points mentionnés ci-dessus.

  • Ensure the operational readiness of the computing infrastructure;
  • Identify and resolve performance and functionality issues related to hardware and software components;
  • Contribute to the evolution of Infrastructure as Code (IaC) management tools and automation;
  • Participate in the architecture and execution of infrastructure projects;
  • Ensure that technical documentation accurately reflects infrastructure updates and the knowledge needs of users;
  • Act as a reference for technical questions related to High-Performance Computing (HPC);
  • Assist in producing technical specifications for calls for tenders and direct purchases; evaluate bids and recommend equipment choices;

In a constantly evolving team environment, you may also be called upon to contribute to the implementation of all the aforementioned points.

Requirements

Qualifications - Requirements

  • Diplôme universitaire dans une discipline pertinente ;
  • Un minimum de 10 années d’expérience dans un rôle d’administrateur système ;
  • Expérience en gestion de grappes de calcul pour le Calcul Haute Performance;
  • Grande expertise de Linux;
  • Expérience en sécurité informatique;
  • Expérience dans la mise en œuvre de l'installation automatisée de serveurs, des audits de sécurité et de l'automatisation des tâches (Ansible);
  • Expertise avec l'orchestrateur de tâches de calcul Slurm;
  • Expertise en système de stockage parallèle;
  • Expertise en réseautique pour le calcul HPC de type InfiniBand;
  • Très bonne connaissance des équipements et accélérateurs de calcul GPU;
  • Bonne connaissance des outils de gestion de versions (git);
  • Expérience dans la mise en œuvre de solutions d'infrastructure à haute performance et dans la gestion de projets qui ont eu un impact sur l'ensemble de l'entreprise;
  • Expérience et connaissance de la virtualisation, des systèmes de sauvegarde, des technologies de réseaux de stockage, de la gestion et de la surveillance des réseaux / serveurs;
  • Expérience dans la gestion de centres de données et la mise en place de haute disponibilité;
  • Être bilingue, en français et en anglais, en raison des interactions que vous aurez dans le cadre de votre emploi avec certains de nos partenaires, parties prenantes, ou membres de notre communauté académique anglophones.
  • University degree in a relevant field;
  • A minimum of 10 years of experience in a system administrator role;
  • Experience in managing computing clusters for High-Performance Computing (HPC);
  • Extensive expertise in Linux;
  • Experience in IT security;
  • Experience with automated server installation, security audits, and task automation (Ansible);
  • Expertise with the Slurm workload manager;
  • Expertise in parallel storage systems;
  • Expertise in networking for HPC, particularly InfiniBand;
  • Strong knowledge of computing equipment and GPU accelerators;
  • Good knowledge of version control tools (git);
  • Experience in implementing high-performance infrastructure solutions and managing projects that had an impact on the entire organization;
  • Experience and knowledge of virtualization, backup systems, storage network technologies, and network / server management and monitoring;
  • Experience in data center management and establishing high availability;
  • Bilingual in French and English, due to interactions you will have with some of our partners, stakeholders, or members of our English-speaking academic community.

Benefits

De bonnes raisons pour travailler à Mila - Good reasons to work at Mila

  • L’occasion de contribuer à une mission unique avec un impact important;
  • Un programme d’assurance collective complet (maladie, dentaire, invalidité, vie, assurance voyage et garanties complémentaires);
  • Un programme d’aide aux employé·e·s et à la famille;
  • Un accès à un service de télémédecine;
  • Une politique de congés annuels offrant une base de 20 jours de vacances dès l’embauche;
  • Un régime d’épargne retraite avec contribution de l’employeur de 4%;
  • Une généreuse enveloppe flexible vous permettant de personnaliser vos avantages sociaux en fonction de ce qui contribue à votre bien-être.
  • Vous pouvez sélectionner et combiner les options qui correspondent à vos besoins parmi les crédits style de vie, une assurance bonifiée, des journées de vacances supplémentaires et une contribution enrichie au régime de retraite;
  • Un horaire flexible, un horaire d’été et une possibilité de télétravail;
  • Un milieu de travail au cœur de la Petite Italie, dans le quartier branché Mile-Ex, à proximité des transports en commun;
  • Une équipe d’expert·e·s de leur domaine, des personnes passionnées et passionnantes;
  • Une ambiance de travail collaborative et inclusive.
  • The opportunity to contribute to a unique mission with significant impact.
  • A comprehensive group insurance plan (health, dental, disability, life, travel insurance, and supplementary coverage);
  • An Employee and Family Assistance Program;
  • Access to a telemedicine service;
  • A vacation policy offering a base of 20 days of annual leave upon hiring;
  • A retirement savings plan with a minimum employer contribution of 4%;
  • A generous flexible benefits package allowing you to customize your benefits based on what contributes to your well-being.
  • You can select and combine options that meet your needs, including lifestyle credits, enhanced insurance, additional vacation days, and increased retirement plan contributions;
  • A flexible schedule, summer hours, and the option to work remotely;
  • A workplace located in the heart of Little Italy, in the trendy Mile-Ex district, close to public transit;
  • A team of experts in their field, passionate and inspiring individuals;
  • A collaborative and inclusive work environment.

Nous voulons vous connaître - We want to get to know you

À Mila, la diversité nous tient à cœur. Nous valorisons un environnement de travail équitable, ouvert et respectueux des différences.

Nous encourageons toute personne souhaitant œuvrer dans un écosystème en progression continue et stimulée à contribuer à l’application et la définition d’une culture saine et inclusive, à postuler.

Veuillez noter que seules les personnes sélectionnées seront contactées.

At Mila, diversity is close to our hearts. We value a fair, open, and respectful work environment that embraces differences.

We encourage anyone who wants to work in a continuously evolving and stimulating ecosystem and contribute to fostering a healthy and inclusive culture to apply.

Please note that only selected candidates will be contacted.

Il y a 21 heures
Emplois reliés
Offre sponsorisée
Ville de Brossard
Brossard, Québec

Sous la responsabilité du chef de division – infrastructures et cybersécurité, le titulaire est responsable du bon fonctionnement de l’infrastructure technologique physique et virtuelle de production et de relève utilisée par les clients internes et externes (serveurs, emmagasinage de données, bases...

Vertisoft
Boucherville, Québec

Vous souhaitez faire une différence dans l’administration et le contrôle de nos systèmes hébergés? Nous sommes actuellement à la recherche d’un(e) administrateur(trice) de systèmes pour nos centres de données!. ...

RENAPS
Montréal, Québec

RENAPS offre l’opportunité de relever des projets stimulants basés sur la transparence, la collaboration et l’optimisation constante de la performance de ses employés et consultants. Dépannage approfondi, réglage des performances et analyse des rapports de diagnostic AWR, ADDM, ASH et STATSPACK. Adm...

Ubisoft
Montréal, Québec

En tant que rigger à Ubi MTL, vous permettrez aux personnages et aux objets de prendre vie et de bouger de manière réaliste dans nos mondes. Si vous avez besoin d’un permis de travail, votre admissibilité dépendra de votre éducation et de vos années d’expérience de travail pertinentes, conformément ...

Eidos Interactive Corporation
Montréal, Québec

Nous sommes à la recherche de notre concepteur• rice de jeu, pour venir compléter l'équipe très sénior responsable de la direction créative. Explorer le potentiel de nos features de design unique via de l'idéation et du prototypage;. Créer de la documentation technique et s'en faire l'ambassadeur• r...

CD INFO
Laval, Québec

Le sérieux, le professionnalisme, la fidélité de nos clients, mais aussi le dynamisme d'entreprise avec de nombreux projets clients et une offre de formation interne sont des valeurs portées par l'entreprise, qui souhaite investir dans des talents tel que le vôtre p...

Cofomo
Montréal, Québec

Démontrer de l’expérience dans : L’installation et configuration des différentes composantes système; L’installation des différents environnements DEV, QA, Préprod et Prod; L’installation et configuration de librairie ICCP, la configuration serveur pour API REST; La configuration de l'authentificati...

AtkinsRéalis
Montréal, Québec

Responsable de l'organisation des réunions sur l'avancement des travaux, de la rédaction des ordres du jour des réunions et de l'établissement des compte-rendus des réunions. Nous croyons fermement que le talent de classe mondiale ne fait aucune distinction à l’égard du genre, de l’origine ethnique ...

Dehumidified Air Solutions
Montréal, Québec

Le candidat idéal sera responsable des efforts de recrutement, de l'orientation et de l'intégration des nouveaux employés, de la cessation d'emploi, de la paie et des avantages sociaux, ainsi que du respect de la politique et des procédures de l'entreprise. Traiter et vérifier la paie en collaborati...

CS GROUP
QC, ca

Effectuer des analyses de sécurité, y compris l'AMDEC (Analyse des Modes de Défaillance, de leurs Effets et de leur Criticité), l'analyse des arbres de défaillance (FTA), l'analyse de la fonction de défaillance (DFA) et l'injection de faute, pour évaluer les performances de sécurité du système et id...