Administrateur.rice systèmes sénior.e, Calcul de haute performance

Mila - Institut québécois d'intelligence artificielle
Montreal, QC, CA
Full-time
Quick Apply

À propos de Mila - About Mila

Fondé par le professeur Yoshua Bengio de l’Université de Montréal, Mila rassemble des chercheurs spécialisés en intelligence artificielle (IA) et plus précisément en apprentissage automatique.

Reconnu mondialement pour ses importantes contributions aux domaines de l’apprentissage profond et apprentissage par renforcement, Mila s’est particulièrement distingué dans la modélisation du langage, la traduction automatique, la reconnaissance d’objets et les modèles génératifs.

Depuis 2017, Mila est le fruit d’une collaboration entre l’Université de Montréal et l’Université McGill, en lien étroit avec Polytechnique Montréal et HEC Montréal.

Mila s’est donné pour mission d’être un pôle mondial d’avancées scientifiques qui inspire l’innovation et l’essor de l’intelligence artificielle pour le bénéfice de tous.

Founded by Professor Yoshua Bengio from the University of Montreal, Mila brings together researchers specializing in artificial intelligence (AI), particularly in machine learning.

Globally recognized for its significant contributions to the fields of deep learning and reinforcement learning, Mila has distinguished itself in areas such as language modeling, machine translation, object recognition, and generative models.

Since 2017, Mila has been the result of a collaboration between the University of Montreal and McGill University, in close partnership with Polytechnique Montreal and HEC Montreal.

Mila’s mission is to be a global hub for scientific advancements, inspiring innovation and the growth of artificial intelligence for the benefit of all.

À propos de ce poste - About this position

Vous aidez à réaliser la mission d’équipe visant à offrir aux chercheurs·euses en IA les meilleurs outils pour exceller dans leur recherche de pointe.

Vous appliquez vos compétences en gestion des systèmes, réseau, stockage et sécurité dans un environnement en constante évolution.

Vos bonnes capacités de communication et d’analyse vous permettent de proposer à l’équipe et au gestionnaire des actions concertées qui pourront être mises en application pour le bien de l’organisation.

You will help fulfill the team’s mission to provide AI researchers with the best tools to excel in their cutting-edge research.

You will apply your expertise in systems management, networking, storage, and security in a constantly evolving environment.

Your strong communication and analytical skills will enable you to propose coordinated actions to the team and supervisor, which can be implemented for the benefit of the organization.

Vos principales responsabilité - Your key responsabilities

  • Assurer le maintien en condition opérationnelle de l’infrastructure de calcul;
  • Déterminer et régler les problèmes de performance et de fonctionnement d’éléments matériels et logiciels.
  • Participer à l’évolution des outils de gestion d’infrastructure en tant que code (IaC) et d’automatisation;
  • Participer à l’architecture et à l’exécution de projets d’infrastructure;
  • Veiller à ce que la documentation technique soit représentative des évolutions de l’infrastructure et des besoins en connaissances des utilisateurs;
  • Agir à titre de référence sur les questions techniques en Calcul Informatique de Pointe;
  • Aider à la productions des spécifications techniques d’appels d’offres et achats gré à gré; évaluer les soumissions et recommander le choix d’équipement;

Dans le contexte d’une équipe en constante évolution, vous pourrez également être amené à participer aux efforts d’implémentation de tous les points mentionnés ci-dessus.

  • Ensure the operational readiness of the computing infrastructure;
  • Identify and resolve performance and functionality issues related to hardware and software components;
  • Contribute to the evolution of Infrastructure as Code (IaC) management tools and automation;
  • Participate in the architecture and execution of infrastructure projects;
  • Ensure that technical documentation accurately reflects infrastructure updates and the knowledge needs of users;
  • Act as a reference for technical questions related to High-Performance Computing (HPC);
  • Assist in producing technical specifications for calls for tenders and direct purchases; evaluate bids and recommend equipment choices;

In a constantly evolving team environment, you may also be called upon to contribute to the implementation of all the aforementioned points.

Requirements

Qualifications - Requirements

  • Diplôme universitaire dans une discipline pertinente ;
  • Un minimum de 10 années d’expérience dans un rôle d’administrateur système ;
  • Expérience en gestion de grappes de calcul pour le Calcul Haute Performance;
  • Grande expertise de Linux;
  • Expérience en sécurité informatique;
  • Expérience dans la mise en œuvre de l'installation automatisée de serveurs, des audits de sécurité et de l'automatisation des tâches (Ansible);
  • Expertise avec l'orchestrateur de tâches de calcul Slurm;
  • Expertise en système de stockage parallèle;
  • Expertise en réseautique pour le calcul HPC de type InfiniBand;
  • Très bonne connaissance des équipements et accélérateurs de calcul GPU;
  • Bonne connaissance des outils de gestion de versions (git);
  • Expérience dans la mise en œuvre de solutions d'infrastructure à haute performance et dans la gestion de projets qui ont eu un impact sur l'ensemble de l'entreprise;
  • Expérience et connaissance de la virtualisation, des systèmes de sauvegarde, des technologies de réseaux de stockage, de la gestion et de la surveillance des réseaux / serveurs;
  • Expérience dans la gestion de centres de données et la mise en place de haute disponibilité;
  • Être bilingue, en français et en anglais, en raison des interactions que vous aurez dans le cadre de votre emploi avec certains de nos partenaires, parties prenantes, ou membres de notre communauté académique anglophones.
  • University degree in a relevant field;
  • A minimum of 10 years of experience in a system administrator role;
  • Experience in managing computing clusters for High-Performance Computing (HPC);
  • Extensive expertise in Linux;
  • Experience in IT security;
  • Experience with automated server installation, security audits, and task automation (Ansible);
  • Expertise with the Slurm workload manager;
  • Expertise in parallel storage systems;
  • Expertise in networking for HPC, particularly InfiniBand;
  • Strong knowledge of computing equipment and GPU accelerators;
  • Good knowledge of version control tools (git);
  • Experience in implementing high-performance infrastructure solutions and managing projects that had an impact on the entire organization;
  • Experience and knowledge of virtualization, backup systems, storage network technologies, and network / server management and monitoring;
  • Experience in data center management and establishing high availability;
  • Bilingual in French and English, due to interactions you will have with some of our partners, stakeholders, or members of our English-speaking academic community.

Benefits

De bonnes raisons pour travailler à Mila - Good reasons to work at Mila

  • L’occasion de contribuer à une mission unique avec un impact important;
  • Un programme d’assurance collective complet (maladie, dentaire, invalidité, vie, assurance voyage et garanties complémentaires);
  • Un programme d’aide aux employé·e·s et à la famille;
  • Un accès à un service de télémédecine;
  • Une politique de congés annuels offrant une base de 20 jours de vacances dès l’embauche;
  • Un régime d’épargne retraite avec contribution de l’employeur de 4%;
  • Une généreuse enveloppe flexible vous permettant de personnaliser vos avantages sociaux en fonction de ce qui contribue à votre bien-être.
  • Vous pouvez sélectionner et combiner les options qui correspondent à vos besoins parmi les crédits style de vie, une assurance bonifiée, des journées de vacances supplémentaires et une contribution enrichie au régime de retraite;
  • Un horaire flexible, un horaire d’été et une possibilité de télétravail;
  • Un milieu de travail au cœur de la Petite Italie, dans le quartier branché Mile-Ex, à proximité des transports en commun;
  • Une équipe d’expert·e·s de leur domaine, des personnes passionnées et passionnantes;
  • Une ambiance de travail collaborative et inclusive.
  • The opportunity to contribute to a unique mission with significant impact.
  • A comprehensive group insurance plan (health, dental, disability, life, travel insurance, and supplementary coverage);
  • An Employee and Family Assistance Program;
  • Access to a telemedicine service;
  • A vacation policy offering a base of 20 days of annual leave upon hiring;
  • A retirement savings plan with a minimum employer contribution of 4%;
  • A generous flexible benefits package allowing you to customize your benefits based on what contributes to your well-being.
  • You can select and combine options that meet your needs, including lifestyle credits, enhanced insurance, additional vacation days, and increased retirement plan contributions;
  • A flexible schedule, summer hours, and the option to work remotely;
  • A workplace located in the heart of Little Italy, in the trendy Mile-Ex district, close to public transit;
  • A team of experts in their field, passionate and inspiring individuals;
  • A collaborative and inclusive work environment.

Nous voulons vous connaître - We want to get to know you

À Mila, la diversité nous tient à cœur. Nous valorisons un environnement de travail équitable, ouvert et respectueux des différences.

Nous encourageons toute personne souhaitant œuvrer dans un écosystème en progression continue et stimulée à contribuer à l’application et la définition d’une culture saine et inclusive, à postuler.

Veuillez noter que seules les personnes sélectionnées seront contactées.

At Mila, diversity is close to our hearts. We value a fair, open, and respectful work environment that embraces differences.

We encourage anyone who wants to work in a continuously evolving and stimulating ecosystem and contribute to fostering a healthy and inclusive culture to apply.

Please note that only selected candidates will be contacted.

23 hours ago
Related jobs
Mila - Institut québécois d'intelligence artificielle
Montreal, Quebec

Expérience et connaissance de la virtualisation, des systèmes de sauvegarde, des technologies de réseaux de stockage, de la gestion et de la surveillance des réseaux/serveurs;. Expérience en gestion de grappes de calcul pour le Calcul Haute Performance;. Expérience dans la mise en œuvre de l'install...

Progesys Inc
Montreal, Quebec

Relevant du Directeur d'Approvisionnement, l'Administrateur de Contrat Senior joue un rôle clé dans la gestion des contrats de projet, incluant la négociation avec les fournisseurs, la gestion des commandes, et le suivi de la conformité des produits et services aux normes et exigences contractuelles...

Stantec
Montreal, Quebec

Les employés réguliers à temps partiel et à temps plein auront accès aux avantages sociaux suivants : régimes de soins de santé, de soins dentaires et de la vue, programme de bien-être, comptes de crédits-santé et de mieux-être, régime enregistré d’épargne-retraite collectif, régime d’actionnariat d...

Johnson Controls
Montreal, Quebec

Vous recruterez des chefs d'équipe de projets, des chefs d'équipe de systèmes, des spécialistes en systèmes principaux, des ingénieurs de projets et des ingénieurs en application de systèmes d'équipement dont les habiletés et les compétences répondent aux besoins de la succursale. En tant que membre...

RENAPS
Montréal, Quebec

RENAPS offre l’opportunité de relever des projets stimulants basés sur la transparence, la collaboration et l’optimisation constante de la performance de ses employés et consultants. Dépannage approfondi, réglage des performances et analyse des rapports de diagnostic AWR, ADDM, ASH et STATSPACK. Adm...

Courchesne Larose
Montreal, Quebec

Le rôle de l'Administrateur(rice) de systèmes TI est crucial pour le bon fonctionnement et l'évolution de notre infrastructure technologique. Le candidat retenu jouera un rôle important dans l'optimisation de nos systèmes informatiques, la garantie de la sécurité des données et le soutien à l'innova...

American Iron & Metal
Montreal East, Quebec

Participer à la rotation des astreintes pour l'assistance en dehors des heures de bureau et effectuer des opérations de maintenance occasionnelles en dehors des heures normales de travail. Faites partie de l'équipe AIM, une équipe en pleine croissance qui, au fil des ans, a réussi à se transformer e...

Electronic Arts
Montreal, Quebec

All employment decisions are made without regard to race, color, national origin, ancestry, sex, gender, gender identity or expression, sexual orientation, age, genetic information, religion, disability, medical condition, pregnancy, marital status, family status, veteran status, or any other charac...

WB Games Montreal Inc
Montreal, Quebec

Tu seras responsable d'identifier les défis de nos équipes de production, de nos équipes d'assurance qualité et de nos équipes de conception, ainsi que de mettre en œuvre et de documenter les solutions. Tu seras également responsable de l'implantation et de la maintenance des systèmes et des réseaux...

Electronic Arts
Montreal, Quebec

Identify and address potential risks, dependencies & constraints related to level design with other departments while maintaining AAA quality. All employment decisions are made without regard to race, color, national origin, ancestry, sex, gender, gender identity or expression, sexual orientation, a...