AI Interpretability Hackathon - ENS Ulm

En collaboration avec Apart Research, EffiSciences organise une session du Interpretability Hackathon, un hackathon international d’interprétabilité des réseaux de neurones. 💵 $2000 sont à la clé, dont $1000 pour la meilleure équipe !

<aside> ❓ Quels sont les mécanismes derrière le fonctionnement des réseaux de neurones ? Quelle est la façon optimale de représenter de l’information dans un espace en grande dimension ? Pourquoi et comment les réseaux de neurones encodent-ils plusieurs concepts indépendants dans un même neurone ?

</aside>

Informations et Inscription

<aside> 📍 Quand ? [agenda partagé] Vendredi 11 Novembre (18h à 19h30) : conférence d’introduction et annonce du sujet Vendredi-Samedi-Dimanche (9h à minuit) : salle réservée à l’ENS Ulm Dimanche 13h : soumission des projets puis évaluation mutuelle entre participant·es Dimanche (18h à 19h) : annonce des équipes gagnantes, cérémonie de clôture

Où ? ENS Ulm, salle Bourbaki 45 Rue d'Ulm, Paris

</aside>

Les places sont limitées, pour vous inscrire rejoignez le discord où vous pourrez poser vos questions : https://discord.gg/gBqAEnd8SV.

Voici également le site du hackathon, où vous trouverez :

L’enregistrement officiellement pour la compétition (bouton "Join jam”), ce qui vous permettra de soumettre vos projets → Remplir ce formulaire de participation
Des ressources sur l’Interprétabilité pour vous préparer au sujet, accompagnées de plusieurs démos interactive
Une F.A.Q.
Le discord international et l’espace GatherTown pour rencontrer les autres participant·es

Objectifs

Le hackathon peut se faire par équipe de 1 à 6 personnes, et avant dimanche 13h vous devez soumettre un rapport à rédiger à partir de ce template.

<aside> 🔎 Critères d’évaluation

Criterion	Weight	Description
ML Safety	2	How good are your arguments for how this result informs the longterm alignment and understanding of neural networks?
How informative is the results for the field of ML and AI safety in general?
Interpretability	1	How informative is it in the field of interpretability? Have you come up with a new method or found revolutionary results?
Novelty	1	Have the results not been seen before and are they surprising compared to what we expect?
Generality	1	Do your research results show a generalization of your hypothesis? E.g. if you expect language models to overvalue evidence in the prompt compared to in its training data, do you test more than just one or two different prompts and do proper interpretability analysis of the network?
Reproducibility	1	Are we able to easily reproduce the research and do we expect the results to reproduce?
A high score here might be a high Generality and a well-documented Github repository that reruns all experiments.
</aside>

Conférence en ligne

Apart Research a invité le chercheur en interprétabilité Neel Nanda (neelnanda.io) à donner une conférence en introduction du hackathon (vendredi de 18h à 19h30). Elle se tiendra sur l’espace GatherTown de l’évènement.

Ce qu’EffiSciences organise sur place à l’ENS Ulm ?

Des présentations de concepts et d’articles ****state of the art du domaine
Un environnement stimulant et des discussions fascinantes sur le sujet
De l’aide et de la supervision ainsi que des ressources (TP, Articles, etc) pour progresser
L’occasion de parler de carrière et opportunités en Interprétabilité et Sûreté de l’IA.
🍕 Repas et snacks offerts 🥗