En collaboration avec Apart Research, EffiSciences organise une session du Interpretability Hackathon, un hackathon international d’interprétabilité des réseaux de neurones. 💵 $2000 sont à la clé, dont $1000 pour la meilleure équipe !
<aside> ❓ Quels sont les mécanismes derrière le fonctionnement des réseaux de neurones ? Quelle est la façon optimale de représenter de l’information dans un espace en grande dimension ? Pourquoi et comment les réseaux de neurones encodent-ils plusieurs concepts indépendants dans un même neurone ?
</aside>
<aside> 📍 Quand ? [agenda partagé] Vendredi 11 Novembre (18h à 19h30) : conférence d’introduction et annonce du sujet Vendredi-Samedi-Dimanche (9h à minuit) : salle réservée à l’ENS Ulm Dimanche 13h : soumission des projets puis évaluation mutuelle entre participant·es Dimanche (18h à 19h) : annonce des équipes gagnantes, cérémonie de clôture
Où ? ENS Ulm, salle Bourbaki 45 Rue d'Ulm, Paris
</aside>
Les places sont limitées, pour vous inscrire rejoignez le discord où vous pourrez poser vos questions : https://discord.gg/gBqAEnd8SV.
Voici également le site du hackathon, où vous trouverez :
Le hackathon peut se faire par équipe de 1 à 6 personnes, et avant dimanche 13h vous devez soumettre un rapport à rédiger à partir de ce template.
<aside> 🔎 Critères d’évaluation
Criterion | Weight | Description |
---|---|---|
ML Safety | 2 | How good are your arguments for how this result informs the longterm alignment and understanding of neural networks? |
How informative is the results for the field of ML and AI safety in general? | ||
Interpretability | 1 | How informative is it in the field of interpretability? Have you come up with a new method or found revolutionary results? |
Novelty | 1 | Have the results not been seen before and are they surprising compared to what we expect? |
Generality | 1 | Do your research results show a generalization of your hypothesis? E.g. if you expect language models to overvalue evidence in the prompt compared to in its training data, do you test more than just one or two different prompts and do proper interpretability analysis of the network? |
Reproducibility | 1 | Are we able to easily reproduce the research and do we expect the results to reproduce? |
A high score here might be a high Generality and a well-documented Github repository that reruns all experiments. | ||
</aside> |
Apart Research a invité le chercheur en interprétabilité Neel Nanda (neelnanda.io) à donner une conférence en introduction du hackathon (vendredi de 18h à 19h30). Elle se tiendra sur l’espace GatherTown de l’évènement.