Blog français

Questions d’entretien computer vision : guide complet

10 mai 202628 min de lecture
Questions d’entretien computer vision : guide complet

Maîtrisez les questions d’entretien computer vision avec des réponses claires sur CNN, YOLO, mAP et déploiement pour convaincre en entretien, lisez le guide.

La plupart des candidats qui se préparent à des entretiens en computer vision misent trop sur l’étendue du contenu et se font piéger par la profondeur. Vous avez couvert les questions d’entretien en computer vision dans vos notes, vous pouvez citer les architectures, vous savez ce que signifie IoU — puis l’intervieweur vous demande pourquoi vous choisiriez YOLO plutôt que Faster R-CNN pour un budget de latence précis, et la réponse qui sort ressemble davantage à un résumé Wikipédia qu’à un vrai arbitrage.

Cette anxiété n’a rien d’irrationnel. La computer vision est réellement vaste : traitement classique des images, architectures deep learning, détection et segmentation, métriques d’évaluation, contraintes de déploiement, et désormais Vision Transformers. La surface de préparation est immense. Mais l’entretien ne teste pas votre couverture du sujet — il teste votre capacité à raisonner dans un choix, à le défendre face à une relance, et à savoir où il casse. C’est une compétence différente, que la plupart des supports de préparation n’enseignent pas.

Ce guide est structuré pour combler cette lacune. Chaque section couvre un thème, explique ce que l’intervieweur mesure réellement, et montre à quoi ressemble une réponse solide par rapport à une réponse creuse — afin que, lorsque la relance arrive, vous ayez quelque chose de concret à dire.

Comment les entretiens en Computer Vision sont ils réellement évalués ?

À quoi ressemble une bonne réponse CV aux yeux d’un intervieweur ?

Une bonne réponse nomme l’arbitrage, l’ancre dans un contexte de déploiement ou de jeu de données, et explique le raisonnement derrière le choix. Comparez ces deux réponses à « qu’est-ce qu’un réseau de neurones convolutionnel ? »

Version creuse : « Un CNN utilise des couches de convolution pour extraire des caractéristiques à partir des images. Il applique des filtres sur l’entrée pour détecter des motifs comme les bords et les formes. »

Version solide : « Un CNN exploite la structure spatiale locale — les filtres apprennent à détecter des caractéristiques dans de petites régions, puis ces caractéristiques se composent en représentations de plus haut niveau à mesure que la profondeur augmente. S’il bat un réseau entièrement connecté sur les images, ce n’est pas de la magie ; c’est le partage de paramètres et l’invariance par translation. Dans un contexte de recrutement, la question plus intéressante est de savoir quand vous le remplaceriez — et c’est là qu’entrent en jeu les ViT. »

La réponse creuse prouve que le candidat a lu quelque chose. La réponse solide prouve qu’il a réfléchi. Les intervieweurs qui mènent des entretiens structurés — une pratique que Harvard Business Review a documentée comme nettement plus prédictive de la performance au travail — recherchent explicitement la chaîne de raisonnement, pas la définition.

Pourquoi les questions de relance comptent elles plus que la première réponse ?

La première réponse élimine les candidats qui n’ont pas étudié. La relance élimine ceux qui ont mémorisé sans comprendre. Si vous avez déjà participé à des processus de recrutement, vous connaissez le schéma : quelqu’un donne une réponse propre sur l’approche de détection single-shot de YOLO, puis on lui demande « pourquoi utiliser YOLO plutôt que Faster R-CNN pour une application mobile à faible latence ? » et la réponse s’effondre en « YOLO est plus rapide ». C’est vrai, mais inutile — cela ne montre pas si le candidat comprend pourquoi c’est plus rapide, ce qu’il sacrifie en précision, ou ce qui se passe lorsque les objets sont très denses.

Les intervieweurs utilisent les relances pour vérifier si vous savez raisonner, pas réciter. Préparer une première réponse propre est un prérequis minimal. Préparer la relance de votre propre réponse est ce qui distingue réellement les candidats.

Qu’est ce qui change entre les entretiens CV junior, mid level et senior ?

Les juniors sont invités à identifier et définir des concepts : qu’est-ce qu’une convolution, à quoi sert le dropout, quelle est la différence entre précision et recall. Les candidats mid-level doivent relier ces concepts dans un pipeline : comment mettre en place du transfer learning pour un nouveau jeu de données, quelle métrique utiliser pour une tâche de détection avec classes déséquilibrées, et pourquoi. Les seniors doivent défendre des arbitrages, décrire des modes de défaillance et prendre des décisions de production : qu’est-ce qui casse quand vous compressez ce modèle pour un déploiement edge, comment redessiner le pipeline d’annotation si l’analyse d’erreurs révèle un bruit systématique dans les labels.

Le saut de profondeur est bien réel, et il ne s’agit pas seulement d’en savoir plus — il s’agit du niveau de granularité du raisonnement que vous appliquez à une même question.

Comment éviter de paraître vague quand on ne maîtrise qu’à moitié le sujet ?

Quand on est incertain, l’instinct est de devenir abstrait. C’est exactement la mauvaise approche. Les réponses abstraites paraissent évasives, même lorsqu’elles sont techniquement correctes. La méthode la plus sûre consiste à ancrer votre réponse dans quatre éléments concrets : les données, le modèle, la métrique et la contrainte. « Je ne suis pas certain des détails exacts de l’architecture, mais dans un scénario avec peu de données, je commencerais par un backbone préentraîné, je surveillerais la validation loss sur un ensemble mis de côté, et je traiterais la latence comme une contrainte forte dès le départ » — cela sonne comme un ingénieur qui pense en systèmes, pas comme quelqu’un qui masque une lacune.

Quelles questions d’entretien en Computer Vision reviennent selon le niveau ?

Que testent généralement en premier les questions CV junior ?

Les questions CV junior portent sur les fondamentaux, pas sur des détails triviaux. Les intervieweurs veulent savoir si vous comprenez comment les images sont représentées numériquement, ce qu’une convolution calcule réellement, pourquoi le pooling réduit les dimensions spatiales, à quoi ressemble l’overfitting sur une courbe d’apprentissage, et quelles stratégies d’augmentation aident la généralisation sans dénaturer la tâche. Ce ne sont pas des pièges. Elles vérifient si vous avez la base conceptuelle sur laquelle construire. L’erreur fréquente des candidats junior est de les traiter comme des questions faciles et de trop peu développer — puis de perdre des points quand la relance demande pourquoi le max pooling plutôt que l’average pooling, ou pourquoi vous choisiriez une augmentation par retournement horizontal pour ce jeu de données et pas pour un autre.

Qu’est ce qui change dans les questions d’entretien mid level en computer vision ?

Les questions CV mid-level passent de « qu’est-ce que c’est ? » à « dans quel cas l’utiliseriez-vous et pourquoi ? ». Le transfer learning devient une question de jugement : à quel point votre domaine cible diffère-t-il d’ImageNet, combien de données annotées avez-vous, et est-ce que fine-tuner tout le backbone a du sens, ou seulement la tête ? La qualité des annotations entre dans la discussion. Le choix de la métrique devient une décision de conception, pas un exercice de définition. On attend d’un candidat mid-level qu’il décrive un pipeline qui fonctionne réellement, pas seulement qu’il en énumère les composants.

Qu’est ce qui fait qu’une réponse senior sonne senior ?

Les réponses senior considèrent le modèle comme un composant d’un système plus large. Qualité des données, cohérence des labels, équilibre des classes, latence de service, empreinte mémoire, analyse des erreurs au niveau du déploiement — tout cela est une préoccupation réelle, pas une réflexion après coup. Un candidat senior à qui l’on demande « comment évalueriez-vous ce modèle de détection ? » ne se contente pas de dire mAP ; il demande quel est le contexte de déploiement, si les petits objets sont dans le périmètre, à quoi ressemble la distribution des classes, et si l’ensemble d’évaluation correspond à la distribution en production.

Quel type de question piège le plus souvent les candidats ?

Le schéma « comparer et défendre ». L’intervieweur cite deux options et vous demande d’en choisir une pour un scénario précis. Il ne cherche pas un panorama équilibré — il veut un choix, une raison fondée sur la contrainte, et une reconnaissance honnête de la limite de ce choix. Les candidats qui répondent « ça dépend » puis décrivent symétriquement les deux options échouent à ce type de question. La bonne réponse tranche, explique et nomme la condition de frontière.

Comment fonctionnent ensemble les CNN, le transfer learning et l’augmentation ?

Pourquoi les CNN restent ils la première chose que les intervieweurs abordent ?

Les CNN sont un concept fondamental en computer vision parce qu’ils révèlent si un candidat comprend pourquoi l’extraction locale de caractéristiques est importante. Une couche dense appliquée à une image aplatie traite chaque pixel comme indépendant — elle ne peut pas exploiter la structure spatiale qui donne du sens aux images. Les convolutions partagent les poids entre positions, ce qui signifie que le même détecteur de bords fonctionne n’importe où dans l’image sans devoir réapprendre. L’augmentation du champ réceptif avec la profondeur est la manière dont le réseau passe des bords aux textures puis aux parties d’objets. Les intervieweurs posent des questions sur les CNN parce que la réponse leur indique si vous comprenez le biais inductif, pas seulement les noms d’architectures.

Quand le transfer learning est il meilleur qu’un entraînement from scratch ?

Presque toujours, sauf si vous disposez d’un énorme jeu de données annoté et d’un domaine réellement éloigné de tout ce que les modèles préentraînés ont déjà vu. La réponse pratique dépend de trois facteurs : taille du jeu de données, proximité du domaine et temps d’entraînement. Si votre dataset comporte moins de quelques milliers d’exemples annotés, un préentraînement sur ImageNet puis un fine-tuning de la tête est presque toujours préférable à un entraînement from scratch. La question de relance utilisée par les intervieweurs pour tester le jugement est : « qu’est-ce qui changerait si vos images cibles ne ressemblaient en rien à ImageNet ? » — la bonne réponse est que le domain shift affaiblit les représentations préentraînées, donc vous fine-tunez plus profondément le backbone ou vous utilisez un modèle préentraîné spécifique au domaine s’il en existe un.

Comment l’augmentation des données aide t elle sans devenir de la pseudo science ?

L’augmentation améliore la généralisation en exposant le modèle à des variations plausibles qu’il ne verra pas dans l’ensemble d’entraînement. La tension vient du fait que « plausible » dépend entièrement du domaine. Le retournement horizontal est sûr pour la plupart des tâches sur images naturelles et faux pour les tâches où l’orientation porte du sens — la lecture de plaques d’immatriculation, par exemple. En imagerie médicale, un color jitter agressif ou une déformation géométrique peuvent corrompre le signal diagnostique que vous cherchez à préserver. La vraie discipline de l’augmentation consiste à se demander : cette transformation préserve-t-elle le label ? Si vous détectez des tumeurs et que vous appliquez une transformation qui modifie la signature texturale du tissu, vous avez ajouté du bruit, pas du signal.

À quoi ressemble une bonne réponse de pipeline de bout en bout ici ?

La réponse doit suivre la logique d’un système opérationnel : jeu de données brut → filtrage qualité et revue des annotations → prétraitement (redimensionnement, normalisation, stratégie d’augmentation) → sélection d’un backbone préentraîné → stratégie de fine-tuning (couches gelées ou fine-tuning complet) → configuration de validation avec un split mis de côté qui reflète la distribution de production → évaluation sur les bonnes métriques → analyse des erreurs par type d’échec → déploiement en tenant compte des contraintes de latence et de mémoire. C’est cette chaîne que les intervieweurs écoutent. Trois mots-clés déconnectés — CNN, transfer learning, augmentation — ne sonnent pas comme de l’ingénierie. Un pipeline cohérent, oui.

Quel modèle de détection d’objets choisir en entretien ?

Quelle est la manière la plus claire de comparer YOLO et SSD ?

Les deux sont des détecteurs single-stage, ce qui signifie qu’ils évitent l’étape de proposition de régions et prédisent boîtes et classes en un seul passage avant. C’est là que vient la vitesse. YOLO traite la détection comme un problème de régression sur une grille ; SSD utilise des cartes de caractéristiques multi-échelles et des anchor boxes prédéfinies. En pratique, pour une détection d’objets en temps réel où la latence est la contrainte dure, YOLO est souvent le choix le plus net parce que son architecture est plus simple à optimiser et à déployer. Les ancres multi-échelles de SSD lui donnent un avantage sur les petits objets dans certaines configurations. La relance que l’intervieweur attend : « Et si vos objets sont très petits ? » C’est là que les détecteurs single-stage commencent à montrer leurs limites, et la réponse doit le reconnaître explicitement.

Quand Faster R CNN a t il plus de sens que les options plus rapides ?

Quand la précision et la qualité des propositions comptent plus que le débit brut. Le design en deux étapes de Faster R-CNN — réseau de proposition de régions suivi d’une classification par région — lui donne une meilleure qualité de localisation dans les scènes complexes. Si vous faites du contrôle hors ligne de pièces manufacturées, de l’analyse d’images médicales, ou toute tâche où un faux négatif ou une boîte englobante approximative a un coût réel, la pénalité de latence vaut le coup. L’intervieweur qui pose cette question vérifie si vous comprenez que le « meilleur modèle » est toujours relatif à une contrainte, jamais une affirmation absolue.

À quel moment Mask R CNN cesse t il d’être un bonus pour devenir la bonne réponse ?

Lorsque la tâche exige des contours d’objet au niveau pixel, pas seulement des boîtes englobantes. La segmentation d’instance est utile quand vous devez distinguer des objets qui se chevauchent, mesurer précisément la surface d’un objet, ou travailler sur la forme de l’objet plutôt que sur sa seule localisation. L’imagerie médicale en est l’exemple le plus clair — segmenter le contour d’une lésion est une tâche différente de l’encercler avec une boîte. La détection de défauts à la précision pixel en fabrication est un autre cas. La relance est généralement : « comment la tête de masque ajoute-t-elle de la surcharge ? » — la réponse est qu’elle ajoute une branche parallèle aux features RoI, ce qui augmente le calcul tout en partageant le backbone.

Comment répondre à l’inévitable « pourquoi ne pas utiliser YOLO partout ? » ?

Contestez la prémisse en nommant les contraintes de la tâche qui font échouer cette hypothèse. YOLO est excellent quand vous avez besoin de détection d’objets en temps réel, que les objets ont une taille raisonnable et que la cible de déploiement impose une contrainte de latence. Il montre ses limites sur les scènes denses avec petits objets, les tâches nécessitant une segmentation d’instance et les scénarios où la qualité des propositions influence les décisions en aval. L’intervieweur ne cherche pas une défense de YOLO — il teste votre capacité à identifier les conditions frontières où un outil échoue. C’est le signal senior.

Comment expliquer le prétraitement sans rester vague ?

Que font réellement le filtrage, le lissage et la détection de contours ?

Chaque transformation a un rôle précis dans le prétraitement d’image. Les filtres de lissage — le Gaussian blur, par exemple — réduisent le bruit haute fréquence en moyennant les voisinages de pixels. L’arbitrage, c’est qu’ils adoucissent aussi les bords ; on les applique donc lorsque le bruit est un problème plus important que la précision des frontières. Les opérateurs de détection de contours comme Sobel ou Canny trouvent les zones de changement rapide d’intensité — les frontières entre objets et arrière-plan. Le cadrage pratique en entretien : ces opérations ne sont pas décoratives. Ce sont des choix de prétraitement qui modifient ce que votre modèle voit, et le bon choix dépend de ce que le modèle doit distinguer.

Quand la morphologie compte t elle vraiment dans un pipeline CV ?

Les opérations morphologiques — érosion, dilatation, ouverture, fermeture — sont surtout importantes lorsque vous travaillez avec des masques binaires et que la sortie présente un bruit structurel. Si votre modèle de segmentation produit des masques avec de petits trous à l’intérieur des objets ou du bruit ponctuel autour, la fermeture morphologique comble les trous et l’ouverture supprime les points parasites. En pratique, cela arrive dans les pipelines d’inspection industrielle où le masque de segmentation alimente une étape de mesure en aval — un masque troué donne une mauvaise estimation de surface. Cela compte aussi en imagerie médicale lorsque le masque prédit d’une lésion contient des régions fragmentées qui devraient être connectées.

Comment expliquer l’égalisation d’histogramme sans devenir académique ?

L’égalisation d’histogramme redistribue les valeurs d’intensité des pixels pour utiliser toute la plage de contraste. En version simple : si votre image est surtout sombre avec une plage d’intensité étroite, le modèle travaille avec un contraste faible et manque des détails présents mais invisibles. L’égalisation étale l’histogramme pour rendre ces détails visibles. La réserve honnête : ce n’est pas une solution à de mauvaises données. Si l’image est réellement pauvre en information — sous-exposée, floue à cause du mouvement, obstruée — l’égalisation ne peut pas récupérer ce qui n’a pas été capturé. Elle aide lorsque le problème est le contraste, pas lorsque l’information est simplement absente.

Quelles métriques comptent vraiment pour les intervieweurs CV ?

Pourquoi l’accuracy est elle la mauvaise réponse pour la détection ?

L’accuracy de classification réduit tout à un seul nombre et ignore complètement la qualité spatiale. Un détecteur qui dessine les boîtes autour de la bonne classe mais au mauvais endroit obtient une bonne accuracy et échoue sur la tâche réelle. Les métriques d’évaluation pour la détection et la segmentation doivent capturer la qualité de localisation, la justesse de la classe, et l’arbitrage entre détecter tout ce qui existe et ne signaler que ce dont vous êtes sûr — c’est pourquoi l’accuracy est un mauvais point de départ.

Comment parler de précision, recall et mAP de façon convaincante ?

La précision est la fraction de vos détections qui sont correctes. Le recall est la fraction des objets de vérité terrain que vous avez trouvés. L’arbitrage entre les deux est contrôlé par votre seuil de confiance — abaissez-le et vous trouvez plus d’objets, mais vous acceptez davantage de faux positifs. Le Mean Average Precision (mAP) résume la courbe précision-recall à travers plusieurs seuils et plusieurs classes, ce qui en fait un résumé plus honnête pour la détection qu’une métrique à seuil unique. La relance que les intervieweurs utilisent : « que se passe-t-il pour votre mAP si vous avez une classe très rare ? » — la réponse est que les classes rares tirent la moyenne vers le bas et peuvent masquer de bonnes performances sur les classes fréquentes.

Que devez vous dire sur l’IoU, le Dice et la qualité de segmentation ?

Intersection over Union mesure le chevauchement entre les régions prédites et les régions de vérité terrain comme le rapport entre leur intersection et leur union. C’est le seuil standard pour décider si une détection est correcte. Le coefficient Dice est égal à 2 × intersection / (somme des deux surfaces) — il pondère davantage le recouvrement et est courant en segmentation médicale où les régions de vérité terrain sont petites et où un seuil IoU élevé serait trop strict. La relance porte généralement sur les petits objets : l’IoU pénalise fortement les détections de petits objets parce qu’une petite erreur de position provoque une forte baisse d’IoU. Savoir cela, et savoir que certains benchmarks utilisent plusieurs seuils d’IoU pour y répondre, est le genre de détail qui sonne senior.

Comment déboguer un modèle qui semble bon jusqu’à sa mise en production ?

Comment expliquer l’overfitting sans se contenter de dire « trop d’entraînement » ?

L’overfitting est un problème d’adéquation entre les données et le modèle, pas un problème de durée d’entraînement. Le modèle a trop bien appris le jeu d’entraînement parce que celui-ci était trop étroit — pas assez de variations, pas assez d’augmentation, ou une régularisation trop faible pour forcer la généralisation. L’indice est un écart croissant entre la loss d’entraînement et la loss de validation. Quand vous déboguez un modèle CV qui présente ce schéma, la première question est de savoir si les données d’entraînement représentent réellement les variations que le modèle verra en production. Souvent ce n’est pas le cas, et entraîner plus longtemps ne fait qu’aggraver l’overfitting.

Que faites vous quand la validation est faible mais que l’entraînement est excellent ?

Avant de blâmer le modèle, vérifiez le pipeline de données. Les causes les plus fréquentes d’un écart train-validation en CV sont la fuite de données (des frames d’une même vidéo dans les deux splits), le décalage de distribution (entraînement sur des images de studio, validation sur des images terrain), le bruit d’annotation dans le jeu de validation, ou un déséquilibre de classes que les métriques d’entraînement masquent. Exemple concret : si vous découpez les frames d’une vidéo de manière aléatoire, des frames d’une même seconde se retrouvent dans l’entraînement et dans la validation. Le modèle mémorise la scène, pas l’objet. Corriger la séparation au niveau clip ou scène comble souvent un écart qui ressemblait à un problème de modèle.

Comment faire une analyse d’erreurs au lieu de deviner ?

Les candidats solides regroupent les échecs par type, pas seulement par volume. Faux positifs par classe, faux négatifs selon la taille des objets, confusions entre paires de classes spécifiques, baisse de performance en faible luminosité ou en cas d’occlusion — ces catégories vous disent quoi corriger. La relance de l’intervieweur est généralement : « par quoi commenceriez-vous ? » La bonne réponse dépend du mode d’échec, mais un point de départ raisonnable est : les erreurs sont-elles concentrées sur une classe précise, une condition d’image précise, ou une taille d’objet précise ? Cela fait passer le diagnostic de « le modèle se trompe » à « le modèle se trompe sur cette chose précise pour cette raison précise ».

Comment répondez vous quand l’intervieweur vous demande comment vous avez amélioré la généralisation ?

Traitez la réponse comme une histoire de décision partant d’un mode de défaillance précis. De meilleures données couvrent plus de variations. Une augmentation plus intelligente ajoute des variations plausibles que les données initiales n’avaient pas. L’équilibrage des classes ou une loss pondérée corrige un déséquilibre qui pénalisait les performances de la classe minoritaire. La régularisation — dropout, weight decay, early stopping — contraint la capacité du modèle à mémoriser. Une architecture plus simple est parfois la bonne réponse lorsque le modèle est trop grand pour la taille du dataset. Le signal clé que l’intervieweur cherche : vous avez diagnostiqué le mode d’échec avant de choisir la correction, pas l’inverse.

Comment le pruning, la quantization et le déploiement edge changent ils la réponse ?

Pourquoi la compression devient elle plus importante dès que la latence est réelle ?

Un modèle qui atteint une excellente précision sur benchmark mais fonctionne à 500 ms par image n’est pas un système temps réel. Dès que vous passez de la recherche à la production — surtout sur mobile, embarqué ou sur du matériel edge — le coût de calcul du modèle devient une contrainte de premier ordre. Le pruning, la quantization et la distillation sont les outils qui permettent de combler l’écart entre ce que peut faire un modèle et ce que la cible de déploiement peut supporter.

Comment comparer pruning, quantization et distillation dans une seule réponse ?

Le pruning supprime des poids ou des neurones entiers qui contribuent peu à la sortie, ce qui réduit le nombre de paramètres du modèle. La quantization réduit la précision numérique — en général de flottants 32 bits à des entiers 8 bits — ce qui diminue la taille du modèle et accélère l’inférence sur les matériels qui supportent l’arithmétique entière. La distillation de connaissances entraîne un plus petit modèle « student » à reproduire le comportement d’un plus grand modèle « teacher », en transférant des représentations apprises plutôt qu’en le compressant directement. La relance sur la perte de précision est prévisible : les trois techniques échangent une certaine précision contre de l’efficacité, et le bon choix dépend de la perte de précision que vous pouvez accepter et du matériel ciblé.

Que veulent dire les intervieweurs quand ils posent des questions sur les compromis edge ?

Ils vous demandent si vous avez pensé en même temps à la mémoire, à la consommation électrique, aux contraintes thermiques et aux optimisations spécifiques au matériel, tout en gardant la précision du modèle à l’esprit. Un modèle qui fonctionne très bien sur un GPU cloud peut être trop volumineux pour la RAM d’un appareil embarqué, trop lent pour le moteur d’inférence disponible, ou trop gourmand pour une plateforme alimentée par batterie. Exemple concret : une inspection embarquée sur une ligne de fabrication utilisant un module NVIDIA Jetson a un plafond mémoire strict, un moteur d’inférence fixe (TensorRT) et une contrainte de latence liée à la vitesse de la ligne. Le choix du modèle, la résolution d’entrée et la stratégie de quantization changent tous lorsque ces contraintes sont réelles.

Comment expliquer une contrainte de service temps réel sans paraître générique ?

Soyez précis sur le chiffre. Si l’exigence est une inférence de bout en bout sous 50 ms, ce budget couvre le prétraitement, le passage avant du modèle et le post-traitement. À cette contrainte, la résolution d’entrée est bornée, la profondeur du modèle est bornée, et la taille de batch est probablement de 1. Vous allez probablement quantifier en INT8 et peut-être pruner le backbone. Dire « nous optimiserions la latence » est générique. Dire « à 50 ms avec quantization INT8 sur ce matériel, la profondeur du backbone est la contrainte limitante » relève de l’ingénierie.

Qu’apportent les Vision Transformers à l’entretien ?

Pourquoi les Vision Transformers apparaissent ils maintenant dans les entretiens CV ?

Les Vision Transformers sont entrés sérieusement dans les benchmarks de computer vision avec l’article ViT de Google Brain, qui a montré qu’une architecture transformer pure — sans convolutions — pouvait égaler ou dépasser les CNN en classification d’images à grande échelle. Ce résultat a remis en cause l’idée selon laquelle la structure convolutionnelle locale était indispensable à la vision. Les intervieweurs posent des questions sur les ViT parce qu’ils constituent un bon test pour savoir si les candidats suivent l’évolution du domaine, et parce que les arbitrages entre ViT et CNN sont réellement intéressants à raisonner.

Quand choisiriez vous un ViT plutôt qu’un CNN ?

Lorsque vous avez assez de données, assez de calcul, et une tâche qui bénéficie d’un contexte global. Les ViT modélisent simultanément les relations entre tous les patches d’une image — cette attention globale est utile lorsque l’information pertinente est répartie sur l’image plutôt que concentrée localement. L’arbitrage est clair : les ViT n’ont pas les biais inductifs des CNN (localité, équivariance par translation), ce qui signifie qu’ils doivent apprendre ces propriétés à partir des données. Sur de petits datasets, un backbone CNN préentraîné surpasse généralement un ViT entraîné from scratch.

Quelle est la question de relance qui révèle une compréhension superficielle des ViT ?

« Que se passe-t-il si vous n’avez pas assez de données ? » La réponse superficielle est : « Les ViT ont besoin de plus de données. » La réponse plus profonde est que des ViT préentraînés sur de vastes jeux de données (ImageNet-21k, JFT) puis fine-tunés peuvent très bien fonctionner même sur des datasets cibles plus petits — le régime de préentraînement compte autant que l’architecture. L’intervieweur vérifie si vous comprenez que l’exigence en données est liée à l’échelle du préentraînement, pas à une limitation architecturale intrinsèque impossible à compenser.

Quelles vraies questions d’entretien les candidats rencontrent ils réellement ?

Pouvez vous me décrire un pipeline CV, des images brutes au déploiement ?

C’est la question de synthèse, conçue pour voir si vous savez relier les éléments en un système opérationnel. La réponse doit suivre : collecte des données et filtrage qualité → stratégie d’annotation et revue des labels → prétraitement (normalisation, redimensionnement, politique d’augmentation) → sélection du modèle selon le type de tâche et les contraintes → configuration de l’entraînement (fonction de perte, optimiseur, schedule du taux d’apprentissage) → validation sur un ensemble mis de côté qui reflète la distribution de production → évaluation avec les métriques adaptées à la tâche → analyse des erreurs regroupée par type d’échec → déploiement en traitant les contraintes de latence et de mémoire. Ce que les intervieweurs écoutent, c’est de savoir si chaque étape s’enchaîne logiquement avec la suivante, ou si vous énoncez simplement une liste de termes appris isolément.

Pourquoi choisiriez vous YOLO plutôt que Faster R CNN pour ce produit ?

La réponse concerne toujours la contrainte. Si le produit exige une inférence temps réel sur un flux caméra — par exemple un système d’analytics retail qui compte les clients à 30 fps — l’architecture single-stage de YOLO est le bon point de départ parce qu’elle est conçue pour le débit. La conception en deux étapes de Faster R-CNN ajoute une latence qu’un flux en direct ne peut pas absorber. L’intervieweur ne cherche pas une fidélité à la marque YOLO. Il vérifie si vous pouvez identifier l’adéquation à la tâche : budget de latence, densité d’objets, seuil minimal de précision acceptable, et cible de déploiement. Si la relance est « et si la précision compte plus que la vitesse ? » — la réponse est que la contrainte change, et donc le choix du modèle aussi.

Comment amélioreriez vous un modèle qui manque systématiquement les petits objets ?

Cette question teste votre processus de débogage, pas votre connaissance des techniques de détection de petits objets. La bonne réponse commence par le diagnostic : les petits objets sont-ils sous-représentés dans l’entraînement ? La résolution d’entrée est-elle trop faible pour conserver les détails pertinents ? La configuration des ancres dans le détecteur est-elle trop grossière pour l’échelle des objets ? Les métriques d’évaluation utilisent-elles un seuil IoU trop strict pour les petits objets ? Chacun de ces points appelle une correction différente : davantage d’exemples de petits objets, une résolution d’entrée plus élevée, des ancres plus petites ou un feature pyramid network, ou des seuils d’évaluation ajustés. Les réponses solides nomment le mode d’échec avant de nommer la correction, et reconnaissent que la bonne intervention dépend du mode de défaillance révélé par l’analyse d’erreurs.

Comment Verve AI peut vous aider à préparer votre entretien en Computer Vision

Le problème structurel vers lequel ce guide a convergé est le suivant : connaître la réponse ne revient pas à pouvoir la délivrer sous la pression des relances, dans une conversation en direct. Vous pouvez lire chacune des sections ci-dessus et rester sans réponse lorsque l’intervieweur passe de « expliquez le mAP » à « pourquoi votre mAP a-t-il baissé lorsque vous êtes passé à un nouvel environnement de déploiement ? » Cet écart — entre connaissance et performance en direct — ne se comble qu’avec un entraînement qui réagit à ce que vous dites réellement, et non à une consigne préformatée.

Verve AI Interview Copilot est conçu exactement pour cet écart. Il écoute en temps réel votre réponse et réagit à ce que vous avez réellement dit — y compris la partie que vous avez éludée, la relance que vous n’aviez pas anticipée et l’arbitrage que vous avez mentionné sans l’expliquer. Il reste invisible pendant ce temps, afin que l’environnement d’entraînement soit aussi proche d’un vrai entretien que possible sans y être. Pour la préparation en computer vision en particulier, Verve AI Interview Copilot peut contester votre logique de choix de modèle, tester vos choix de métriques et faire remonter les questions de relance exactes que les managers utilisent pour distinguer les candidats mid-level des seniors. La capacité qui change vraiment la donne pour les candidats CV : Verve AI Interview Copilot suggère des réponses en direct lorsque vous êtes en train de répondre et réalisez que vous êtes tombé dans une relance que vous n’aviez pas préparée — ce qui est précisément le moment où la plupart des candidats perdent des points.

Conclusion

L’objectif de ces sections n’est pas de mémoriser 25 réponses. Il s’agit de structurer suffisamment votre réflexion pour que les relances ne vous déstabilisent pas. Un intervieweur qui vous demande pourquoi vous choisiriez un détecteur en deux étapes plutôt qu’un détecteur single-stage ne teste pas si vous connaissez la réponse — il teste votre capacité à raisonner à partir d’une contrainte que vous n’avez jamais vue auparavant.

La pratique qui construit réellement cette compétence consiste à dire la réponse à voix haute, à entendre à quel moment elle devient vague, puis à vous relancer vous-même avant que l’intervieweur ne le fasse. Choisissez une question dans chaque section ci-dessus. Dites la réponse à voix haute. Puis demandez-vous : « que ferais-je s’ils remettaient ce choix en question ? » Si vous pouvez répondre clairement à cette relance, vous êtes prêt. Sinon, c’est l’écart à combler — et c’est un écart plus petit qu’il n’y paraît.

VA

Verve AI

Archives