Blog en español

Preguntas de entrevista de Computer Vision clave

10 de mayo de 202626 min de lectura
Preguntas de entrevista de Computer Vision clave

Domina las preguntas de entrevista de Computer Vision con respuestas claras sobre CNN, YOLO, métricas y despliegue. Prepárate mejor hoy.

La mayoría de los candidatos que se preparan para entrevistas de computer vision se quedan cortos en amplitud y caen por falta de profundidad. Has repasado las preguntas de entrevista de computer vision en tus notas, puedes nombrar las arquitecturas, sabes qué significa IoU — y luego el entrevistador te pregunta por qué elegirías YOLO en lugar de Faster R-CNN para un presupuesto de latencia concreto, y la respuesta que te sale suena más a un resumen de Wikipedia que a una decisión razonada.

La ansiedad no es irracional. CV es, de verdad, un campo muy amplio: procesamiento clásico de imágenes, arquitecturas de deep learning, detección y segmentación, métricas de evaluación, restricciones de despliegue y, ahora, Vision Transformers. El ámbito de preparación es enorme. Pero la entrevista no evalúa cobertura: evalúa si puede razonar una elección, defenderla ante una repregunta y saber dónde falla. Esa es una habilidad distinta, y la mayoría de los materiales de preparación no la enseñan.

Esta guía está organizada para cerrar esa brecha. Cada sección cubre un tema, explica qué está midiendo realmente el entrevistador y muestra cómo suena una respuesta sólida frente a una plana — para que, cuando llegue la repregunta, tenga algo real que decir.

Cómo se evalúan realmente las entrevistas de Computer Vision

¿Cómo suena una respuesta sólida de CV para un entrevistador?

Una respuesta sólida nombra el intercambio, lo sitúa en un contexto de despliegue o de datos y explica el razonamiento detrás de la elección. Compare estas dos respuestas a “¿qué es una red neuronal convolucional?”

Versión plana: “Una CNN usa capas convolucionales para extraer características de las imágenes. Aplica filtros sobre la entrada para detectar patrones como bordes y formas.”

Versión sólida: “Una CNN aprovecha la estructura espacial local: los filtros aprenden a detectar características en regiones pequeñas, y esas características se componen en representaciones de mayor nivel a medida que aumenta la profundidad. La razón por la que supera a una red totalmente conectada para imágenes no es magia; es la compartición de parámetros y la invariancia a traslaciones. En un contexto de contratación, la pregunta más interesante es cuándo la reemplazaría, y ahí es donde entran los ViTs.”

La respuesta plana demuestra que la persona candidata leyó algo. La sólida demuestra que lo pensó. Los entrevistadores que realizan entrevistas estructuradas — una práctica que Harvard Business Review ha documentado como significativamente más predictiva del rendimiento laboral — buscan explícitamente la cadena de razonamiento, no la definición.

¿Por qué importan más las repreguntas que la primera respuesta?

La primera respuesta filtra a quienes no han estudiado. La repregunta filtra a quienes memorizaron sin entender. Si ha participado alguna vez en procesos de contratación, conoce el patrón: alguien da una respuesta limpia sobre el enfoque de detección de una sola pasada de YOLO, luego le preguntan “¿por qué usarías YOLO en lugar de Faster R-CNN para una aplicación móvil de baja latencia?” y la respuesta se derrumba en “YOLO es más rápido”. Eso es cierto, pero inútil: no muestra si la persona entiende por qué es más rápido, qué precisión está sacrificando o qué ocurre cuando los objetos están densamente agrupados.

Los entrevistadores usan las repreguntas para comprobar si puede razonar, no recordar. Preparar una buena primera respuesta es lo mínimo. Preparar la repregunta de su propia respuesta es lo que realmente separa a los candidatos.

¿Qué cambia entre entrevistas de CV de nivel junior, intermedio y senior?

A las personas junior se les pide identificar y definir conceptos: qué es una convolución, qué hace dropout, qué diferencia hay entre precision y recall. A las candidaturas de nivel intermedio se les pide conectar esos conceptos en una pipeline: cómo configuraría transfer learning para un nuevo dataset, qué métrica usaría para una tarea de detección con clases desbalanceadas y por qué. Se espera que las personas senior defiendan intercambios, describan modos de fallo y tomen decisiones de producción: qué se rompe cuando comprime este modelo para despliegue en el edge, cómo rediseñaría la pipeline de anotación si el análisis de errores mostrara ruido sistemático en las etiquetas.

El salto de profundidad es real, y no se trata solo de saber más: se trata de la granularidad del razonamiento que aplica a la misma pregunta.

¿Cómo evitar sonar vago cuando solo domina a medias el tema?

El instinto cuando no está seguro es irse a lo abstracto. Esa es precisamente la peor decisión. Las respuestas abstractas suenan evasivas incluso cuando son técnicamente correctas. La forma más segura es anclar la respuesta en cuatro elementos concretos: datos, modelo, métrica y restricción. “No estoy seguro de los detalles exactos de la arquitectura, pero en un escenario con pocos datos empezaría con un backbone preentrenado, monitorizaría la loss de validación en un conjunto aparte y trataría la latencia como una restricción dura desde el principio” — eso suena a una persona que piensa en sistemas, no a alguien escondiendo una laguna.

¿Qué preguntas de entrevista de Computer Vision aparecen según el nivel?

¿Qué suelen evaluar primero las preguntas de entrevista de CV para perfiles junior?

Las preguntas de CV para perfiles junior tratan sobre fundamentos, no sobre trivia. Los entrevistadores quieren saber si entiende cómo se representan numéricamente las imágenes, qué calcula realmente una convolución, por qué pooling reduce dimensiones espaciales, cómo se ve el sobreajuste en una curva de entrenamiento y qué estrategias de augmentación ayudan a la generalización sin distorsionar la tarea. No son preguntas trampa. Están comprobando si tiene la base conceptual para construir sobre ella. El error que cometen muchos candidatos junior es tratarlas como fáciles y explicarlas poco, para luego perder puntos cuando la repregunta pregunta por qué max pooling en lugar de average pooling, o por qué usaría augmentación con flip horizontal para este dataset pero no para aquel.

¿Qué cambia en las preguntas de entrevista de Computer Vision de nivel intermedio?

Las preguntas de CV de nivel intermedio pasan de “qué es esto” a “cuándo lo usaría y por qué”. Transfer learning se convierte en una cuestión de juicio: ¿cuánto se parece su dominio objetivo a ImageNet?, ¿cuántos datos etiquetados tiene?, y ¿tiene sentido ajustar todo el backbone o solo la cabeza? La calidad de las anotaciones entra en la conversación. La elección de métricas pasa a ser una decisión de diseño, no un ejercicio de definición. Se espera que una persona de nivel intermedio describa una pipeline que realmente funcione, no solo que enumere sus componentes.

¿Qué hace que una respuesta de CV suene senior?

Las respuestas senior tratan el modelo como un componente dentro de un sistema más amplio. La calidad de los datos, la coherencia de las etiquetas, el equilibrio de clases, la latencia de servicio, la huella de memoria, el análisis de errores a nivel de despliegue: todo eso son preocupaciones activas, no ideas secundarias. Una persona senior a la que le preguntan “¿cómo evaluaría este modelo de detección?” no se limita a decir mAP; pregunta cuál es el contexto de despliegue, si los objetos pequeños entran en el alcance, cómo es la distribución de clases y si el conjunto de evaluación coincide con la distribución de producción.

¿Qué patrón de pregunta pilla a la mayoría de candidatos por sorpresa?

El patrón de “comparar y defender”. El entrevistador nombra dos opciones y le pide elegir una para un escenario específico. No buscan una visión equilibrada: quieren una elección, una razón fundamentada en la restricción y un reconocimiento honesto de dónde falla esa elección. Los candidatos que responden con “depende” y luego describen ambas opciones de forma simétrica fallan este patrón. La respuesta correcta se compromete, explica y nombra la condición límite.

¿Cómo funcionan juntas CNNs, transfer learning y augmentación?

¿Por qué las CNNs siguen siendo lo primero que preguntan los entrevistadores?

Las CNNs son el concepto base en computer vision porque revelan si una persona candidata entiende por qué importa la extracción local de características. Una capa densa aplicada a una imagen aplanada trata cada píxel como independiente; no puede aprovechar la estructura espacial que da sentido a las imágenes. Las convoluciones comparten pesos entre posiciones, lo que significa que el mismo detector de bordes funciona en cualquier parte de la imagen sin volver a aprenderlo. El crecimiento del campo receptivo a través de la profundidad es como la red pasa de bordes a texturas y de ahí a partes de objetos. Los entrevistadores preguntan por CNNs porque la respuesta les dice si entiende el sesgo inductivo, no solo nombres de arquitecturas.

¿Cuándo supera transfer learning al entrenamiento desde cero?

Casi siempre, salvo que tenga un dataset etiquetado masivo y un dominio realmente alejado de todo lo que hayan visto los modelos preentrenados. La respuesta práctica depende de tres factores: tamaño del dataset, similitud de dominio y tiempo de entrenamiento. Si su dataset tiene menos de unos pocos miles de ejemplos etiquetados, preentrenar en ImageNet y ajustar la cabeza casi siempre es mejor que entrenar desde cero. La repregunta que usan los entrevistadores para medir criterio es “¿qué cambiaría si sus imágenes objetivo no se parecieran en nada a ImageNet?” — la respuesta correcta es que el cambio de dominio debilita las características preentrenadas, así que ajustaría más profundamente el backbone o usaría un modelo preentrenado específico del dominio, si existe.

¿Cómo ayuda la augmentación de datos sin convertirse en pseudociencia?

La augmentación ayuda a la generalización al exponer al modelo a variaciones plausibles que no verá en el conjunto de entrenamiento. La tensión está en que “plausible” depende por completo del dominio. El flip horizontal es seguro para la mayoría de tareas con imágenes naturales y erróneo en tareas donde la orientación tiene significado — leer matrículas, por ejemplo. En imágenes médicas, un color jitter agresivo o una distorsión geométrica pueden corromper la señal diagnóstica que se intenta preservar. La verdadera disciplina de la augmentación consiste en preguntarse: ¿esta transformación preserva la etiqueta? Si detecta tumores y aplica una transformación que cambia la firma de textura del tejido, ha añadido ruido, no señal.

¿Cómo suena una buena respuesta de pipeline end to end en este contexto?

La respuesta debería fluir como un sistema real: dataset bruto → filtrado de calidad y revisión de anotaciones → preprocesamiento (resize, normalización, estrategia de augmentación) → selección de backbone preentrenado → estrategia de fine-tuning (capas congeladas frente a ajuste completo) → validación con una partición aparte que coincida con la distribución de producción → evaluación con las métricas correctas → análisis de errores por tipo de fallo → despliegue con latencia y memoria en mente. Esa cadena es lo que el entrevistador está escuchando. Tres palabras de moda desconectadas — CNN, transfer learning, augmentación — no suenan a ingeniería. Una pipeline conectada sí.

¿Qué modelo de detección de objetos debería elegir en una entrevista?

¿Cuál es la forma limpia de comparar YOLO y SSD?

Ambos son detectores de una sola etapa, lo que significa que omiten el paso de propuestas de regiones y predicen cajas y clases en una sola pasada hacia delante. De ahí viene la velocidad. YOLO trata la detección como un problema de regresión sobre una rejilla; SSD usa mapas de características multiescala y cajas anchor predefinidas. En la práctica, para detección de objetos en tiempo real donde la latencia es la restricción dura, YOLO suele ser la opción más clara porque su arquitectura es más simple de optimizar y desplegar. Los anchors multiescala de SSD le dan ventaja con objetos pequeños en algunas configuraciones. La repregunta que el entrevistador espera: “¿Y si sus objetos son muy pequeños?” Ahí es donde los detectores de una sola etapa empiezan a sufrir, y la respuesta debe reconocerlo de forma directa.

¿Cuándo tiene más sentido Faster R CNN que las opciones más rápidas?

Cuando la precisión y la calidad de las propuestas importan más que el rendimiento bruto. El diseño de dos etapas de Faster R-CNN — red de propuestas de regiones seguida de clasificación por región — le da mejor calidad de localización en escenas complejas. Si está haciendo inspección offline de piezas manufacturadas, analizando escaneos médicos o cualquier tarea en la que una detección omitida o una caja delimitadora imprecisa tenga coste real, la penalización de latencia merece la pena. Quien hace esta pregunta está comprobando si entiende que “mejor modelo” siempre es relativo a una restricción, no una afirmación absoluta.

¿Cuándo deja de ser un “nice to have” Mask R CNN y pasa a ser la respuesta correcta?

Cuando la tarea requiere límites de objetos a nivel de píxel, no solo cajas delimitadoras. La segmentación de instancias importa cuando necesita distinguir objetos superpuestos, medir con precisión el área de un objeto o trabajar sobre la forma del objeto y no solo su ubicación. El caso más claro es la imagen médica: segmentar el borde de una lesión es una tarea distinta de encuadrarla con una caja. La detección precisa de defectos en fabricación es otro ejemplo. La repregunta suele ser “¿cómo añade sobrecarga la máscara?” — la respuesta es que añade una rama paralela a las características de RoI, lo que incrementa el cómputo pero comparte el backbone.

¿Cómo responde a la inevitable repregunta de “por qué no usar YOLO para todo”?

Cuestione la premisa nombrando las restricciones de la tarea que rompen esa suposición. YOLO es excelente cuando necesita detección en tiempo real, los objetos tienen un tamaño razonable y el objetivo de despliegue está limitado por latencia. Tiene problemas en escenas densas con objetos pequeños, en tareas que necesitan segmentación de instancias y en escenarios donde la calidad de las propuestas afecta a decisiones posteriores. El entrevistador no busca una defensa de YOLO: está evaluando si puede identificar las condiciones límite en las que una herramienta falla. Ese es el indicador de seniority.

¿Cómo explicar el preprocesamiento sin sonar ambiguo?

¿Qué hacen realmente el filtrado, el suavizado y la detección de bordes?

Cada transformación tiene una función específica en el preprocesamiento de imágenes. Los filtros de suavizado — por ejemplo, el desenfoque gaussiano — reducen el ruido de alta frecuencia al promediar vecindarios de píxeles. El intercambio es que también suavizan bordes, así que se aplican cuando el ruido es un problema mayor que la precisión de los límites. Operadores de detección de bordes como Sobel o Canny detectan regiones de cambio rápido de intensidad — los límites entre objetos y fondo. El enfoque práctico para una entrevista es este: estas operaciones no son decorativas. Son decisiones de preprocesamiento que cambian lo que el modelo ve, y la elección correcta depende de lo que el modelo necesita distinguir.

¿Cuándo importan de verdad las operaciones morfológicas en una pipeline de CV?

Las operaciones morfológicas — erosión, dilatación, apertura, cierre — son más útiles cuando trabaja con máscaras binarias y la salida tiene ruido estructural. Si su modelo de segmentación produce máscaras con pequeños agujeros dentro de los objetos o ruido disperso fuera de ellos, el cierre morfológico rellena los agujeros y la apertura elimina los puntos dispersos. En la práctica esto aparece en pipelines de inspección industrial donde la máscara de segmentación alimenta una medición posterior — una máscara con agujeros da un cálculo de área incorrecto. También importa en imagen médica cuando una máscara prevista de lesión tiene regiones fragmentadas que deberían estar conectadas.

¿Cómo explicar la ecualización de histograma sin ponerse académico?

La ecualización de histograma redistribuye los valores de intensidad de los píxeles para usar todo el rango de contraste. La versión simple: si su imagen es mayoritariamente oscura y tiene un rango de intensidad estrecho, el modelo está trabajando con poco contraste y perdiendo detalles que están ahí pero no son visibles. La ecualización expande el histograma para que esos detalles se vean. La salvedad honesta: no arregla datos malos. Si la imagen tiene realmente poca información — está subexpuesta, borrosa por movimiento u oculta — la ecualización no recupera lo que no se capturó. Ayuda cuando el problema es el contraste, no cuando la información simplemente no existe.

¿Qué métricas importan realmente en las entrevistas de CV?

¿Por qué accuracy es la respuesta equivocada para detección?

La precisión de clasificación reduce todo a un único número e ignora por completo la calidad espacial. Un detector que dibuja cajas sobre la clase correcta pero en la ubicación incorrecta obtiene buena accuracy y falla en la tarea real. Las métricas de evaluación para detección y segmentación deben capturar la calidad de localización, la corrección de clase y el equilibrio entre encontrarlo todo y encontrar solo lo que se confía en encontrar — por eso accuracy es el punto de partida incorrecto.

¿Cómo hablar de precision, recall y mAP con propiedad?

Precision es la fracción de detecciones que son correctas. Recall es la fracción de objetos reales que encontró. El intercambio entre ambas lo controla el umbral de confianza — bájelo y encontrará más objetos, pero aceptará más falsos positivos. Mean Average Precision (mAP) resume la curva precision-recall a través de distintos umbrales y clases, lo que la convierte en un resumen más honesto para detección que cualquier métrica de un solo umbral. La repregunta que usan los entrevistadores: “¿qué pasa con su mAP si tiene una clase muy rara?” — la respuesta es que las clases raras tiran de la media hacia abajo y pueden ocultar un buen rendimiento en las clases comunes.

¿Qué debería decir sobre IoU, Dice y la calidad de la segmentación?

Intersection over Union mide el solapamiento entre regiones predichas y reales como la razón entre su intersección y su unión. Es el umbral estándar para decidir si una detección cuenta como correcta. Dice coefficient es 2 × intersección / (suma de ambas áreas): pondera más el solapamiento y es común en segmentación médica, donde las regiones reales son pequeñas y un umbral IoU alto sería demasiado estricto. La repregunta suele girar en torno a objetos pequeños: IoU penaliza con dureza las detecciones de objetos pequeños porque un pequeño error de posición produce una gran caída del IoU. Saber eso, y saber que algunos benchmarks usan varios umbrales IoU para abordarlo, es el tipo de detalle que suena senior.

¿Cómo depurar un modelo que parece bueno hasta que se despliega?

¿Cómo explicar el sobreajuste sin limitarse a decir “demasiado entrenamiento”?

El sobreajuste es un problema de ajuste entre datos y modelo, no de duración del entrenamiento. El modelo aprendió demasiado bien el conjunto de entrenamiento porque ese conjunto era demasiado estrecho: no había suficiente variación, no había bastante augmentación o la regularización era demasiado débil para forzar generalización. La señal es una brecha creciente entre la loss de entrenamiento y la de validación. Al depurar un modelo de CV con este patrón, la primera pregunta es si los datos de entrenamiento representan realmente la variación que el modelo verá en producción. Muchas veces no la representan, y seguir entrenando solo empeora el sobreajuste.

¿Qué hace cuando la validación es débil pero el entrenamiento parece excelente?

Antes de culpar al modelo, revise la pipeline de datos. Las causas más comunes de una brecha entre entrenamiento y validación en CV son fuga de datos (frames de vídeo de la misma escena en ambos conjuntos), desajuste de distribución (entrenar con imágenes de estudio y validar con imágenes de campo), ruido en las etiquetas del conjunto de validación o desbalance de clases que las métricas de entrenamiento están ocultando. Un ejemplo concreto: si divide frames de vídeo al azar, frames del mismo segundo aparecen en entrenamiento y validación. El modelo memoriza la escena, no el objeto. Corregir la división a nivel de clip o de escena suele cerrar una brecha que parecía un problema del modelo.

¿Cómo hace análisis de errores en lugar de adivinar?

Las candidaturas sólidas agrupan los fallos por tipo, no solo los cuentan. Falsos positivos por clase, falsos negativos por tamaño de objeto, confusión entre pares de clases concretos, caída del rendimiento en condiciones de poca luz o de oclusión: esas categorías le dicen qué corregir. La repregunta del entrevistador suele ser “¿qué miraría primero?” La respuesta correcta depende del modo de fallo, pero un buen punto de partida es: ¿los errores están concentrados en una clase concreta, una condición de imagen concreta o un tamaño de objeto concreto? Eso acota el diagnóstico de “el modelo está mal” a “el modelo falla en esta cosa específica por esta razón específica”.

¿Cómo responde cuando le preguntan cómo mejoraría la generalización?

Trátelo como una historia de decisión con un modo de fallo concreto como punto de partida. Más datos cubren más variación. Una augmentación más inteligente añade variación plausible que faltaba en los datos originales. El equilibrado de clases o una loss ponderada aborda el desbalance que estaba frenando el rendimiento de la clase minoritaria. La regularización — dropout, weight decay, early stopping — limita la capacidad del modelo para memorizar. A veces, una arquitectura más simple es la respuesta correcta cuando el modelo es demasiado grande para el tamaño del dataset. La señal clave que busca el entrevistador: diagnosticó el modo de fallo antes de elegir la solución, no al revés.

¿Cómo cambian la respuesta el pruning, la quantization y el despliegue en edge?

¿Por qué la compresión importa más cuando la latencia es real?

Un modelo que logra una excelente accuracy en benchmarks pero tarda 500 ms por frame no es un sistema en tiempo real. En cuanto pasa de investigación a producción — especialmente en hardware móvil, embebido o de edge — el coste computacional del modelo se convierte en una restricción de primera clase. Pruning, quantization y distillation son las herramientas para cerrar la brecha entre lo que un modelo puede hacer y lo que el objetivo de despliegue puede soportar.

¿Cómo comparar pruning, quantization y distillation en una sola respuesta?

Pruning elimina pesos o neuronas completas que aportan poco a la salida, reduciendo el número de parámetros del modelo. Quantization reduce la precisión numérica — normalmente de floats de 32 bits a enteros de 8 bits — lo que reduce el tamaño del modelo y acelera la inferencia en hardware que admite aritmética entera. Knowledge distillation entrena un modelo pequeño “student” para replicar el comportamiento de un modelo mayor “teacher”, transfiriendo representaciones aprendidas en lugar de comprimirlas directamente. La repregunta sobre pérdida de accuracy es previsible: las tres técnicas sacrifican algo de precisión a cambio de eficiencia, y la elección correcta depende de cuánta precisión pueda permitirse perder y del hardware al que apunte.

¿Qué quieren decir los entrevistadores cuando preguntan por trade offs en edge?

Le están preguntando si ha pensado en memoria, consumo energético, restricciones térmicas y optimizaciones específicas de hardware al mismo tiempo que en la precisión del modelo. Un modelo que funciona bien en una GPU en la nube puede ser demasiado grande para la RAM de un dispositivo embebido, demasiado lento para el motor de inferencia disponible o demasiado exigente en energía para una plataforma limitada por batería. Escenario concreto: la inspección en dispositivo en una línea de fabricación que corre sobre un módulo NVIDIA Jetson tiene un techo de memoria rígido, un motor de inferencia fijo (TensorRT) y un requisito de latencia ligado a la velocidad de la línea. La elección del modelo, la resolución de entrada y la estrategia de quantization cambian cuando esas restricciones son reales.

¿Cómo explicar una restricción de servicio en tiempo real sin sonar genérico?

Sea específico con el número. Si el requisito es una inferencia end-to-end por debajo de 50 ms, ese presupuesto cubre preprocesamiento, pasada hacia delante del modelo y postprocesado. Con esa restricción, la resolución de entrada queda limitada, la profundidad del modelo queda limitada y el tamaño de lote probablemente sea 1. Es probable que cuantice a INT8 y quizá haga pruning del backbone. Decir “optimizaríamos para latencia” es genérico. Decir “con 50 ms y quantization INT8 en este hardware, la profundidad del backbone es la restricción principal” es ingeniería.

¿Qué cambian los Vision Transformers en la entrevista?

¿Por qué Vision Transformers aparecen ya en entrevistas de CV?

Los Vision Transformers entraron en benchmarks serios de computer vision con el artículo ViT de Google Brain, que mostró que una arquitectura puramente transformer — sin convoluciones — podía igualar o superar a las CNN en clasificación de imágenes a escala. Ese resultado cuestionó la suposición de que la estructura convolucional local era necesaria para visión. Los entrevistadores preguntan por ViTs porque son una prueba de si los candidatos siguen el ritmo del campo, y porque los trade-offs entre ViTs y CNNs son realmente interesantes de razonar.

¿Cuándo elegiría un ViT en lugar de una CNN?

Cuando tenga suficientes datos, suficiente cómputo y una tarea que se beneficie del contexto global. Los ViTs modelan relaciones entre todos los parches de una imagen al mismo tiempo; esa atención global es útil cuando la información relevante está distribuida por toda la imagen y no concentrada localmente. El intercambio: los ViTs no tienen los sesgos inductivos que sí tienen las CNN (localidad, equivariancia a traslaciones), lo que significa que necesitan más datos para aprender esas propiedades desde cero. En datasets pequeños, un backbone CNN preentrenado suele rendir mejor que un ViT entrenado desde cero.

¿Cuál es la repregunta que deja al descubierto un conocimiento superficial de ViT?

“¿Qué pasa cuando no tiene suficientes datos?” La respuesta superficial es “los ViT necesitan más datos”. La respuesta profunda es que los ViT preentrenados con grandes datasets (ImageNet-21k, JFT) y luego ajustados pueden funcionar muy bien incluso en datasets objetivo más pequeños — el régimen de preentrenamiento importa tanto como la arquitectura. El entrevistador comprueba si entiende que la necesidad de datos depende de la escala del preentrenamiento, no de una limitación arquitectónica inherente que no pueda abordarse.

¿Qué preguntas reales de entrevista ven de verdad los candidatos?

¿Puede guiarme por una pipeline de CV desde imágenes brutas hasta despliegue?

Esta es la pregunta de síntesis, y está diseñada para revelar si puede conectar las piezas en un sistema funcional. La respuesta debería avanzar por: recopilación de datos y filtrado de calidad → estrategia de anotación y revisión de etiquetas → preprocesamiento (normalización, resize, política de augmentación) → selección del modelo según el tipo de tarea y las restricciones → configuración del entrenamiento (función de pérdida, optimizador, programación de la tasa de aprendizaje) → validación en un conjunto aparte que coincida con la distribución de producción → evaluación con las métricas adecuadas para la tarea → análisis de errores agrupado por tipo de fallo → despliegue con restricciones de latencia y memoria resueltas. Lo que el entrevistador escucha es si cada paso conecta con el siguiente o si suena como una lista de términos memorizados por separado.

¿Por qué elegiría YOLO frente a Faster R CNN para este producto?

La respuesta siempre gira en torno a la restricción. Si el producto requiere inferencia en tiempo real sobre un flujo de cámara — por ejemplo, un sistema de analítica retail que cuenta clientes a 30 fps — la arquitectura de una sola etapa de YOLO es el mejor punto de partida porque está pensada para el throughput. El diseño de dos etapas de Faster R-CNN añade una latencia que un flujo en vivo no puede absorber. El entrevistador no busca lealtad de marca hacia YOLO. Quiere comprobar si puede identificar el ajuste a la tarea: presupuesto de latencia, densidad de objetos, umbral de precisión aceptable y objetivo de despliegue. Si la repregunta es “¿y si importa más la precisión que la velocidad?” — la respuesta es que cambia la restricción, y con ella la elección del modelo.

¿Cómo mejoraría un modelo que sigue perdiendo objetos pequeños?

Esta pregunta evalúa su proceso de depuración, no su conocimiento de técnicas de detección de objetos pequeños. La respuesta correcta empieza con el diagnóstico: ¿los objetos pequeños están infrarrepresentados en el conjunto de entrenamiento? ¿La resolución de entrada es demasiado baja para preservar el detalle relevante? ¿La configuración de anchors en el detector es demasiado gruesa para la escala del objeto? ¿Las métricas de evaluación usan un umbral IoU demasiado estricto para objetos pequeños? Cada una de esas respuestas implica una solución distinta: más ejemplos de objetos pequeños, mayor resolución de entrada, anchors más pequeños o una feature pyramid network, o umbrales de evaluación ajustados. Las respuestas sólidas nombran el modo de fallo antes que la solución, y reconocen que la intervención correcta depende del modo de fallo que revele el análisis de errores.

Cómo Verve AI puede ayudarle a preparar su entrevista de Computer Vision

El problema estructural hacia el que esta guía ha ido avanzando es que saber la respuesta no es lo mismo que poder darla bajo presión de repreguntas en una conversación real. Puede leer todas las secciones anteriores y aun así quedarse en blanco cuando el entrevistador pase de “explique mAP” a “¿por qué cayó su mAP cuando se trasladó a un nuevo entorno de despliegue?” Esa brecha — entre conocimiento y rendimiento en vivo — solo se cierra con práctica que responda a lo que realmente dice, no a un prompt prefabricado.

Verve AI Interview Copilot está diseñado exactamente para esa brecha. Escucha en tiempo real su respuesta y reacciona a lo que realmente dijo — incluyendo la parte que pasó por alto, la repregunta que no anticipó y el intercambio que mencionó sin explicarlo. Permanece invisible mientras lo hace, de modo que el entorno de práctica se acerca lo máximo posible a una entrevista real sin estar en una. Para la preparación específica de CV, Verve AI Interview Copilot puede cuestionar su razonamiento al elegir modelos, examinar sus decisiones sobre métricas y sacar a la luz las repreguntas exactas que los hiring managers usan para separar a los candidatos de nivel intermedio de los senior. La capacidad que cambia el cálculo para los candidatos de CV: Verve AI Interview Copilot sugiere respuestas en vivo cuando está a mitad de respuesta y se da cuenta de que ha entrado en una repregunta para la que no se preparó — que es el momento en el que la mayoría de los candidatos pierde puntos.

Conclusión

La idea de trabajar estas secciones no es memorizar 25 respuestas. Es construir suficiente estructura mental para que las repreguntas no le desestabilicen. Un entrevistador que pregunta por qué elegiría un detector de dos etapas en lugar de uno de una sola etapa no está evaluando si conoce la respuesta: está evaluando si puede razonar una restricción que no ha visto antes.

La práctica que realmente desarrolla esa habilidad consiste en decir la respuesta en voz alta, notar dónde se vuelve vaga y repreguntarse antes de que lo haga el entrevistador. Elija una pregunta de cada sección anterior. Diga la respuesta en voz alta. Luego pregúntese: “¿qué haría si cuestionaran esa elección?” Si puede responder con claridad a esa repregunta, está listo. Si no puede, ahí está la brecha que cerrar — y es más pequeña de lo que parece.

VA

Verve AI

Contenido