· ia · deepseek · ciberseguridad · caso-practico · phishing

Probé DeepSeek con un caso real: 200 phishing y el costo de tener razón

Caso práctico chileno: comparé DeepSeek-V3, Claude Sonnet 4.5 y GPT-4o-mini procesando 200 mensajes de phishing de un retail. Costos en pesos, accuracy y dónde gana cada uno.

Cada cierto tiempo aparece un modelo de IA que cambia el cálculo de “cuánto cuesta tener razón”. DeepSeek-V3 fue uno este año. Hace algunas semanas lo metí a un caso real de un cliente acá en Chile para ver si la promesa de “calidad frontera a precio bajo” aguantaba bajo presión, o era humo.

Adelanto: aguantó.

El caso: 200 phishing en una bandeja de retail

Recibí permiso de un cliente — empresa de retail mediana — para procesar el corpus de phishing detectado en una bandeja específica durante un mes. Eran 200 mensajes ya marcados, pero sin estructurar: unos suplantaban bancos chilenos, otros simulaban facturación SII, otros eran el clásico “te ganaste un Galaxy”. Un caos.

La pregunta era simple: ¿puedo automatizar la extracción de patrones (dominio falso, marca suplantada, vector, urgencia, links maliciosos) sin pasar 8 horas leyendo correos uno por uno?

Metodología

Diseñé un prompt único, estricto, con salida JSON forzada:

{
  "marca_suplantada": "string",
  "tipo_ataque": "phishing-bancario | facturacion-sii | premio-falso | otro",
  "dominio_origen": "string",
  "links_maliciosos": ["string"],
  "indicadores_urgencia": ["string"],
  "vector_principal": "email | smishing-redirect | qr-malicioso",
  "score_riesgo": "1 a 10"
}

Le pasé los mismos 200 mensajes a 3 modelos:

  • DeepSeek-V3 (vía API directa)
  • Claude Sonnet 4.5 (vía Anthropic)
  • GPT-4o-mini (vía OpenAI)

Misma temperatura (0.2), mismo prompt, JSON forzado con schema validation.

Resultados

Conversiones aproximadas: USD 1 ≈ $1.000 CLP. Un completo italiano de quiosco anda en $2.200.

ModeloCosto totalTiempoAccuracy*
DeepSeek-V3~$70 CLP (USD 0.07)4 min 12 s91%
GPT-4o-mini~$40 CLP (USD 0.04)3 min 50 s84%
Claude Sonnet 4.5~$900 CLP (USD 0.90)5 min 30 s96%

*Validé manualmente 30 muestras al azar: cuántos campos correctos vs falsos positivos.

Procesar las 200 amenazas con DeepSeek me costó menos que la palta de un completo. No es chiste — es literal: $70 chilenos, no alcanza ni para subirse a la micro.

La pregunta correcta no es “cuál es mejor”

Es cuánto cuesta cada porcentaje de exactitud:

  • GPT-4o-mini es el más barato. Pero perdió en marca suplantada cuando el correo era ambiguo o jugaba con tipografía (BC1 en vez de BCI, l→1 en falabella).
  • DeepSeek-V3, a 1.8x el costo de mini, ganó +7 puntos de accuracy. Especialmente sólido reconociendo typosquatting y armando los links maliciosos completos cuando estaban ofuscados.
  • Claude Sonnet 4.5 es el más caro por amplio margen (~22x mini). Pero la diferencia con DeepSeek son apenas 5 puntos. Si el caso fuera un peritaje formal con costo legal asociado a un error, vale Claude. Si es triage masivo previo a revisión humana, no.

Dónde DeepSeek ganó claramente

  • Costo vs calidad para análisis de seguridad masivo.
  • Reconocimiento de patrones técnicos (dominios, headers, regex de URLs ofuscadas).
  • Estabilidad en JSON forzado: 0 errores de schema en las 200 llamadas. Algo que con modelos chicos suele fallar más seguido de lo que uno quisiera.

Dónde no llegó

  • Razonamiento sobre intención cuando el correo era ambiguo. Le pasaba al humano, lo cual está bien — pero quita parte del valor de automatizar.
  • Contexto regulatorio chileno: no diferenció siempre spam comercial legal vs phishing. Acá Claude marca diferencia.
  • Casos con doble idioma (español + inglés mezclados): Claude los cruzaba mejor.

Cuándo lo usaría — y cuándo no

CasoModelo
Triage masivo de seguridad / SOC nivel 1DeepSeek-V3
Reportes preliminares de peritaje (con revisión humana)DeepSeek-V3
Análisis con consecuencia legal directaClaude Sonnet 4.5
Brain-dump rápido, plantillas, primer borradorGPT-4o-mini

El cálculo en pesos chilenos

Antes le cobraba a un cliente el equivalente a 4 horas de un analista humano para revisar un mes de phishing — unos $120.000 (4 hrs × $30.000/hora). Hoy el flujo es:

  • DeepSeek procesa los 200 mensajes: $70 CLP
  • Yo (o un analista) reviso los 30 casos ambiguos en 30 min: $15.000 CLP
  • Total: $15.070 CLP vs los $120.000 de antes.

En completos italianos: el cliente pagaba 54 completos, ahora paga 7. Mismo output, mejor margen para mí, plata que se ahorra el cliente. Todos felices, salvo el quiosquero del lado del banco que vendía harto cuando los analistas almorzaban revisando correos.

La conclusión incómoda

DeepSeek no reemplaza a Claude para todo. Pero para el flujo correcto, cambia el cálculo de qué tipo de análisis vale la pena automatizar. Ese tipo de cosas sí me obliga a actualizar mi práctica de consultor — porque el cliente no me paga por leer correos uno a uno, me paga por encontrar el patrón. Y el patrón ahora cuesta menos que un completo.

Si te dedicas a ciberseguridad en Chile y todavía estás cobrando por hora-humano para triage de phishing, miremos los números juntos. Probablemente le estás dejando plata afuera al cliente — y a ti también.