En este artículo, Aleksandr Karabatov, gerente de proyecto en Social Discovery G
En los próximos nueve meses, nuestro
Este proyecto se convirtió en una importante iniciativa de investigación, esencialmente un experimento a gran escala que produjo insights valiosos. En este artículo, quiero compartir las decisiones críticas que tomamos y sus resultados.
Los retos del sistema de moderación
Speed
Desde la perspectiva de un usuario, el proceso de moderación durante el registro del sitio de citas puede parecer simple - una breve auto-descripción y algunas imágenes. Sin embargo, a escala, para plataformas de alto tráfico, esto resulta en cuotas de procesamiento sustanciales.
El siguiente número se refiere al equilibrio de SLA (Acuerdo de Nivel de Servicio) y CR2 (Tasa de Conversión a Registro). En un sistema de moderación manual, cada segundo guardado equivale a un miembro más de la plantilla.
Además, el agotamiento de los empleados hace que el reclutamiento sea un ciclo continuo y costoso. Incluso con recursos casi infinitos, la moderación manual requiere tiempo: abrir un caso, tomar una decisión, enviar una respuesta.Todo esto afecta negativamente a la cantidad de registros de usuarios - las personas no reciben el servicio inicial durante algún tiempo y se retiran.
Quality:
Los errores son inevitables. Incluso los sistemas avanzados aún no tienen que alcanzar la exactitud del 100%. La variabilidad en los resultados depende de varios factores, principalmente de la claridad de la tarea. Por ejemplo, si prohíbe a los usuarios con nombres que comienzan con la letra “A”, obtendrá una tasa de error mínima. Pero ¿deberíamos permitir “El Alex”? o “Mr.Alex”? Un sistema heurístico dirá sí, un humano diría no. Un AI manejaría esta tarea con una prompt bien elaborada.
Un desafío más difícil es determinar si un usuario tenía la intención de engañar a otros usuarios. 🔸 Otro desafío observado en la moderación manual es que los moderadores hacen juicios especulativos o subjetivos en tales escenarios, como “correo electrónico de estilo escamista”; “¡Definitivamente he visto esta foto antes”; “Diez inscripciones seguidas de París en un sitio de citas asiático?
Refinar las listas de verificación de moderación puede ayudar ✅, pero los errores seguirán sucediendo. Además, la experiencia no puede simplemente transferirse digitalmente a través de la nube; la restricción consume tiempo valioso. La fatiga puede conducir a una disminución de la calidad del rendimiento, requiriendo personal adicional y mayores costes.
Conclusion:
Los sistemas de moderación manual sufren de la lenta toma de decisiones, el personal complejo y la difícil transferencia de conocimientos, lo que los hace lentos, costosos y no consistentemente fiables.
La elección de la tecnología
We decided to add AI elements to our moderation system.La tecnología seleccionada depende significativamente de la tarea y del presupuesto disponible.Debido a que necesitábamos trabajar tanto con texto como con imágenes, necesitábamos modelos con capacidades de visión fuertes.
Revisamos servicios especializados en moderación automatizada, considerados modelos de código abierto de ajuste preciso, pero finalmente aterrizaron en ChatGPT. Al indicar el modelo claramente - como "Eres un moderador en un sitio de citas", - identifica eficientemente los fraudes financieros, las personas de fondo y otros problemas complejos con más del 80% de precisión. Ya es más barato que un equipo de moderación completo para la misma carga de trabajo, y todavía hay mucho espacio para optimizar.
acelerar
El uso de modelos LLM para la moderación requiere una prompt bien hecha. ingeniería prompt no es algo típicamente enseñado en las universidades. Nuestros ingenieros ML confirmaron que no hay soluciones simples, listas para el uso actualmente, por lo que comenzamos a llevar a cabo nuestros propios experimentos.
Rápidamente rechazamos la idea de externalizar la creación de promptes. ⚠️ Es preferible tener un desarrollador interno que, incluso sin experiencia especializada, pueda refinar continuamente los promptes. Nuestra tarea requiere ajustes constantes debido a las entradas que cambian con frecuencia que afectan a los resultados de la moderación. Los usuarios fraudulentos que descubren lacunas necesitan una modificación inmediata. Cuando cambian las tendencias, el prompt debe ser actualizado. Las actualizaciones del modelo también requieren revisiones inmediatas. Por ejemplo, en Halloween, corre el riesgo de rechazar falsamente fotos de clientes felices que posan con un cuchillo de plástico en su cabeza.
He resaltado algunos hallazgos clave básicos sobre prompt:
He resaltado algunos hallazgos clave básicos sobre prompt:
He resaltado algunos hallazgos clave básicos sobre prompt:- Introducción: Explica brevemente la tarea y el propósito del modelo.
- Acciones: es necesario instruir de forma precisa y concisa a los modelos sobre lo que constituye contenido problemático y especificar la respuesta adecuada para volver en caso de detección o ausencia de dicho contenido;
- Ejemplos: Es extremadamente importante proporcionar varios ejemplos para cada tipo de problema, mostrando lo que consideramos aceptable y lo que no. Cualquier excepción debe ser descrita claramente;
- **Notas: **El contexto es esencial para que el modelo llegue a decisiones precisas; sin embargo, las prompts más largas aumentan la probabilidad de alucinaciones.Es esencial gestionar cuidadosamente la cantidad y el contexto dentro de las prompts para encontrar el equilibrio entre el número de diferentes prompts y la cantidad de contexto que contienen.
Etiquetado de datos
El desarrollo efectivo inmediato inevitablemente requiere etiquetado de datos precisos.La calidad de los datos etiquetados afecta directamente al rendimiento del modelo.Aunque hay muchos servicios de crowd-sourcing, decidimos crear nuestro propio equipo de etiquetado.
Puede encontrar muchas guías en línea sobre cómo configurar un tubo de etiquetado de datos, y estos son los puntos clave que creo que más importan:
Puede encontrar muchas guías en línea sobre cómo configurar un tubo de etiquetado de datos, y estos son los puntos clave que creo que más importan:- Clear Taxonomy: Provide a comprehensive list of all possible labels, each with detailed definitions and multiple examples.
- Equipo: Cada elemento de datos debe ser etiquetado por al menos tres etiquetadores independientes para reducir los vicios y mejorar la fiabilidad a través del consenso.
- Comunicación: Realice sesiones de embarque, revise los casos de muestra juntos y permita que los etiquetadores marquen algo como "inclaro" si es necesario.
- Mejora: Después de cada ronda de etiquetado, refinar la taxonomía y ajustar el equipo si surgen preocupaciones de calidad.
Uno de los criterios más importantes para un conjunto de datos completo es la inclusión de un número suficiente de eventos positivos y negativos seleccionados aleatoriamente en todos los tipos de contenido esperados. Por ejemplo, un prompt optimizado para contenido relacionado con adultos puede no proporcionar resultados precisos cuando se utiliza con contenido relacionado con niños.
Arquitectura del sistema
En esta etapa, tenemos una solicitud inicial que produce resultados satisfactorios en un conjunto de datos de confianza.Hemos alineado los umbrales aceptables para nuestro moderador de IA en términos de precisión y recuperación, y estamos listos para la integración del sistema.Hay algunos puntos importantes a tener en cuenta.
Hay algunos puntos importantes a tener en cuenta.- Tales sistemas requieren validación y refinamiento continuos.Es esencial establecer un proceso para anotar regularmente nuevos resultados y monitorear la exactitud en diferentes tipos de contenido.
- Un humano debe revisar casos de esquina en los que la IA no está 100% segura. Esto reduce los riesgos inmediatos y, lo más importante, permite la mejora continua del modelo y el refinamiento rápido.
Impacto comercial
The initial integration significantly improved user registration efficiency, reducing processing time by a factor of 60 while maintaining moderation quality. Additionally, automation helped us standardize the objectivity of decisions, enabling us to quickly identify new issues and needs and improve the process. The system is already reducing costs for the company, and further optimization lies ahead.
Hasta este punto, hemos utilizado las soluciones más populares y sofisticadas disponibles en el mercado. Sin embargo, debido al rápido crecimiento de la IA, ahora tenemos acceso a una amplia gama de proveedores.
We designed a flexible architecture capable of supporting multiple models simultaneously, enabling precise tuning of specific components for different models and swift replacement as needed. This extends to applying distinct models to various categories across content groups — for instance, one model addresses straightforward requests from the Asian market, while another manages complex queries from the European market.
Etapa 0-1 Resumen
Nuestra startup interna fue desarrollada por un equipo dedicado de sólo seis miembros permanentes.En varias etapas del proyecto, aprovechamos la experiencia adicional de los colegas, pero el equipo principal se mantuvo pequeño.En un corto período de tiempo, nuestro trabajo se integró con éxito en un producto a gran escala, motivando significativamente a nuestro equipo.A lo largo del proyecto, experimentamos un verdadero sentido de la experimentación, probando rápidamente una amplia gama de hipótesis, desarrollando enfoques únicos y implementándolos en vivo.
Nuestra startup interna fue desarrollada por un equipo dedicado de sólo seis miembros permanentes.✅ El sistema se ha vuelto más rápido, más rentable y más consistente en calidad, lo que me lleva a concluir que se han cumplido los objetivos de la primera fase.