Enseñe a la IA a sonar humana – Desde dentro
Muchos de nosotros hemos hablado de inteligencia artificial en los últimos meses sin darle mucha importancia. Le hicimos preguntas,

Muchos de nosotros hemos hablado de inteligencia artificial en los últimos meses sin darle mucha importancia. Le hicimos preguntas, le pedimos consejo o simplemente comprobamos qué tan bien encajaban sus habilidades. Tener una conversación naturalyo. Herramientas como ChatGPT o los modos de voz Gemini han acercado esta experiencia a algo que no hace mucho parecía reservado a la ciencia ficción, con inevitables ecos del “tú”. Pero hay una pregunta que rara vez nos hacemos cuando hablamos con ellos: ¿Cómo aprendieron estas máquinas a sonar cada vez menos como un sistema y más como una persona?
Para entenderlo es útil separar lo que vemos de lo que no vemos. Por un lado están las aplicaciones que utilizamos a diario, esos asistentes que responden con voces cada vez más naturales. Por otro lado, los sistemas que soportan, modelos entrenados con grandes cantidades de datos, deben aprender no sólo qué decir, sino también cómo decirlo. No sabemos qué productos concretos acabarán utilizando este tipo de grabaciones, pero sí sabemos que forman parte del ecosistema utilizado para formar sistemas lingüísticos cada vez más fluidos y creíbles.
La mano humana detrás de una voz artificial
Si entramos en detalles, lo que están haciendo estos trabajadores no se parece mucho a la idea clásica de «entrenar una IA». En muchos casos, implica mantener conversaciones con extraños sobre temas aparentemente triviales, desde gustos cotidianos hasta preguntas abiertas para las que es necesario desarrollar una respuesta. En otros casos, la tarea es más exigente: interpretar un papel, seguir un guión sin que lo parezca, o Entra en territorio emocional. cuenta BloombergPor ejemplo, el caso de una trabajadora que compartió recuerdos dolorosos de su vida mientras hablaba con un hombre que se presentó como sacerdote y desempeñó el papel de terapeuta como parte del ejercicio.
Todo el material grabado tiene un propósito muy específico: capturar matices. No hablamos sólo de palabras, sino también de pausas, respiraciones, cambios de tono, vacilaciones o reacciones emocionales que hacen que una conversación parezca humana. También hay tareas de etiquetado que requieren que los empleados distingan si un sonido contiene un sollozo, una risa o alguien hablando entre risas. La lógica subyacente es simple: si una máquina quiere dejar de parecer robótica, primero debe aprender cómo hablamos realmente.
Después de pasar una prueba de voz inicial, pueden calificar para tareas que comienzan en aproximadamente $17 por hora grabada.
A partir de ahí surge inevitablemente la pregunta: ¿cómo se consigue este tipo de trabajo y cuánto se gana realmente? Plataformas como Audio de Babel Actúan como intermediarios que conectan a estos trabajadores con proyectos específicos. Después de pasar una prueba de voz inicial, pueden optar por tareas que comienzan en alrededor de $17 por hora grabada. Sin embargo, el ingreso final depende de la calificación recibida y del volumen de pedidos disponibles. Los ingresos también fluctúan mucho: un empleado citado en el medio de comunicación mencionado anteriormente afirma que gana aproximadamente $600 por semana.
Cuanto más avanzamos, menos visible se vuelve el trabajo. Más allá de los aranceles y la promesa de flexibilidad, la evidencia apunta a un entorno caracterizado por la incertidumbre y el control constante. Las plataformas pueden restringir el acceso a tareas, pausar proyectos o suspender cuentas sin explicaciones detalladas, dejando a muchos trabajadores en una posición precaria. Además, cada conversación está sujeta a métricas en tiempo real que evalúan si alguien habla demasiado o demasiado poco, la expresividad, las habilidades lingüísticas, la profundidad del intercambio e incluso la duración de las pausas.
Cuando ampliamos el enfoque, el debate ya no es sólo laboral sino también personal. Parte del valor de estos registros es precisamente que capturan cómo hablamos y cómo nos comportamos, lo que implica que los trabajadores son ellos. Proporcionar algo más que una simple tarea mecánica. Los términos generalmente permiten el uso de estas grabaciones en asistentes de voz, síntesis de voz y «otros productos y servicios relacionados con el audio».
Si conectamos todas las piezas, vemos una industria que funciona gracias a una compleja cadena de producción. El Centro Pulitzer describe Este ecosistema se asemeja a una red de trabajo fragmentada donde los trabajadores suelen estar sujetos a acuerdos de confidencialidad, operan con muy poca transparencia y, en muchos casos, ni siquiera saben en qué sistema se están capacitando o en qué empresa terminará su trabajo. En este contexto, las conversaciones que alimentan los sistemas de voz son sólo una parte de una máquina más grande en la que cada tarea contribuye al desarrollo de tecnologías cada vez más sofisticadas.
Imágenes | con Nano Plátano 2 | Captura de pantalla
En | Enhorabuena, ya estás programando sin tener conocimientos de programación. Ahora prepárate para esperar seis semanas hasta que Apple te escuche