Hacer un robot que reaccione a los gestos de la cara con visión por computador y Arduino

En otros posts ya hemos visto como controlar un robot (o un brazo robótico en nuestro caso) con Arduino desde el navegador usando distintos medios de entrada como voz o gestos. La intención de este post es controlarlo con los gestos de la cara. Que reaccione a nosotros de diversas formas. Para ello, como en casos anteriores, usaremos Processing, en concreto su versión en Javascript, P5.js con la librería ML5.js que integra varios modelos de Tensorflow.js.

Para ver cómo funciona la parte de Arduino podéis ver este post y para el control desde el navegador este otro.

La idea

Para este proyecto vamos a usar facemesh, esta red neuronal estima la posición de distintos puntos clave de la cara (468 puntos) en tres dimensiones a partir de una imagen en dos dimensiones. Estos puntos forman una malla sobre la cara. Los puntos se concentran en zonas representativas de la cara. Delimitan zonas como las cejas, nariz, labios, ojos, …. Calculando las posiciones relativas de estos puntos uno respecto al otro
deducimos que expresión facial tienes, una vez veamos la expresión lo que haremos será que el robot reaccione a la misma.

El primer gesto es que el robot te siga con la mirada. ¿Mirada? ¿No era un brazo? Si, y como podéis ver en la foto inferior le he puesto ojitos de cartón. Para ello tomara como referencia el punto medio entre los dos ojos midwayBetweenEyes y según se desplace por la pantalla girara la base del brazo en una dirección u otra. Para hacerlo más sencillo la cámara va a estar justo encima del brazo por lo que tomara  el punto central de la pantalla como posición inicial, a partir de ahí girará a derecha o izquierda. La conversación de grados a pixels habrá que ajustarla para cada cámara. Ya que dependerá del ángulo de visión de la misma. Trabajaremos en bloques de 20 pixeles. Así evitaremos temblores en el movimiento. Si intentamos ajustar «al pixel» se producirán temblores ya que debido al ruido el punto dónde lo detecta puede variar.

  [centroOjosX, centroOjosY] = predictions[i].annotations.midwayBetweenEyes[0];

...

function gestoCentroCara(){
  //ang.del brazo con la cara a la izquerda
  let minAng = 30;
  //ang.del brazo con la cara a la derecha
  let maxAng = 150; 
  //pixeles por parte
  let pixelsParte = 20;  
  //partes en laimagen
  let partes = 640 / pixelsParte;  
  //En que parte esta la cara
  let parteCentroOjos = Math.floor(centroOjosX/pixelsParte);  
  //Grados que mueve el brazo por parte
  let gradosParte = (maxAng-minAng) / partes;   
  //Grados que hay que mover el brazo
  anguloBase = maxAng  - Math.floor(gradosParte * parteCentroOjos);
}

El siguiente gesto es acercar «la cabeza» cuando te acerques, ¿cómo haremos esto? Con el tamaño de la cabeza (cuidado con los cabezones), lo que haremos será medir el ancho del cuadrado que contiene la cabeza y según la misma calcularemos aproximadamente la distancia a la que está. De tal forma que si el cuadrado se incrementa el robot «sentirá» que te estás acercando.

  [topLeftX, topLeftY] = predictions[i].boundingBox.topLeft[0];
  [bottomRightX, bottomRightY] = predictions[i].boundingBox.bottomRight[0];
  faceWidth = bottomRightX - topLeftX;
  faceHeight = bottomRightY - topLeftY;

...

function gestoDistanciaCabeza(){
  if(faceWidth > 320){
    anguloHombro = 140;
  } else if(faceWidth > 200){
    anguloHombro = 110;
  } else {
    anguloHombro = 90;
  }
}

El último gesto es imitar los movimientos de la boca, de tal manera que cuando abres la boca abre la pinza y cuando cierras la boca cierra la pinza. Para ello miraremos los puntos que hay inferior y superior de los labios y calcularemos su distancia, pasado cierto límite se considera abierta.

  [labioArribaX, labioArribaY] = predictions[i].annotations.lipsUpperInner[5];
  [labioAbajoX, labioAbajoY] = predictions[i].annotations.lipsLowerInner[5];

...

function gestoBoca(){
  if(labioAbajoY - labioArribaY > 15){
    anguloMano = 10; //abierta
  } else {
    anguloMano = 35; //cerrada
  }    
}

Ejemplo de detección

Puedes ver cómo funciona todo esto en el siguiente video de mi canal de Youtube:

Haz click para ver el vídeo en mi canal de Youtube

El código

La estructura de datos que nos devuelve faceMesh ante cada detección (puede detectar más de una cara pero nosotros leeremos solo la primera) es la siguiente:

faceInViewConfidence: 1 //confianza en el resultado
boundingBox: Object //esquinas del cuadrado de la cara
mesh: Array(468) //malla
scaledMesh: Array(468) //mala normalizada
annotations: Object //datos estructurados

Nosotros vamos a usar dos campos annotations, que nos devuelve las coordenadas de cada parte de la cara y boundingBox que nos define un cuadrado donde se encuentra la cara.

boundingBox: Object
    topLeft: Array(1)
    bottomRight: Array(1)
annotations: 
    silhouette: Array(36)
    lipsUpperOuter: Array(11)
    lipsLowerOuter: Array(10)
    lipsUpperInner: Array(11)
    lipsLowerInner: Array(11)
    rightEyeUpper0: Array(7)
    rightEyeLower0: Array(9)
    rightEyeUpper1: Array(7)
    rightEyeLower1: Array(9)
    rightEyeUpper2: Array(7)
    rightEyeLower2: Array(9)
    rightEyeLower3: Array(9)
    rightEyebrowUpper: Array(8)
    rightEyebrowLower: Array(6)
    leftEyeUpper0: Array(7)
    leftEyeLower0: Array(9)
    leftEyeUpper1: Array(7)
    leftEyeLower1: Array(9)
    leftEyeUpper2: Array(7)
    leftEyeLower2: Array(9)
    leftEyeLower3: Array(9)
    leftEyebrowUpper: Array(8)
    leftEyebrowLower: Array(6)
    midwayBetweenEyes: Array(1)
    noseTip: Array(1)
    noseBottom: Array(1)
    noseRightCorner: Array(1)
    noseLeftCorner: Array(1)
    rightCheek: Array(1)
    leftCheek: Array(1)

Para calcular la distancia solo tomaremos los puntos X eY, ignoraremos el Z. Si OS preguntáis porqué no usamos esa Z, es porque en mis pruebas no da la profundidad respecto a la cámara, sino respecto al resto de puntos de la cara.

Código HTML:

<html>
  <head>
    <meta charset="UTF-8" />
    <title></title>
    <script src="https://cdnjs.cloudflare.com/ajax/libs/p5.js/0.9.0/p5.min.js"></script>  
    <script src="https://cdnjs.cloudflare.com/ajax/libs/p5.js/0.9.0/addons/p5.dom.min.js"></script>  
    <script src="https://unpkg.com/p5-webserial@0.1.1/build/p5.webserial.js"></script>  
    <script src="https://unpkg.com/ml5@latest/dist/ml5.min.js"></script>  
    <style></style>
  </head>
  <script src="sketch.js"></script>  
  <body>
    <h1>Control usando gestos</h1>
  </body>
</html>

Código JS:

let facemesh;
let video;
let predictions = [];
let labioArribaX, labioArribaY;
let labioAbajoX, labioAbajoY;
let centroOjosX, centroOjosY;
let faceWidth, faceHeight;

let anguloBase = 90;
let anguloHombro = 90;
let anguloMano = 35;
let terminado = false;
let hayPrediccion = false;

//puerto serie
const serial = new p5.WebSerial();

function setup() {
  createCanvas(640, 480);
  portButton = createButton("Elegir puerto");
  portButton.position(5, 5);
  portButton.mousePressed(choosePort);
  let botonApagar = createButton("Terminar");
  botonApagar.position(300, 5);
  botonApagar.mousePressed(() => {    
    terminado = true;
    anguloBase = 90;
    anguloHombro = 90;
    anguloMano = 35;    
    send("Q");   
    console.log("Brazo en posisicion incial");
  });
  video = createCapture(VIDEO);  
  video.size(width, height);
  inicializarSerial();
  facemesh = ml5.facemesh(video, modelReady);
  //si hay datos de una cara actualizar predictions 
  facemesh.on("predict", results => {
    predictions = results;
  });  
  video.hide();
  //enviar datos al brazo cada 250ml
  setInterval(actualizarAngulos, 250);
}

function modelReady() {
  console.log("Model ready!");
}

function draw() {
  image(video, 0, 0, width, height);
  dibujarPuntos()
  if(hayPrediccion){
    gestoCentroCara()
    gestoDistanciaCabeza()
    gestoBoca()
    hayPrediccion = false
  }
}

function dibujarPuntos() {  
   if(predictions.length > 0) {
    let i = 0;//solo la primera prediccion
    hayPrediccion = true;
    [labioArribaX, labioArribaY] = predictions[i].annotations.lipsUpperInner[5];
    [labioAbajoX, labioAbajoY] = predictions[i].annotations.lipsLowerInner[5];
    [centroOjosX, centroOjosY] = predictions[i].annotations.midwayBetweenEyes[0];
    [topLeftX, topLeftY] = predictions[i].boundingBox.topLeft[0];
    [bottomRightX, bottomRightY] = predictions[i].boundingBox.bottomRight[0];
    faceWidth = bottomRightX - topLeftX;
    faceHeight = bottomRightY - topLeftY;
    
    fill(0, 255, 0);
    ellipse(labioArribaX, labioArribaY, 5, 5);
    ellipse(labioAbajoX, labioAbajoY, 5, 5);
    ellipse(centroOjosX, centroOjosY, 5, 5);
    ellipse(centroOjosX, centroOjosY, 5, 5);
    noFill();
    rect(topLeftX, topLeftY, faceWidth, faceHeight);
    
  }
}

function gestoCentroCara(){
  //ang.del brazo con la cara a la izquerda
  let minAng = 30;
  //ang.del brazo con la cara a la derecha
  let maxAng = 150; 
  //pixeles por parte
  let pixelsParte = 20;  
  //partes en laimagen
  let partes = 640 / pixelsParte;  
  //En que parte esta la cara
  let parteCentroOjos = Math.floor(centroOjosX/pixelsParte);  
  //Grados que mueve el brazo por parte
  let gradosParte = (maxAng-minAng) / partes;   
  //Grados que hay que mover el brazo
  anguloBase = maxAng  - Math.floor(gradosParte * parteCentroOjos);
}

function gestoDistanciaCabeza(){
  if(faceWidth > 320){
    anguloHombro = 140; //cerca
  } else if(faceWidth > 200){
    anguloHombro = 110; //medio
  } else {
    anguloHombro = 90; //lejos
  }
}

function gestoBoca(){
  if(labioAbajoY - labioArribaY > 15){
    anguloMano = 10; //abierta
  } else {
    anguloMano = 35; //cerrada
  }    
}

function actualizarAngulos(){
  if(!terminado){
    send("S1:"+anguloBase);
    send("S3:"+anguloHombro);
    send("S4:"+anguloMano);   
    console.log(anguloBase, anguloHombro, anguloMano);
  }
}

//-----PUERTO SERIE-------

//enviar datos al puerto serie
function send(cmd) {    
    serial.write(cmd+"\n");
}
 
//leer datos del puerto serie
function serialEvent() {
    let readSerialStr = serial.readLine();
    trim(readSerialStr);
    if (readSerialStr) {
        console.log(readSerialStr);
    }
}
 
//incializar la conexion serie
function inicializarSerial() {
    if (!navigator.serial) {
        alert("WebSerial no sorportado. Prueba Chrome o Edge.");
    }
    serial.getPorts();
    serial.on("noport", showPortButton);
    serial.on("portavailable", openPort);
    serial.on("requesterror", portError);
    serial.on("data", serialEvent);
    serial.on("close", closePort);
    navigator.serial.addEventListener("connect", portConnect);
    navigator.serial.addEventListener("disconnect", portDisconnect);
    let statusText = "Puerto serie incializado<br>"
    select('#status').html(statusText);
}
 
// Muestra la ventana de seleccion de puerto
function choosePort() {
    console.log("ChoosePort");
    showPortButton();
    serial.requestPort();
}
 
//abrir conexion con puerto serie
function openPort() {
    console.log("Abriendo puerto serie");
    serial.open().then(initiateSerial);
    function initiateSerial() {
        console.log("Puerto serie abierto");
    }
    hidePortButton();
}
 
//Cerrar conexion con puerto serie
function closePort() {
    console.log("Puerto serie cerrado");
    serial.close();
    showPortButton();
}
 
//Error con el puerto serie
function portError(err) {
    alert("Serial port error: " + err);
    showPortButton();
}
 
//Evento puerto serie conectado
function portConnect() {
    console.log("Puerto serie conectado");
    serial.getPorts();
    hidePortButton()
}
 
//Evento puerto serie desconectado
function portDisconnect() {
    serial.close();
    console.log("Puerto serie desconectado");
    showPortButton();
}
 
function showPortButton() {
    portButton.show();
}
 
function hidePortButton() {
    portButton.hide();
}

Bark. Generar audio texto a voz usando prompts

Vamos a ver el proyecto Bark que permite convertir de texto a voz, pero nos da capacidad de modificar ese audio con indicaciones de texto. Veamos como funciona.

Instalación

Necesitaras tener python y pip para realizar la instalación, requiere unas cuantas librerías para que todo funcione, dejo aquí todos los comandos que necesite hasta que lo hice funcionar

git clone https://github.com/suno-ai/bark
cd bark
pip install .

pip install scipy
pip install -U encodec 
pip install funcy
pip install tqdm
pip install transformers

¡Listo!

Uso

Como cualquier otro programa que convierte de texto a audio tienes que pasarle el texto. Por ejemplo:

Hola me llamo Paco y tengo de risas un rato
Me llamo Paco y me voy a por tabaco

Pero un prompt muy pobre seria si no te permitiera añadir «algo más» que solo el texto y asi es, te permite añadir «ambiente»usando diferente modificadores, por ejemplo podemos decirle que cante añadiendo ♪ o que haya risas añadiendo [laughs], por lo general estos modificares funcionan mejor para el idioma inglés, en español muchas veces se convierten en ruidos raros.

Hola me llamo Paco y tengo de risas un rato [laughs],
♪ Me llamo Paco y me voy a por tabaco ♪

Algunos modificadores que se pueden usar en el prompt:

[laughter]
[laughs]
[sighs]
[music]
[gasps]
[clears throat]
—  (pausa)
... (para una pausa)
♪ (cantar)
MAYUSCULAS (enfasis)
[MAN] (voz de hombre)
[WOMAN] (voz de mujer)
emoticonos (no tengo claro si funcionan)

Ejemplos de código

Vamos a ver como usar Bark, estos ejemplos están pensados para usar la CPU y el modelo pequeño, esto se puede configurar con las siguientes variables, poniéndolas a 0 o 1:

#Usar modelos pequeños 1 
os.environ["SUNO_USE_SMALL_MODELS"] = '1'
#1 Usar CPU 0 Usar GPU
os.environ["SUNO_OFFLOAD_CPU"] = '1'

Veamos el caso más sencillo:

import os
#Usar modelos pequeños 1 
os.environ["SUNO_USE_SMALL_MODELS"] = '1'
#1 Usar CPU 0 Usar GPU
os.environ["SUNO_OFFLOAD_CPU"] = '1'

from bark import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav

#descargar modelos
preload_models()

text_prompt = """
     Hola me llamo Paco y tengo de risas un rato
     ♪ Me llamo Paco y me voy a por tabaco ♪ 
"""
audio_array = generate_audio(text_prompt)

# guardar audio
write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)

El problema de este ejemplo es que elige automáticamente la voz que considera adecuada, ahora veremos con elegirla nosotros, es tan simple como pasar el nombre de la voz en el parámetro history_prompt al llamar a la función generate_audio. Para saber que voces podemos elegir puedes mirar aquí.

Veamos un ejemplo de código:

import os
#Usar modelos pequeños 1 
os.environ["SUNO_USE_SMALL_MODELS"] = '1'
#1 Usar CPU 0 Usar GPU
os.environ["SUNO_OFFLOAD_CPU"] = '1'

from bark import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav

#descargar modelos
preload_models()

text_prompt = """
     Hola me llamo Paco y tengo de risas un rato
     ♪ Me llamo Paco y me voy a por tabaco ♪ 
"""
audio_array = generate_audio(text_prompt, history_prompt="v2/es_speaker_1")

# guardar audio
write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)

Uno de los limites de Bark es que puede generar audios de unos 13 segundo de duración. Ese problema se puede resolver creando varios resultados para luego concatenarlos. En el siguiente ejemplo usaremos dos voces y añadiremos un silencio entre ellas, el truco aquí es generar varios arrays y concatenarlos:

import os
#Usar modelos pequeños 1 
os.environ["SUNO_USE_SMALL_MODELS"] = '1'
#1 Usar CPU 0 Usar GPU
os.environ["SUNO_OFFLOAD_CPU"] = '1'

from bark import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav

import numpy as np

#descargar modelos
preload_models()

#primera voz
text_prompt1 = """
     Hola me llamo Paco y tengo de risas un rato
     ♪ Me llamo Paco y me voy a por tabaco ♪ 
"""
audio_array1 = generate_audio(text_prompt1, history_prompt="v2/es_speaker_1")

#crear silencio
silence = np.zeros(int(0.5 * SAMPLE_RATE)) 

#segunda voz
text_prompt2 = """
     Hola me llamo SUSANA... 😦 y todo me sale rana
"""
audio_array2 = generate_audio(text_prompt2, history_prompt="v2/es_speaker_8")
audio_array = np.concatenate([audio_array1, silence.copy(), audio_array2])

# guardar audio
write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)

Puede ver todo estos ejemplos funcionando en el siguiente vídeo de mi canal de Youtube:

Haz click para ver el vídeo en mi canal de Youtube

Whisper + ChatGPT = ¿Auto-Tune para escritores?

El siguiente texto ha sido generado usando ChatGPT a partir de un audio. Para entender de que va esto puedes ver el vídeo que hay tras el parrafo. Para los prompt lovers el prompt usado es: El texto que viene tras los dos puntos es una transcripción, corrige los errores y reescribe el texto para un blog de tecnología, usa un estilo profesional pero informal:

Soy de esas personas que creen que lo más difícil de escribir es, precisamente, escribir. No me malinterpreten, no digo que no disfrute escribiendo. De hecho, tengo este blog y he publicado un libro. Sin embargo, sentarme frente al teclado y plasmar mis pensamientos en palabras, ya sea en papel o en una pantalla, me resulta bastante desafiante.

De hecho, es mucho más fácil hablar, porque la estructura no es tan rígida y las ideas pueden fluir de manera más desordenada. El resultado final es más sencillo y libre. Sería genial poder convertir un audio, como este que estás grabando tranquilamente, en un texto con el estilo que uno desee utilizando la Inteligencia Artificial.

Para lograrlo, existen cuatro pasos que podrías seguir.

El primero consiste en grabar este audio y utilizar una IA como, por ejemplo, Whisper, para convertirlo en texto.

El segundo paso implica preparar indicaciones sobre cómo deseas que ese texto se presente. Puedes especificar si deseas un tono didáctico, formal o informal, o incluso si quieres que se asemeje al estilo de un autor en particular. Es importante tener en cuenta estas indicaciones.

El tercer paso consiste en combinar el resultado obtenido en el primer paso con las indicaciones del segundo. Tomar el texto generado por Whisper a partir de tu audio y unirlo con las instrucciones que le proporcionas. Puedes utilizar una inteligencia conversacional, como ChatGPT u Open Assistance, para lograrlo.

Por último, el cuarto paso sería revisar el resultado, ya que aún no hemos alcanzado el punto en el que puedes dejar que una IA actúe por sí sola, con total libertad, para escribir un blog que puedas publicar directamente.

Con estas herramientas y pasos, es posible aprovechar la IA para simplificar el proceso de escritura y obtener textos adaptados a tus preferencias. Aunque todavía es necesario revisar y perfeccionar los resultados, el potencial de esta tecnología es prometedor y podría brindar nuevas oportunidades a los escritores y creadores de contenido.

Haz click en la siguiente imagen para ver en Youtube el vídeo donde se explica como se ha creado esta entrada:

Haz click para ver el vídeo en Youtube

Crear subtitulos automáticamente con Whisper

Aprovechando que ya vimos cómo instalar whisper.cpp y usarlo para convertir de audio a texto, veremos otra de las utilidades de whispper.cpp, generar subtítulos. No me refiero a solo generar el fichero con la transcripción del audio a texto. Además tiene que tener las marcas de tiempo de cuando es cada texto y el formato adecuado para que pueda cargarlo el reproductor (Usaremos VLC).

Lo primero es convertir el vídeo, en nuestro ejemplo whispercpp.webm, a un fichero de audio .wav con el formato adecuado. Para ello usaremos ffmpeg.

ffmpeg -i samples/whispercpp.webm -ar 16000 -ac 1 -c:a pcm_s16le samples/whispercpp.wav

Parar generar los subtitulo usamos el parametro -osrt, si no queremos o podemos especificar la lengua del vídeo podemos usar -l auto

/main -m models/ggml-large.bin -f samples/whispercpp.wav -l auto -osrt

Aún hay otra posibilidad más: traducir al inglés. Si eres capaz de entender el inglés leído, está opción te permite añadir subtitulos en inglés a múltiples idiomas.

Es tan sencillo como añadir el parámetro -tr

/main -m models/ggml-large.bin -f samples/whispercpp.wav -l auto -osrt -tr

Este parámetro combinado con -l auto para que autodetecte el lenguaje lo convierte en un traductor universal…para unos cuantos lenguajes de la Tierra, siempre y cuando sepas inglés. Aunque en este caso el resultado ha sido muy bueno al principio del audio y bastante desastre al final.

Si quieres, puedes ver los explicado en este post en acción, haz click en la siguiente imagen para ver un vídeo de mi canal de Youtube:

Haz click en la imagen para ver el vídeo en Youtube

Instala Whisper en local, sin necesidad de GPU

Whisper es, posiblemente, uno de los sistemas más avanzados para convertir audio a texto. Ha sido desarrollado por OpenAI y tiene la gran ventaja de ser código libre sin embargo surge el problema de usarlo en máquinas que no tengan carismas tarjetas con potentes GPUs y grandes cantidades de RAM dedicadas. Por suerte tenemos proyectos que adaptan su uso a CPU como Whisper,cpp con lo que podemos usarlo en un ordenador medianamente potente.

Los pasos para instalarlos son muy sencillos

Clonar el proyecto de Github (necesitaras tener git instalado).

git clone https://github.com/ggerganov/whisper.cpp

Vamos al directorio del proyecto y construimos el main

cd whisper.cpp
make main

Descargamos el modelo que deseemos usar. En la siguiente tablas esta el listado de modelos con su tamaño en disco y el consumo de RAM. Los terminados en «.en» significan que solo es en inglés:

ModeloTamaño en discoTamaño en memoria (RAM)
tiny75 MB~390 MB
tiny.en75 MB~390 MB
base142 MB~500 MB
base.en142 MB~500 MB
small466 MB~1.0 GB
small.en466 MB~1.0 GB
medium1.5 GB~2.6 GB
medium.en1.5 GB~2.6 GB
large-v12.9 GB~4.7 GB
large2.9 GB~4.7 GB

Una vez sepamos que modelos queremos lo descargamos:

bash ./models/download-ggml-model.sh base

Podemos descargar cuantos modelos como queramos.

Para probar que todo va bien usaremos uno de los ejemplos que vienen con el código:

./main -m models/ggml-base.bin -f samples/jfk.wav -l auto 

Alguno parámetros útiles:

-m indica el modelo a usar

-f el archivo de sonido a transcribir

-l el lenguaje en que esta el audio, con auto lo detecta el propio whisper.

-otxt fichero de texto donde se almacena la salida

-pc usa colores para indicar el nivel de confianza en cada palabra

-h muestra una lista de parámetros y su explicación

¿Y para usar nuestros propios audios?. Podemos usar ffmpeg para convertirlos.

Por ejemplo de test.mp3 a test.wav:

ffmpeg -i test.mp3 -ar 16000 -ac 1 -c:a pcm_s16le test.wav

Puedes ver el proceso en vídeo en mi canal de Youtube haciendo click en la siguiente imagen:

Haz click para ver el vídeo en Youtube

Controlar un brazo robótico con Arduino usando visión por computador

Ya hemos controlado Arduino y el brazo robótico desde una web y con la voz, ahora toca hacerlo con gestos usando la webcam. Eso significa que necesitaremos usar alguna forma de estimar la posición del brazo y de la mano.

Este proyecto se basa en p5.js junto con la libreria ML5js que encapsula varios modelos de redes neuronales de TensorFlow.js (¿Os acordáis cuando TensorFlow era lo más increíble de la IA?…pues no hace tanto) para usarlos de manera sencilla. Vamos a usar dos modelos distintos uno para el cuerpo posenet y otro para la mano handpose (efectivamente, los nombres no son los más originales del mundo).

En este articulo nos vamos a centrar solo en la parte de la visión por computador, para entender como funciona el software usado en Arduino o como se le envía datos de desde la web puedes consultar los enlaces: control del brazo y controlar Arduino desde la web

Modelos

Ambos modelos funcionan de una forma similar, marcando puntos clave en el esqueleto y la mano. Nosotros tomaremos solo unos pocos puntos que usaremos para calcular el movimiento del brazo y de la mano.

Mano

El modelo de la mano tiene los siguientes puntos:

IndiceParte
0muñeca
1,2,3,4pulgar
5,6,7,8índice
9,10,11,12corazón
13,14,15,16anular
17,18,19,20meñique

Usaremos los puntos asociados a la punta del pulgar (4) y del corazón (12)

Si la distancia entre esos dos puntos es menor que un valor dado la mano del robot se cierra y si es mayo que ese valor la mano se abre.

//distancia entre dos puntos
function distance(x1,y1,x2,y2){
  return Math.sqrt(Math.pow(x1-x2, 2) + Math.pow(y1-y2, 2));  
}

Brazo

El modelo del cuerpo (posenet) tiene los siguientes puntos:

IndiceParte
0nariz
1ojo izquierdo
2ojo derecho
3oreja izquierda
4oreja derecha
5hombro izquierdo
6hombro derecho
7codo izquierdo
8codo derecho
9muñeca izquierda
10muñeca derecha
11cadera izquierda
12cadera derecha
13rodilla izquierda
14rodilla derecha
15tobillo izquierdo
16tobillo derecho

En mi caso usare los puntos asociados al hombro (6), codo (8) y muñeca (10) del brazo derecho. Con ellos trazaremos dos rectas una del hombro al codo y otra de la muñeca al codo. Usaremos el ángulo entre esas dos rectas para mover el brazo robótico. Moveremos los servos del codo y del hombro. Ignoraremos la base del brazo robótico, ese servo se va a quedar quieto

Pendiente de una recta definida por dos puntos

m = (y2-y1) / (x2-x1)

Ahora que tenemos la pendiente de cada recta (m1, m2) podemos calcular el angulo entre ellas:

g = arctg( ( m1-m2) / (1-m1m2) )

Como la función arcotangente de JS devuelve radianes tendremos que convertir a grados multiplicando por:

g * 180/PI

En código:

//pendiente de una recta definida por dos puntos
function pendiente(x1,y1, x2,y2){
  return (y1-y2)/(x1-x2);  
}

//angulo entre dos rectas  
function angulo(m1,m2){
  return (Math.atan((m1-m2)/(1-(m1*m2))) * 180/ Math.PI);  
}

Transladando movimientos

Seria genial simplemtne transladar los movimientos del brazo en la camara al robot, pero la cosa es un poco más complicada. Ya que no se parecen.

Si bien es fácil hacer una pinza con la mano es un poco más difícil adaptar el brazo humano al del robot:

Para evitar complicaciones innecesarias simplemente mediremos el angulo entre el brazo y el antebrazo y estiraremos o encogeremos el brazo robótico.

Otra cosa que es necesario hacer para que el movimiento sea estable y que no tiemble el brazo (el robótico) es que los movimientos no van a ser continuos, por ejemplo el brazo solo avanzara cuando el angulo del brazo humano se modifique en 10 grados. Y la mano tendrá un rango de distancia que no cambiara de estado si esta cerrada seguirá cerrada, si esta abierta seguirá abierta. Como ayuda visual estos cambios se indicaran con cambios de color en la imagen.

Código para la mano:

// marca los keypoints de la mano
function drawHandKeypoints() {
  if(predictions.length > 0) {
    const keypoint1 = predictions[0].landmarks[4];
    const keypoint2 = predictions[0].landmarks[12];
    
    const dist = distance(keypoint1[0], keypoint1[1], keypoint2[0], keypoint2[1]);
    //console.log(dist);
    
    //calcula la posicion del servo
    if(dist > distOpen){
      manoPos = manoPosMin;
      fill(0, 0, 255);
    } else if(dist < distOpen && dist > distClose){ 
      manoPos = manoPosMin;
      fill(0, 255, 255);
    } else {
      manoPos = manoPosMax;
      fill(255, 255, 255);
    }

    //dibuja los keypoints
    noStroke();
    ellipse(keypoint1[0], keypoint1[1], 10, 10);  
    ellipse(keypoint2[0], keypoint2[1], 10, 10);  
  }
}

Código para el brazo:

// marca los keypoints de la pose 
function drawPoseKeypoints()  {
  // Si ha detectado una pose
  if(poses.length > 0){
    let pose = poses[0].pose;
    
    //lee los keypoints de la pose que buscamos
    let manoKeypoint = pose.keypoints[6];
    let codoKeypoint = pose.keypoints[8];
    let hombroKeypoint = pose.keypoints[10];
    
    //dibuja los keypoints
    fill(255, 0, 0);
    noStroke();
    ellipse(manoKeypoint.position.x, manoKeypoint.position.y, 10, 10);
    ellipse(codoKeypoint.position.x, codoKeypoint.position.y, 10, 10);
    ellipse(hombroKeypoint.position.x, hombroKeypoint.position.y, 10, 10);
    
    let mManoCodo = pendiente(manoKeypoint.position.x, manoKeypoint.position.y, codoKeypoint.position.x, codoKeypoint.position.y);
    let mHombroCodo = pendiente(hombroKeypoint.position.x, hombroKeypoint.position.y,codoKeypoint.position.x, codoKeypoint.position.y);
    
    let ang = Math.abs(angulo(mManoCodo,mHombroCodo));
    //console.log("angulo "+ang);     
    
    //calcula la posicion de los servos
    if(ang > 80){            
      hombroPos = hombroPosMin;
      codoPos = codoPosMin;      
      stroke(255, 255, 255);
    } else if(ang > 70){  
      hombroPos = hombroPosMin+10;
      codoPos = codoPosMin+10;      
      stroke(255, 100, 100);    
    } else if(ang > 60){  
      hombroPos = hombroPosMin+20;
      codoPos = codoPosMin+20;      
      stroke(255, 50, 50);     
    } else if(ang > 50){  
      hombroPos = hombroPosMin+30;
      codoPos = codoPosMin+30;      
      stroke(200, 0, 0);         
    } else if(ang > 40){  
      hombroPos = hombroPosMin+40;
      codoPos = codoPosMin+40;      
      stroke(128, 0, 0);    
    } else if(ang > 30){  
      hombroPos = hombroPosMax;
      codoPos = codoPosMax;  
      stroke(0, 0, 0);      
    } else {
      stroke(0, 255, 0); 
    }
    
    //dibuja el esqueleto
    line(manoKeypoint.position.x, manoKeypoint.position.y, codoKeypoint.position.x, codoKeypoint.position.y);
    line(hombroKeypoint.position.x, hombroKeypoint.position.y,codoKeypoint.position.x, codoKeypoint.position.y);
  }
}

Enviar datos al Arduino

Una vez leídas las posiciones del brazo y la mano y convertidas a ángulos del brazo robótico se envían al Arduino.

//Actualizamos la posicion del brazo
function updatePosition(){  
  send("S2:"+codoPos);
  send("S3:"+hombroPos);
  send("S4:"+manoPos);
}

Enviar los datos demasiado rápido surgen dos problemas:

  • Saturar el puerto serie lo cual bloquearía la placa
  • No dar tiempo al servo a posicionarse antes de cambiar a una nueva posición lo cual hace que el brazo tiemble

Para evitar todo esto vamos a actualizar las posiciones de los servos cuarto de segundo, tiempo calculado a base de prueba y error, para ello usaremos setInterval(updatePosition, 250);

Código completo

Index.html

<html>
<head>
  <meta charset="UTF-8">
  <title>Mover brazo con CV</title>
  <script src="https://cdnjs.cloudflare.com/ajax/libs/p5.js/0.9.0/p5.min.js"></script>
  <script src="https://cdnjs.cloudflare.com/ajax/libs/p5.js/0.9.0/addons/p5.dom.min.js"></script>
  <script src="https://unpkg.com/p5-webserial@0.1.1/build/p5.webserial.js"></script>  
  <script src="https://unpkg.com/ml5@latest/dist/ml5.min.js"></script>
</head>
<body>
  <h1>CV control</h1>
  <p id='status'>Cagando modelos:</p>
  <script src="sketch.js"></script>
</head>
</body>
</html>

sketch.js:

let video;
let poseNet;
let poses = [];
let handpose;
let predictions = [];
let hombroPos = 90;
let codoPos = 120;
let manoPos = 10;
  
let hombroPosMax = 150;
let codoPosMax = 170;
let manoPosMax = 35;
let hombroPosMin = 80;
let codoPosMin = 90;
let manoPosMin = 10;
const distOpen = 70;
const distClose = 25;
let statusText = "";

//puerto serie
const serial = new p5.WebSerial();

function setup() {
  createCanvas(640, 480);
  portButton = createButton("Elegir puerto");
  portButton.position(5, 5);
  portButton.mousePressed(choosePort);
  let botonApagar = createButton("Pos. Inicial");
  botonApagar.position(300, 5);
  botonApagar.mousePressed(() => {    
    send("Q");   
    hombroPos = 90;
    codoPos = 120;
    manoPos = 10;
  });
  
  video = createCapture(VIDEO);
  video.size(width, height);
  inicializarSerial();
  setInterval(updatePosition, 250);
  // deteccion de la pose
  poseNet = ml5.poseNet(video, modelPoseReady);  
  poseNet.on('pose', function(results) {
    poses = results;
  });
  // deteccion de la mano
  handpose = ml5.handpose(video, modelHandReady);
  handpose.on("predict", results => {
    predictions = results;
  });  
  
  video.hide();
}

function modelPoseReady() {
  statusText += "Modelo para la pose cargado<br>"
  select('#status').html(statusText);
}

function modelHandReady() {
  statusText += "Modelo para la mano cargado<br>"
  select('#status').html(statusText);
}

function draw() {
  image(video, 0, 0, width, height);
  // Dibujamos los keypoints
  drawPoseKeypoints();
  drawHandKeypoints();
}

// marca los keypoints de la pose 
function drawPoseKeypoints()  {
  // Si ha detectado una pose
  if(poses.length > 0){
    let pose = poses[0].pose;
    
    //lee los keypoints de la pose que buscamos
    let manoKeypoint = pose.keypoints[6];
    let codoKeypoint = pose.keypoints[8];
    let hombroKeypoint = pose.keypoints[10];
    
    //dibuja los keypoints
    fill(255, 0, 0);
    noStroke();
    ellipse(manoKeypoint.position.x, manoKeypoint.position.y, 10, 10);
    ellipse(codoKeypoint.position.x, codoKeypoint.position.y, 10, 10);
    ellipse(hombroKeypoint.position.x, hombroKeypoint.position.y, 10, 10);
    
    let mManoCodo = pendiente(manoKeypoint.position.x, manoKeypoint.position.y, codoKeypoint.position.x, codoKeypoint.position.y);
    let mHombroCodo = pendiente(hombroKeypoint.position.x, hombroKeypoint.position.y,codoKeypoint.position.x, codoKeypoint.position.y);
    
    let ang = Math.abs(angulo(mManoCodo,mHombroCodo));
    //console.log("angulo "+ang);     
    
    //calcula la posicion de los servos
    if(ang > 80){            
      hombroPos = hombroPosMin;
      codoPos = codoPosMin;      
      stroke(255, 255, 255);
    } else if(ang > 70){  
      hombroPos = hombroPosMin+10;
      codoPos = codoPosMin+10;      
      stroke(255, 100, 100);    
    } else if(ang > 60){  
      hombroPos = hombroPosMin+20;
      codoPos = codoPosMin+20;      
      stroke(255, 50, 50);     
    } else if(ang > 50){  
      hombroPos = hombroPosMin+30;
      codoPos = codoPosMin+30;      
      stroke(200, 0, 0);         
    } else if(ang > 40){  
      hombroPos = hombroPosMin+40;
      codoPos = codoPosMin+40;      
      stroke(128, 0, 0);    
    } else if(ang > 30){  
      hombroPos = hombroPosMax;
      codoPos = codoPosMax;  
      stroke(0, 0, 0);      
    } else {
      stroke(0, 255, 0); 
    }
    
    //dibuja el esqueleto
    line(manoKeypoint.position.x, manoKeypoint.position.y, codoKeypoint.position.x, codoKeypoint.position.y);
    line(hombroKeypoint.position.x, hombroKeypoint.position.y,codoKeypoint.position.x, codoKeypoint.position.y);
  }
}

// marca los keypoints de la mano
function drawHandKeypoints() {
  if(predictions.length > 0) {
    const keypoint1 = predictions[0].landmarks[4];
    const keypoint2 = predictions[0].landmarks[12];
    
    const dist = distance(keypoint1[0], keypoint1[1], keypoint2[0], keypoint2[1]);
    //console.log(dist);
    
    //calcula la posicion del servo
    if(dist > distOpen){
      manoPos = manoPosMin;
      fill(0, 0, 255);
    } else if(dist < distOpen && dist > distClose){ 
      fill(0, 255, 255);
    } else {
      manoPos = manoPosMax;
      fill(255, 255, 255);
    }

    //dibuja los keypoints
    noStroke();
    ellipse(keypoint1[0], keypoint1[1], 10, 10);  
    ellipse(keypoint2[0], keypoint2[1], 10, 10);  
  }
}

//pendiente de una recta definida por dos puntos
function pendiente(x1,y1, x2,y2){
  return (y1-y2)/(x1-x2);  
}

//angulo entre dos rectas  
function angulo(m1,m2){
  return (Math.atan((m1-m2)/(1-(m1*m2))) * 180/ Math.PI);  
}

//distancia entre dos puntos
function distance(x1,y1,x2,y2){
  return Math.sqrt(Math.pow(x1-x2, 2) + Math.pow(y1-y2, 2));  
}

//Actualizamos la posicion del brazo
function updatePosition(){  
  send("S2:"+codoPos);
  send("S3:"+hombroPos);
  send("S4:"+manoPos);
}

//enviar datos al puerto serie
function send(cmd) {
    console.log(cmd);
    serial.write(cmd+"\n");
}

//leer datos del puerto serie
function serialEvent() {
    let readSerialStr = serial.readLine();
    trim(readSerialStr);
    if (readSerialStr) {
        console.log(readSerialStr);
    }
}

//incializar la conexion serie
function inicializarSerial() {
    if (!navigator.serial) {
        alert("WebSerial no esta sorportado en este navegador. Prueba en Chrome o Edge.");
    }
    serial.getPorts();
    serial.on("noport", showPortButton);
    serial.on("portavailable", openPort);
    serial.on("requesterror", portError);
    serial.on("data", serialEvent);
    serial.on("close", closePort);
    navigator.serial.addEventListener("connect", portConnect);
    navigator.serial.addEventListener("disconnect", portDisconnect);
    statusText += "Puerto serie incializado<br>"
    select('#status').html(statusText);
}

// Muestra la ventana de seldccion de puerto
function choosePort() {
    showPortButton();
    serial.requestPort();
}

//abrir conexion con puerto serie
function openPort() {
    console.log("Abriendo puerto serie");
    serial.open().then(initiateSerial);
    function initiateSerial() {
        console.log("Puerto serie abierto");
    }
    hidePortButton();
}

//Cerrar conexion con puerto serie
function closePort() {
    console.log("Puerto serie cerrado");
    serial.close();
    showPortButton();
}

//Error con el puerto serie
function portError(err) {
    alert("Serial port error: " + err);
    showPortButton();
}

//Evento puerto serie conectado
function portConnect() {
    console.log("Puerto serie conectado");
    serial.getPorts();
    hidePortButton()
}

//Evento puerto serie desconectado
function portDisconnect() {
    serial.close();
    console.log("Puerto serie desconectado");
    showPortButton();
}

function showPortButton() {
    portButton.show();
}

function hidePortButton() {
    portButton.hide();
}

Puede ver un vídeo sobre este tema en mi canal de Youtube:

Haz click para ver el vídeo en Youtube

Y si estas interesado en el tema puedes ver la lista de vídeos.

Un símil para entender como «razona» ChatGPT

Vamos a intentar entender como «razona» (aceptando «razonar» en un sentido muy amplio) ChatGPT sin usar matemáticas ni términos técnicos.

Para ello vamos a usar un pequeño problema de programación, usaremos el siguiente código en javascript para calcular 5000 tiradas de dados y luego calcular la media y el histograma (número de veces que ha salido cada cara):

var a = []; 
for(var i = 0; i < 5000; i++){ 
    a.push(Math.trunc(Math.random()*6)+1); 
} 

let media=0;
let histograma=[0,0,0,0,0,0];
a.forEach(function(n){
    media += n; 
    histograma[n-1]++;
    });
media /= a.length;
console.log(a.length);
console.log(media);
console.log(histograma);

Si le preguntáramos a un humano que nos dijera que resultado va dar este código tiene dos formas de enfrentarse a este problema:

  • Mirar paso a paso que hace cada linea de código. Apunetnado en un papael el resultado de la ejecución de cada una tratando de imitar a como le ejecutaria un ordenador
  • Tomar atajos mentales, ver por encima que es lo que hace cada parte del código y junto con su experiencia intuir como funciona.

En este caso el segundo método» seria algo así como:

«Un bucle que se repite 500 veces»

«Dentro se calcula un numero del 1 al 6 ambos incluidos»

«Luego hay otro bucle y una variable llamada media y otra llamada histograma»

«Calcula la media y el histograma de 5000 tiradas»

«Por lo que se de probabilidad, todas las caras han de salir aproximadamente el mismo número de veces. en este caso 5000/6»

«La media probabilidad de tirar un dado (caso similar y muy conocido) sera de alrededor de 3.5»

Pues bien esa es la forma que usa ChatGPT para dar una respuesta. Usa su «intuición» a partir de la cantidad de ejemplos con los que ha sido entrenada. Con una diferencia. Nuestro programador humano se ha saltado partes de código al ver el nombre de las variables. ChatGPT no hace eso, procesa todas las lineas de código por lo que sus «intuiciones» son mejores.

Vamos a pedirle a ChatGPT que resuelva este mismo problema.

Actúa como si fueras una consola de Javascript y muestra únicamente (sin ningún comentario tuyo) los resultados de simular la ejecución de los distintos códigos que voy a pasarte: 

var a = []; 
for(var i = 0; i < 5000; i++){ 
    a.push(Math.trunc(Math.random()*6)+1); 
} 

let media=0;
let histograma=[0,0,0,0,0,0];
a.forEach(function(n){
    media += n; 
    histograma[n-1]++;
    });
media /= a.length;
console.log(a.length);
console.log(media);
console.log(histograma);

El resultado que debería mostrar es el numero de elementos calculados, la media y el histograma:

5000
3.5194
[ 807, 855, 865, 838, 849, 796 ]

Es un buen resultado, pero le falla que si sumas todos los valores del histograma sale 5010 en lugar de 5000. Sin embargo es imposible que haya calculado 5000 números aleatorios ChatGPT no tiene capacidad para hacer eso. Ha tenido que usar unaforma muy parecida a la nuestro programador.

Esto explica un curioso fenomeno que se produce con ChartGPT, que a veces, cuando es incapaz de resolver un problema, si le pides que lo resuelva paso a paso es capaz de llegar a la respuesta correcta.

Todo esto me recuerda al libro «Pensar rápido, pensar despacio» de Daniel Kahneman donde presenta una perspectiva interesante sobre el funcionamiento de la mente humana, sobre la forma en que tomamos decisiones. Describe dos sistemas cognitivos que trabajan en conjunto: el Sistema 1 y el Sistema 2.

El Sistema 1 es el que toma decisiones rápidas e inconscientes. Es automático, frecuente, emocional, estereotipado y subconsciente. Este sistema se encarga de procesar información de forma intuitiva y generar rápidamente juicios y decisiones. Aunque este sistema suele ser muy útil para tomar decisiones cotidianas, no siempre es confiable ya que a veces puede ser influenciado por prejuicios o sesgos cognitivos.

El Sistema 2, por otro lado, es el que toma decisiones más conscientes y racionales. Es lento, requiere esfuerzo, poco frecuente, lógico, calculador y consciente. Este sistema se encarga de analizar la información de forma crítica, evaluar alternativas y tomar decisiones basadas en la razón. Sin embargo, también puede ser susceptible a errores si se utiliza de manera inadecuada o si no se tiene la información suficiente.

Es importante destacar que ambos sistemas trabajan juntos y son necesarios para tomar decisiones efectivas. El Sistema 1 proporciona intuiciones y respuestas rápidas, mientras que el Sistema 2 se encarga de validarlas y tomar decisiones más conscientes y racionales. A veces, los juicios del Sistema 1 pueden ser engañosos o incompletos, y es entonces cuando el Sistema 2 entra en acción para corregirlos. Comprender la forma en que estos sistemas trabajan juntos nos puede ayudar a tomar decisiones más efectivas y evitar errores cognitivos comunes.

ChatGPT usaría por defecto el Sistema 1 (curiosamente tachado de emocional). Al pedirle que resuelva el problema paso a paso estaría cambiando al Sistema 2.

El problema de usar el Sistema 1 es que está sujeto a errores ya que en lugar de reflexionar sobre el problema elemento por elemento se usan heurísticas y suposiciones aprendidas de nuestra experiencia. Lo cual puede llevar a errores.

Hay que entender todo como una metáfora, no como si ChatGPT de verdad razonara usando uno de estos sistemas. Pero creo que como intuición puede servir para hacernos una idea «no técnica» de como funciona.

Puedes ver un vídeo sobre este tema en mi canal de Youtube:

Haz click para ver el vídeo en Youtube

Controlar Arduino con la voz

En esta entrada vamos a ver un ejemplo de cómo se puede utilizar la tecnología de reconocimiento de voz integrada en el navegador (Chrome y Edge principalmente) para controlar un robot a través de comandos de voz en JavaScript, para crear una experiencia de usuario más natural y simplificar el proceso de controlar una placa Arduino.

En nuestro caso controlaremos un brazo robot como ya vimos en post anteriores, donde explicábamos la parte de Arduino y el control desde una pagina web usando el puerto serie. Aprovecharemos el código creado en esos dos posts para añadirle control por voz usando la Web Speech API que permite convertir voz a texto en el navegador. Para facilitar la tarea y por similitud con la plataforma Arduino usaremos p5.js y la librería p5.js-speech. Si quieres ver cómo se usa directamente en el navegador puedes mirar este post.

No hay que olvidar que el reconocimiento de voz en el navegador de Chrome y Edge envían los datos a servidores externos. Firefox trato de resolverlo con software libre en local pero los resultados son bastante decepcionantes, sobre todo si no hablas inglés. Si quieres saber como usarlo

El diagrama de secuencia de como funciona sería el siguiente:

Lo primero es incluir las librerías necesarias en la parte HTML:

<!DOCTYPE html>
<html lang="en">
  <head>
    <script src="https://cdnjs.cloudflare.com/ajax/libs/p5.js/1.6.0/p5.js">    </script>
    <script src="https://cdnjs.cloudflare.com/ajax/libs/p5.js/1.6.0/addons/p5.sound.min.js"></script>
    <script src="https://unpkg.com/p5-webserial@0.1.1/build/p5.webserial.js"></script>
    <script src="https://cdn.jsdelivr.net/gh/IDMNYU/p5.js-speech@0.0.3/lib/p5.speech.js"></script>
    <link rel="stylesheet" type="text/css" href="style.css">
    <meta charset="utf-8" />
  </head>
  <body>
    <main>
    </main>
    <script src="sketch.js"></script>
  </body>
</html>

Veamos solo la parte del reconocimiento de voz:

let speech;
function setupSpeech() {
    // Crea un objeto de reconocimiento de voz con un callback
    speechRec = new p5.SpeechRec('es-ES', gotSpeech);
    // "Reconocimiento continuo" (en lugar de solo una vez)
    let continuous = true;
    // Si deseas probar el reconocimiento parcial (más rápido, menos preciso)
    let interimResults = false;
    // Esto debe venir después de establecer las propiedades
    speechRec.start(continuous, interimResults);
    // Evento de reconocimiento de voz
    function gotSpeech() {
        if (speechRec.resultValue) {
            let said = speechRec.resultString;
            if (said.indexOf("abre la mano") > -1) {
                send("S4:10");
                posicionMano = 10;
            } else if (said.indexOf("cierra la mano") > -1) {
                send("S4:40");
                posicionMano = 10;
            } else if (said.indexOf("gira a la derecha") > -1) {
                posicionBase -= 15;
                send("S1:" + posicionBase);
            } else if (said.indexOf("gira a la izquierda") > -1) {
                posicionBase += 15;
                send("S1:" + posicionBase);
            } else if (said.indexOf("gira al centro") > -1) {
                posicionBase = 90;
                send("S1:" + posicionBase);
            } else if (said.indexOf("mueve adelante") > -1) {
                posicionHombro -= 10;
                posicionCodo += 10;
                send("S2:" + posicionCodo);
                send("S3:" + posicionHombro);
            } else if (said.indexOf("mueve atras") > -1) {
                posicionHombro += 10;
                posicionCodo -= 10;
                send("S2:" + posicionCodo);
                send("S3:" + posicionHombro);
            }
            console.log(said);
        }
    }
}

El primer paso en el código es declarar una variable speech que se utilizará para acceder a las capacidades de conversión de voz a texto del navegador. A continuación, se define una función llamada setupSpeech(), que crea un objeto de reconocimiento de voz utilizando la biblioteca p5.js. Este objeto se utiliza para capturar el habla del usuario y procesarla en tiempo real.

La función setupSpeech() tiene varias opciones para personalizar el reconocimiento de voz. En primer lugar, se especifica el idioma del usuario con el que se realizará el reconocimiento de voz. Luego se configura el reconocimiento de voz para que sea continuo en lugar de solo una vez, lo que significa que el programa escuchará de manera continua. Además, se puede establecer la opción de reconocimiento parcial, que es más rápida pero menos precisa que el reconocimiento completo. La diferencia es que el completo espera a tener

Una vez que se han establecido las opciones de configuración, la función setupSpeech() comienza a escuchar el habla del usuario. Cada vez que se detecta una entrada de voz, se llama a la función de retorno gotSpeech(). Esta función, primero comprueba si se ha detectado alguna entrada de voz válida. Si se ha detectado una entrada de voz, se convierte en una cadena de texto y se comprueba si contiene algunas de las frases clave que se utilizan para controlar el robot. Si se encuentra una frase clave, se envía un comando al robot correspondiente a la acción deseada. Por ejemplo, si se dice «abre la mano», se envía por el puerto serie el comando «S4:10» al robot para que abra la mano. En este caso usamos un simple indexOf para buscar la frase exacta. Se podrían usar estrategias más elaboradas pero para este caso es suficiente.

El código JS completo seria (sketch.js):

const serial = new p5.WebSerial();
let portButton;
let cmdInput;
let posicionBase = 90;
let posicionHombro = 90;
let posicionCodo = 120;
let posicionMano = 10;

function setup() {
    createCanvas(400, 400);
    portButton = createButton("Elegir puerto");
    portButton.position(10, 10);
    portButton.mousePressed(choosePort);
    inicializarSerial();
    // Grupo Base
    crearGrupoBotones("Base", 1, 50, 50, () => {
        return posicionBase += 5; }, () => { return posicionBase -= 5; });
    // Grupo Hombro
    crearGrupoBotones("Hombro", 3, 50, 120, () => { 
        return posicionHombro += 5; }, () => { return posicionHombro -= 5; });
    // Grupo Codo
    crearGrupoBotones("Codo", 2, 50, 190, () => { 
        return posicionCodo += 5; }, () => { return posicionCodo -= 5; });
    // Grupo Mano
    crearGrupoBotones("Mano", 4, 50, 260, () => { 
        return posicionMano += 5; }, () => { return posicionMano -= 5; });
    let botonApagar = createButton("Pos. Inicial");
    botonApagar.position(175, 300);
    botonApagar.mousePressed(() => {
        send("Q");
        posicionBase = 90;
        posicionHombro = 90;
        posicionCodo = 120;
        posicionMano = 10;
    });
    let inputCmd = createInput();
    inputCmd.position(170, 360);
    inputCmd.size(60);
    botonCmd = createButton('->');
    botonCmd.position(240, 360);
    botonCmd.mousePressed(() => { send(inputCmd.value()) });
    setupSpeech();
}

let speech;

function setupSpeech() {
    // Crea un objeto de reconocimiento de voz con una función de retorno
    speechRec = new p5.SpeechRec('es-ES', gotSpeech);
    // "Reconocimiento continuo" (en lugar de solo una vez)
    let continuous = true;
    // Si deseas probar el reconocimiento parcial (más rápido, menos preciso)
    let interimResults = false;
    // Esto debe venir después de establecer las propiedades
    speechRec.start(continuous, interimResults);
    // Evento de reconocimiento de voz
    function gotSpeech() {
        if (speechRec.resultValue) {
            let said = speechRec.resultString;
            if (said.indexOf("abre la mano") > -1) {
                send("S4:10");
                posicionMano = 10;
            } else if (said.indexOf("cierra la mano") > -1) {
                send("S4:40");
                posicionMano = 10;
            } else if (said.indexOf("gira a la derecha") > -1) {
                posicionBase -= 15;
                send("S1:" + posicionBase);
            } else if (said.indexOf("gira a la izquierda") > -1) {
                posicionBase += 15;
                send("S1:" + posicionBase);
            } else if (said.indexOf("gira al centro") > -1) {
                posicionBase = 90;
                send("S1:" + posicionBase);
            } else if (said.indexOf("mueve adelante") > -1) {
                posicionHombro -= 10;
                posicionCodo += 10;
                send("S2:" + posicionCodo);
                send("S3:" + posicionHombro);
            } else if (said.indexOf("mueve atras") > -1) {
                posicionHombro += 10;
                posicionCodo -= 10;
                send("S2:" + posicionCodo);
                send("S3:" + posicionHombro);
            }
            console.log(said);
        }
    }
}

function draw() {
    background(220);
    // Mostrar los valores actuales de las posiciones
    textSize(20);
    text("Base: " + posicionBase, 150, 60);
    text("Hombro: " + posicionHombro, 150, 130);
    text("Codo: " + posicionCodo, 150, 200);
    text("Mano: " + posicionMano, 150, 270);
}

function crearGrupoBotones(nombre, servo, x, y, funcSumar, funcRestar) {
    textSize(20);
    text(nombre, x, y);
    //Sumar
    let botonSumar = createButton("+");
    botonSumar.position(x + 75, y);
    botonSumar.mousePressed(() => {
        send("S" + servo + ":" + funcSumar());
    });
    //Restar
    let botonRestar = createButton("-");
    botonRestar.position(x + 225, y);
    botonRestar.mousePressed(() => {
        send("S" + servo + ":" + funcRestar());
    });
}

//enviar datos al puerto serie
function send(cmd) {
    console.log(cmd);
    serial.write(cmd+"\n");
}

//leer datos del puerto serie
function serialEvent() {
    let readSerialStr = serial.readLine();
    trim(readSerialStr);
    if (readSerialStr) {
        console.log(readSerialStr);
    }
}

//incializar la conexion serie
function inicializarSerial() {
    if (!navigator.serial) {
        alert("WebSerial no esta sorportado en este navegador. Prueba en Chrome o Edge.");
    }
    serial.getPorts();
    serial.on("noport", showPortButton);
    serial.on("portavailable", openPort);
    serial.on("requesterror", portError);
    serial.on("data", serialEvent);
    serial.on("close", closePort);
    navigator.serial.addEventListener("connect", portConnect);
    navigator.serial.addEventListener("disconnect", portDisconnect);
}

// Muestra la ventana de seldccion de puerto
function choosePort() {
    showPortButton();
    serial.requestPort();
}

//abrir conexion con puerto serie
function openPort() {
    console.log("Abriendo puerto serie");
    serial.open().then(initiateSerial);
    function initiateSerial() {
        console.log("Puerto serie abierto");
    }
    hidePortButton();
}

//Cerrar conexion con puerto serie
function closePort() {
    console.log("Puerto serie cerrado");
    serial.close();
    showPortButton();
}

//Error con el puerto serie
function portError(err) {
    alert("Serial port error: " + err);
    showPortButton();
}

//Evento puerto serie conectado
function portConnect() {
    console.log("Puerto serie conectado");
    serial.getPorts();
    hidePortButton()
}

//Evento puerto serie desconectado
function portDisconnect() {
    serial.close();
    console.log("Puerto serie desconectado");
    showPortButton();
}

function showPortButton() {
    portButton.show();
}

function hidePortButton() {
    portButton.hide();
}

Puedes ver el siguiente vídeo sobre este tema en mi canal de Youtube:

Haz click para ver el vídeo en mi canal de Youtube

Y si estas interesado en el tema puedes ver la lista de vídeos.

El día que ChatGPT empezó a desvariar

Lo siguiente es una conversación que tuve con ChatGPT mientras comprobaba que tal se le daba explicar código ofuscado. Abajo tenéis un enlace para descargar la conversación entera en .txt

¿Puedes explicarme que hace el siguiente código?

[Codigo JS Ofuscado puedes verlo completo en el fichero .txt]

Este código es un fragmento de JavaScript ofuscado. La mayoría del código no tiene sentido o no se puede analizar sin conocer más detalles sobre el contexto.

La primera línea define una variable `_0xcde93f` y la inicializa con el valor de `_0x1c72`. Después, hay una función anónima que toma dos argumentos, `_0xc3d5d7` y `_0x23f4c3`, que no se utilizan en la función. La función contiene un bucle infinito que intenta parsear un cálculo matemático con diferentes números y operadores. No está claro por qué se hace esto.

A continuación, hay dos funciones definidas, `_0x53ad()` y `_0x1c72(_0x73422, _0x235912)`, que devuelven resultados basados en los argumentos proporcionados. Es probable que estos sean solo nombres aleatorios y sin sentido en la ofuscación.

Después de las funciones, hay una serie de líneas que crean y manipulan dos arreglos, `regexStep1` y `cutPositionsStep1`. Las expresiones regulares definidas en `regexStep1` buscan patrones específicos en una cadena, que presumiblemente se proporciona en algún lugar del código ofuscado. Los resultados de estas búsquedas se almacenan en el arreglo `cutPositionsStep1`. Sin más contexto, no está claro qué se está haciendo con estos arreglos o por qué son importantes.

En resumen, es difícil comprender qué hace el código sin más contexto y parece estar diseñado para ser difícil de leer y analizar.

¿Puedes reescribirlo de forma más legible?

Sí, aquí te dejo el mismo código reescrito con comentarios para que sea más fácil de entender:

// Crear una variable llamada _0xcde93f con el valor _0x1c72var 
_0xcde93f = _0x1c72;
// Crear una función anónima que toma dos parámetros: _0xc3d5d7 y _0x23f4c3
(function(_0xc3d5d7, _0x23f4c3) {  
    // Crear una variable _0x28b559 y asignarle el valor _0x1c72  
    var _0x28b559 = _0x1c72,    
    // Crear una variable _0x4b7050 y asignarle el resultado de _0xc3d5d7()
    _0x4b7050 = _0xc3d5d7();  
    // Un ciclo while que se ejecuta infinitamente  
    while (!![]) {    
        try {      
            // Crear una variable _0x20f7dc que se asigna con cálculos matemáticos complejos utilizando parseInt() y las variables _0x28b559 y _0x23f4c3      
            var _0x20f7dc = parseInt(_0x28b559(0x10b)) / 0x1 + parseInt(_0x28b559(0x112)) / 0x2 * (-parseInt(_0x28b559(0x10e)) / 0x3) + -parseInt(_0x28b559(0x105)) / 0x4 * (-parseInt(_0x28b559(0x115)) / 0x5) + parseInt(_0x28b559(0x10f)) / 0x6 * (-parseInt(_0x28b559(0x110)) / 0x7) + -parseInt(_0x28b559(0x10a)) / 0x8 * (-parseInt(_0x28b559(0x113)) / 0x9) + parseInt(_0x28b559(0x109)) / 0xa + parseInt(_0x28b559(0x114)) / 0xb;      
            // Si _0x20f7dc es igual a _0x23f4c3, salir del ciclo while      
            if (_0x20f7dc === _0x23f4c3) break;      
            // De lo contrario, añadir el primer elemento de _0x4b7050 al final de _0x4b7050      
            else _0x4b7050['push'](_0x4b7050['shift']());    
        } catch (_0x521b75) {      
            // En caso de error, añadir el primer elemento de _0x4b7050 al final de _0x4b7050      
            _0x4b7050['push'](_0x4b7050['shift']());    
        } 
    }  
    // La función retorna _0x4b7050
}(_0x53ad, 0x6f2d6));
// Definir una función llamada _0x53ad
function _0x53ad() {  
    // Crear una variable _0x255d18 que contiene un array de strings  
    var _0x255d18 = ['18oRggTV', '2899842YtvEcW', '530425RQsoWo',

Hasta aquí todo va bien, no es raro que se corte las respuesta, lo raro ocurrió cuando le pedí que continuase

continua

Por supuesto, aquí está la continuación de la respuesta:

Los perros son animales sociales y necesitan interacción y atención humana. Si los dejas solos durante largos períodos de tiempo, pueden desarrollar ansiedad por separación y comportamientos destructivos. También es importante tener en cuenta que los perros necesitan ejercicio diario y un ambiente seguro y estimulante para mantener una buena salud física y mental.

Por lo tanto, antes de adoptar un perro, es importante asegurarse de que tendrás suficiente tiempo y recursos para dedicarle a su cuidado y bienestar. También es importante considerar factores como el tamaño y la raza del perro, así como su nivel de energía y necesidades de entrenamiento, para encontrar un perro que se adapte bien a tu estilo de vida y hogar.

En resumen, adoptar un perro puede ser una experiencia muy gratificante, pero también requiere un compromiso significativo y responsabilidad. Al tomar en cuenta estos factores y prepararse adecuadamente, puedes brindar a tu perro un hogar amoroso y feliz para toda la vida.

No tenia nada que ver con el tema que estábamos hablando, no puedo negar que me entró la risa tonta. Pero me podía la curiosidad. ¿Por qué me hablaba de esto?

¿Por qué me hablas de perros?

Mis disculpas si mi respuesta anterior fue confusa. En realidad, no te estaba hablando de perros específicamente, sino que estaba tratando de proporcionarte un ejemplo para explicar cómo el aprendizaje automático puede funcionar en términos generales.

El aprendizaje automático es un campo de la inteligencia artificial que se enfoca en enseñar a las computadoras a aprender y mejorar su rendimiento en una tarea determinada, sin ser explícitamente programadas para ello. Para hacer esto, se utilizan algoritmos y modelos matemáticos que se entrenan con grandes cantidades de datos para que puedan detectar patrones y realizar predicciones o tomar decisiones.

En el ejemplo que te di, los algoritmos de aprendizaje automático se podrían entrenar con un gran conjunto de imágenes de perros etiquetadas, con el objetivo de que puedan reconocer automáticamente imágenes de perros en el futuro. Pero el aprendizaje automático se puede aplicar a una amplia variedad de problemas y tareas, desde la detección de fraudes hasta la clasificación de imágenes médicas o la traducción automática de idiomas, por nombrar solo algunos ejemplos.

La cosa cada vez tenia menos sentido asi que trate de retomar la conversación en el punto en que todo se complicó

¿Puedes seguir analizando el código?

¡Por supuesto! Continuemos.

Después de la definición de la función `make_shirt()`, el código llama a la función dos veces, una para hacer una camiseta grande con un mensaje predeterminado, y otra para hacer una camiseta mediana con un mensaje personalizado.

La primera llamada a la función `make_shirt()` tiene dos argumentos: «large» y «I love Python». El primer argumento se asigna a la variable `size`, y el segundo argumento se asigna a la variable `text`. Entonces, en la función `make_shirt()`, el mensaje «I love Python» se imprime en la camiseta grande.

La segunda llamada a la función `make_shirt()` tiene dos argumentos diferentes: «medium» y «Hello World». El primer argumento se asigna nuevamente a la variable `size`, y el segundo argumento se asigna a la variable `text`. Esta vez, en la función `make_shirt()`, el mensaje «Hello World» se imprime en la camiseta mediana.

Al final, el código imprime «Program ended» en la pantalla y termina la ejecución.

En resumen, el código define una función `make_shirt()` que toma dos argumentos: el tamaño de la camiseta y el texto que se imprimirá en ella. Luego, la función se llama dos veces para hacer dos camisetas diferentes.

¡Por supuesto! Y luego hace lo que le da la gana ¿De donde salen las camiseta?

¿Qué tiene que ver esto con el código que te he pasado al principio?

El código que me proporcionaste al principio tiene algunos problemas de sintaxis y de lógica que pueden resultar en errores al ejecutar el programa. Es importante prestar atención a la estructura del código y a las reglas del lenguaje de programación que se esté utilizando para evitar estos errores.

En particular, el ejemplo que te di sobre los perros tenía como objetivo ilustrar cómo la falta de coherencia en la estructura de un código puede dificultar la comprensión y la corrección del mismo. Al igual que en el ejemplo de los perros, en el código que me proporcionaste hay problemas en la estructura y la lógica que pueden afectar su correcta ejecución. Por lo tanto, es importante revisar el código cuidadosamente para detectar y corregir estos problemas.

Si el lo dice…Voy a seguirle el juego

Escribe el código corregido usando el ejemplo de los perros

Sí, puedo proporcionarte una versión corregida del código usando el ejemplo de los perros.

Aquí está el código corregido:

class Perro:
    def __init__(self, nombre, edad):
        self.nombre = nombre
        self.edad = edad

    def ladrar(self):
        print("Guau guau!")

    def obtener_edad_en_anios_humanos(self):
        edad_en_anios_humanos = self.edad * 7
        return edad_en_anios_humanos

# Crear un perro
mi_perro = Perro("Firulais", 3)

# Obtener la edad del perro en años humanos
edad_en_anios_humanos = mi_perro.obtener_edad_en_anios_humanos()

# Imprimir la edad del perro en años humanos
print("La edad de", mi_perro.nombre, "en años humanos es:", edad_en_anios_humanos)

En este código corregido, la clase Perro tiene tres métodos: __init__ para inicializar el nombre y edad del perro, ladrar para imprimir el sonido de un ladrido, y obtener_edad_en_anios_humanos para obtener la edad del perro en años humanos.

Luego, se crea un objeto mi_perro de la clase Perro con el nombre «Firulais» y la edad 3. Se llama al método obtener_edad_en_anios_humanos en el objeto mi_perro para calcular su edad en años humanos y se almacena en la variable edad_en_anios_humanos. Finalmente, se imprime la edad del perro en años humanos junto con su nombre.

Antes habla de camiseta y ahora me hace un ejemplo de perros. Vamos a pedirle que los mezcle a ver que pasa

¿Y la función make_shirt()?

Por supuesto, aquí está una posible implementación corregida de la función make_shirt() utilizando la misma estructura que la función make_dog_shirt():

Puedes ver un vídeo sobre este tema en mi canal de Youtube

Haz click para ver el vídeo en mi canal de Youtube

Prompts de ChatGPT para el procesamiento del lenguaje natural

Aquí van algunos prompts para comprobar que tal se comporta ChatGPT con tareas habituales de procesamiento del lenguaje natural. Están en color rojo los prompts que fallaron y en naranja los que sin ser perfectos son lo suficientemente buenos para ser útiles.

Puedes ver en detalle las pruebas realizadas en el siguiente vídeo de mi canal de Youtube:

Haz click en la imagen para ver mi vídeo en Youtube

Genero y número

Dime el plural de las siguientes palabras. Responde en formato JSON: «rana, camión, agua, camiones, oscuridad»

Dime el genero de las siguientes palabras. Responde en formato JSON: «rana, camión, águila, mano, blanco»

Dime ambos genero de las siguientes palabras. Responde en formato JSON: «rana, camión, águila, mano, blanco, toro»

Verbos

Del siguiente verbo indica: infinitivo, conjugación, persona, tiempo, modo, voz. Responde en formato JSON: «Habría cantado»

Del siguiente verbo indica: infinitivo, conjugación, persona, tiempo, modo, voz. Responde en formato JSON: «Habré ido»

Dime el pretérito anterior del siguiente verbo. Responde en formato JSON. «Haber»

Dime las seis personas de pretérito anterior del siguiente verbo. Responde en formato JSON. «Haber»

Dime las seis personas del futuro compuesto del siguiente verbo. Responde en formato JSON. «Haber»

Analiza la siguiente forma verbal. Responde en formato JSON. «Podría haber estado durmiendo»

Silabas

Cuentas las sílabas de las siguiente palabras. Responde en formato JSON. «Camión, trompeta, esdrújula, médico»

Separa en sílabas las siguiente palabras. Responde en formato JSON. «Camión, trompeta, esdrújula, médico, avión, cigüeña»

Indica la sílaba tónica de las siguiente palabras. Responde en formato JSON. «Camión, trompeta, esdrújula, médico, avión, cigüeña»

Sinónimos y Antónimos

Dime una lista de sinónimo y antónimos de la siguiente palabra. Responde en formato JSON. «bueno»

Lexemas y morfemas

Extrae los lexemas de las siguientes palabras. Responde en formato JSON: marinero, subió, submarino, amarillento, marina»

Divide las siguientes palabras en lexemas y morfemas. Responde en formato JSON: «marinero, subió, submarino, amarillento, marina»

Responde un listado de palabras derivas de la siguiente palabra. Responde en formato JSON: «mar»

Elimina los prefijos y sufijos de las siguientes palabras. Responde en formato JSON: «marinero, subió, submarino, amarillento, marina, antitanque, papas»

Origen etimológico

Origen etimológico de la palabra «sabotaje»

Análisis de sentimientos

Valora del 1 al 100 las características de positivo, negativo, divertido, informativo, irónico del siguiente texto. Devuelve el resultado en formato JSON. «Un restaurante maravilloso para no ir. Te permiten disfrutar de cada plato con tranquilidad debido al tiempo que tardan en traerte el siguiente. Se preocupan de tu dieta y de que no engordes con las raciones tan escasas. Un sitio tan bueno que tras cenar en él tendrás que celebrarlo comiendo más en otro sitio»

Etiquetado de textos:

Elimina las stopwords y cuenta las palabras del siguiente texto. Responde en formato JSON: «…»

Extrae las 5 palabras más importantes del siguiente texto. Responde en formato JSON: «…»

Cuales de las etiquetas: «acción, música, deporte, ciencia, física, química, arte, historia» usarías para clasificar el siguiente texto. Responde en formato JSON: «…»

Sugiere etiquetas para clasificar el siguiente texto. Responde en formato JSON: «…»

Completar frases

Sugiere varias formas de terminar la siguiente frase. Da tu respuesta en formato JSON: «Hola, llegare tarde, he perdido el»

Extracción de datos

Extrae las entidades del siguiente texto. Responde en formato JSON: «…»

Extrae los nombres propios del siguiente texto. Responde en formato JSON: «…»