Jornades de tecnologies lingüístiques lliures en català

Us presentem «Jornades de tecnologies lingüístiques lliures en català» per promocionar i donar suport al desenvolupament obert de les eines lliures en català. Volíem compartir la informació amb vosaltres perquè volem la creació d’una comunitat per millorar i mantenir aquestes eines obertes; i 3 de les 6 sessions estan dissenyades per explicar l’ús d’eines lliures de la parla amb exemples en Python. Seran sessions gratuïtes i en-línia. Us deixem els detalls en dues llengües (castellà a baix):


Català:

Les tecnologies de la parla són uns dels elements molt importants de la indústria 4.0, perquè permeten el control dels ordinadors amb comandaments orals. Les empreses grans ja proveeixen solucions en la forma d’APIs i serveis, però aquestes solucions no són personalitzables, molts serveis no donen suport a les llengües minoritzades, i més important té implicacions greus per la privacitat de dades.

Si formeu part del sector, o us interessa entrar-hi com a desenvolupador/a, emprenedor/a o usuari/ària, us presentem les «Jornades de tecnologies lingüístiques lliures en català» dedicades a assegurar l’ús, el desenvolupament i el manteniment de les eines lingüístiques de programari lliure i obert. Les sessions pels desenvolupadors presentarà la temàtica amb exemples pràctics en Python. Les sessions es realitzaran en-línia per mitjans telemàtics i la participació és gratuïta gràcies al suport del Departament de Cultura.

Per més informació sobre les sessions, consulta https://collectivat.cat/jornades

Per la inscripció aquí

Castellà:

Las tecnologías del habla son unos de los elementos muy importantes de la industria 4.0, porque permiten el control de los ordenadores con mandos orales. Las empresas grandes ya proveen soluciones en la forma de APIs y servicios, pero estas soluciones no son personalizables, muchos servicios no apoyan a lenguas minorizadas, y más importante tiene implicaciones graves para la privacidad de datos.

Si formáis parte del sector, u os interesa entrar como desarrollador/a, emprendedor/a o usuario/ a, os presentamos las «Jornadas de tecnologías lingüísticas libres en catalán» dedicadas a asegurar el uso, el desarrollo y el mantenimiento de las herramientas lingüísticas de software libre y abierto. Las sesiones para los desarrolladores presentará la temática con ejemplos prácticos en Python. Las sesiones se realizarán en-línea por medios telemáticos y la participación es gratuita gracias al apoyo del Departament de Cultura.

Para más información sobre las sesiones, consulta https://collectivat.cat/jornades

Para la inscripción aquí

2 Me gusta

Hola!

En aquest fil us faré el resum de cada sessió de les jornades de tecnologies lingüístiques lliures en català. Si heu participat en les sessions o simplement teniu suggeriments, us invito a discutir en aquest fil.

Abans de tot, per les persones que no van participar en les sessions d’aquesta setmana:

  • Podeu veure els vídeos a youutbe
  • Podeu descarregar els continguts, les diapositives aquí

Després de cada sessió els continguts d’aquests enllaços seran actualitzats. Podreu trobar tots els continguts sempre al mateix lloc.

Un petit resum de la sessió 24N, Com els meus dispositius poden parlar en català? Ofertes al mercat i les alternatives lliures:

Després dels detalls de la tecnologia actual de la síntesi de la parla. Hem parlat dels productes que depenen de la funcionalitat de síntesi de la parla, sobretot els productes d’accessibilitat, navegadors (de cotxes), i en àmbit d’edició (diaris, portals de web, podcasts). Un tema molt important era quins d’aquests productes estan en català. Tot i que hi ha alternatives al mercat, les empreses grans (sobretot Google, Apple i Amazon) no tenen suport per al català, a més impedeixen la integració dels serveis externs.

Suggeriments:

  • Ja tenim certes tecnologies (com festival i Catotron) el problema és que no estan integrades als productes al mercat
  • Per impulsar la integració del català als serveis de les empreses grans, podem crear la demanda, mitjançant l’ús dels productes alternatius en català en lloc dels productes de les empreses grans. (exemple en lloc d’utilitzar Google Maps, Android Auto, Carplay d’Apple i Apple maps; utilitzar Waze que està en català)
  • Com podem millorar el motor de Catotron? Ja tenim un conjunt de dades bastant bons del Common Voice, creada per la comunitat. Tot i que és per reconeixement de la parla, es pot investigar maneres d’aprofitar hores extensives dels enregistraments per millorar el suport de dialectes, i prosodi.

Què heu pensat de la sessió? Us agraïm si podeu compartir els vostres suggeriments sobre els productes de la parla, i el suport de la comunitat.

1 me gusta

Resum de la sessió de 26N, Donar veu als nostres productes tecnològics: Les eines lliures de Síntesi de la Parla:

Per aquesta sessió el nostre company Alex Peiró Lilja ens va explicar amb tots els detalls tècnics dels motors de la síntesi de la parla (SP) a més exposar les innovacions recents al camp. Després vam fer un repàs dels nous repositoris de SP al github, i vam comparar diverses opcions. Al final vam entrar als detalls de com desplegar un servidor de Catotron.

Suggeriments:

  • El projecte de TTS de Mozilla destaca com un repositori molt interessant perquè permet contribucions de les altres llengües. Si contribuïm a aquest repositori, afegint funcionalitats/models del català, la llengua podria tenir una bona visibilitat. A més pel futur, potser tindrem l’interès de Mozilla per la integració del català als seus productes.
  • El projecte de Catotron sempre necessita aportacions, organitzarem els repositoris i la informació per facilitar la contribució al projecte
  • Com una innovació, hi ha interès de la comunitat per treballar amb sistemes de traducció automàtica speech-to-speech. Ja hi ha grups de recerca treballant en això, a més hi ha repositoris de programari lliure desenvolupat per la comunitat (específicament dins del repositori d’ESPnet.)

Si voleu començar utilitzar Catotron, podeu donar una ullada a les llibretes de Python. Si voleu qualsevol funcionalitat extra, ja podeu proposar als issues del catotron i el catotron-cpu. Nosaltres també documentarem les necessitats que detectem, i les publicarem mitjançant els issues de github, d’aquesta manera les persones que volen contribuir al repositori, podrien tenir una idea de la direcció del desenvolupament.

Com sempre

  • Podeu descarregar els continguts, les diapositives aquí
  • Podeu veure el vídeo de la sessió a baix

Què penseu sobre les innovacions recents al camp de la SP? Voleu integrar aquestes funcionalitats als vostres projectes i productes? Per qualsevol confluència, necessitat o contribució als projectes comunitaris us esperem els vostres comentaris.

Un petit resum de la sessió d’1D, Podem automatitzar la transcripció, subtitulació i altres feines lingüístiques?

L’enfocament d’aquesta sessió era les plataformes disponibles al mercat que ens permetria fer la feina lingüística de transcripció i subtitulació. Després una introducció a la tecnologia del reconeixement de la parla, hem parlat sobre aquestes plataformes i els seus proveïdors de tecnologia. També hem parlat dels detalls de les funcionalitats i els límits d’aquestes plataformes, donant exemples de quins tipus dels enregistraments faciliten millor la transcripció. Finalment hem parlat sobre la situació actual de les tecnologies lliures del RAP, si aquestes tecnologies podien oferir una alternativa més assequible i segura en termes de privacitat de dades.

A la segona part, el company Artur Vicedo ens va presentar l’estat actual del Common Voice Un petit resum de la sessió 1D, Podem automatitzar la transcripció, subtitulació i altres feines lingüístiques? L’enfocament d’aquesta sessió era les plataformes disponibles al mercat que ens permetria fer la feina lingüística de transcripció i subtitulació. Després una introducció a la tecnologia del reconeixement de la parla, hem parlat sobre aquestes plataformes i els seus proveïdors de tecnologia. També hem parlat dels detalls de les funcionalitats i els límits d’aquestes plataformes, donant exemples de quins tipus dels enregistraments faciliten millor la transcripció.

Finalment hem parlat sobre la situació actual de les tecnologies lliures del RAP, si aquestes tecnologies podien oferir una alternativa més assequible i segura en termes de privacitat de dades. A la segona part, el company Artur Vicedo ens va presentar l’estat actual del Common Voice, un projecte de recopilació de dades, específicament dissenyat pel RAP. El projecte té un impacte molt important, amb un volum de dades bastant grans (més de 600 hores). L’Artur ens ha explicat també de com contribuir al projecte com voluntaris.

Al final de la sessió hem parlat conjuntament: La necessitat d’ampliar la diversitat de les dades, en general i també dins del Common Voice. Pel Common Voice, necessitem més veus femenines, i en general necessitem més diversitat dels dialectes. S’ha proposat l’ús dels enregistraments de les Corts Valencianes, paral·lel al corpus del Parlament, ParlamentParla. Una proposta molt important era, fer una crida a la comunitat per si tenen transcripcions fetes, per contribuir-les als conjunts de dades de la parla. Per ara hem plantejat mitjançant correus electrònics directes a Col·lectivaT i/o Softcatalà, però és evident que hem de pensar els canals adequats per acceptar les contribucions), un projecte de recopilació de dades, específicament dissenyat pel RAP. El projecte té un impacte molt important, amb un volum de dades bastant grans (més de 600 hores). L’Artur ens ha explicat també de com contribuir al projecte com voluntaris.

Al final de la sessió hem parlat conjuntament:

  • La necessitat d’ampliar la diversitat de les dades, en general i també dins del Common Voice. Pel Common Voice, necessitem més veus femenines, i en general necessitem més diversitat dels dialectes. S’ha proposat l’ús dels enregistraments de les Corts Valencianes, paral·lel al corpus del Parlament, ParlamentParla.

  • Una proposta molt important era, fer una crida a la comunitat per si tenen transcripcions fetes, per contribuir-les als conjunts de dades de la parla. Per ara hem plantejat mitjançant correus electrònics directes a Col·lectivaT i/o Softcatalà, però és evident que hem de pensar els canals adequats per acceptar les contribucions.

Com sempre podeu descarregar els continguts, les diapositives aquí, veure el vídeo aquí

Un petit resum de la sessió de 3D, Reconeixement de la parla; eficient, segur i privat: Una introducció a Kaldi i Vosk.

En aquesta sessió vam entrar als detalls de què són els sistemes de reconeixement (RAP) de la parla, oberts i lliures. En una primera part, jo vaig explicar quines arquitectures hi ha, quins avantatges té cadascú, i finalment els conceptes bàsics de com entrenar les xarxes neuronals artificials.

El company Ciaran O’Reilly va fer la part més important i pràctica, que va exposar els sistemes de RAP en català, específicament els models de DeepSpeech en català que va entrenar ell i a més el RAP de Kaldi que ve d’Alphacephei. Tots dos models tenen llicències lliures, i estan entrenats majoritàriament amb el conjunt de dades de Common Voice

Un dels resultats molt importants és el benchmarking que està documentant en un repositori, que ensenya la qualitat dels models de RAP en català, en termes de precisió i rapidesa de transcripció.

bench

Finalment, en Ciaran ens va ensenyar algunes aplicacions concretes dels models de RAP. Específicament el LocalSTT que és un sistema de transcripció desenvolupat pels teclats de l’android. El LocalSTT té la capacitat de fer la transcripció de la nostra veu, sense connectar-se a un servidor extern, i només computant les operacions necessàries dins del dispositiu en si. Això és una funcionalitat que té només els mobils de Google Pixel, l’última generació.

Després de la presentació, com a comunitat, hem tingut una conversa molt fructífera. Els temes que ha sortit són:

  • La necessitat de la inclusió de més dades i seguir entrenant els models del RAP. ParlamentParla té molt més dades disponibles, no estructurades.
  • La necessitat de construir un conjunt de dades de referència, que serà un sub conjunt del Common Voice, equilibrat en gènere dels parlants i també -si es pot- dels dialectes.
  • Hem de ser capaços d’entrenar els models de Kaldi. Per ara tenim una falta de coneixement per arribar a la qualitat dels models d’Alphacephei.

Podeu descarregar els continguts, les diapositives aquí i veure l’enregistrament aquí.

Un resum de la sessió de 8D, "El bo, el lleig i el dolent dels dispositius intel·ligents"

Per les novetats d’últim moment hem canviat el contingut d’aquesta sessió; inicialment volíem dedicar una part de la sessió al procés de la localització del Mycroft en català. Però les traduccions han acabat abans de la sessió, a més es va aconseguir acabar totes les altres tasques de localització, i la creació d’una guia per la instal·lació de Mycroft en català.

Per això la major part d’aquesta sessió estava dedicat sobretot a Mycroft, el demo per ensenyar com funciona, a més com instal·lar-ho als dispositius que no són una distribució de GNU-Linux. Gràcies a la feina immensa dels voluntaris, ja tenim un prototip d’un assistent virtual en català.

Podeu la petita part de la presentació d’en Joan Montané ensenyant com funciona Mycroft en català:

Els temes que ha sortit durant les preguntes obertes:

  • La comunitat té interès d’utilitzar assistents virtuals, si estan en català.
  • El desenvolupament del Mycroft en català és acabat, però necessitem usuaris per comprovar les habilitats.
  • La dificultat de la instal·lació podria ser un obstacle per la comprovació, un dels objectius és facilitar i millorar aquest procés, però mentrestant les persones interessades podries suggerir habilitats més rellevants pel territori català. Els desenvolupadors que formen part de la comunitat podran desenvolupar aquestes habilitats.
  • “Quan podrem tenir Mycroft en català com els usuaris finals” Com a software és acabat, però hi ha un problema de distribució. És a dir Mycroft, com a empresa no té suport a les llengües no-anglès “out-of-the-box.” És a dir, els dispositius de Mycroft venen només en anglès i els usuaris han de fer la configuració per canviar la llengua. Això és un problema pels usuaris. La solució està relacionada amb les llicències lliures de Mycroft, que permetria l’ús de software per qualsevol fabricant. És a dir, els fabricants locals poden agafar el software i oferir com un producte, concretament com un altaveu intel·ligent.

Sobre les activitats de la comunitat:

Podeu descarregar els continguts, les diapositives aquí i veure l’enregistrament aquí.

El resum l’última sessió de les jornades; 10D, "Cap a l’assistent virtual obert i lliure en català: Com podem localitzar Mycroft?"

Aquesta sessió estava dedicada als desenvolupadors, dirigit pel nostre company Casimiro Ferreira (jarbasAI). Com un desenvolupador de la comunitat de Mycroft, ell ens va explicar tots els detalls de la localització i el desenvolupament de Mycroft. Com que ell és Portuguès, es va fer la sessió en anglès.

Vam parlar dels fonaments de l’arquitectura de Mycroft, el desenvolupament necessari per a la localització i el desenvolupament de les noves habilitats.

Com als participants teníem preguntes a Casimiro, els temes tècnics que vam comentar són:

  • La possibilitat de servir/desplegar Mycroft en remot, i només comunicar els comandaments des del dispositiu. Casimiro ha ensenyat que això és una possibilitat mitjançant el seu projecte de Hivemind. Això té la potencial d’ajudar amb el desplegament i la instal·lació de Mycroft que havíem comentat a la sessió de 8D
  • El projecte Plasma Bigscreen, que mitjançant Mycroft instal·lat a un Raspberry Pi 4 juntament amb el KDE Linux, converteix qualsevol TV a una TV intel·ligent. Es va comentar que mitjançant la localització de Mycroft en català estem efectivament localitzant altres projectes basats en Mycfort com Plasma Bigscreen.
  • Es va comentar si el hardware de Raspberry Pi és la millor plataforma pels productes intel·ligents de programari lliure, referint al tema que va sortir a la sessió de 8D. No per solucionar-ho completament, però per facilitar la instal·lació, Casimiro va proposar demanar que OpenVoiceOS facin una imatge de Mycroft en català. De fet un “pull request” ja està fet.
  • Finalment un tema molt important per la comunitat, era la gestió dels repositoris i els recursos. Tot el desenvolupament de Mycroft s’hauria de fer als canals i repositoris de Mycroft, això està clar. Però com a comunitat a vegades anem més ràpidament que Mycroft l’empresa, i estem pendents de les seves decisions (en el cas d’organització de llengües de defecte de les habilitats) i la seva confirmació dels pull requests. A més tenim més recursos com els models de reconeixement de la parla i síntesi de la parla, que són peces pel Mycroft, però no formen part del codi. Una proposta seria la creació d’un equip a github per començar col·laborar allà. Per ara, la decisió és evitar-ho la millor manera possible, iniciar una conversa al xat de Mycroft i veure si podem avançar mitjançant els canals de Mycroft. Si no, potser podem considerar inclos fer forks dels repositoris de Mycroft, i continuar treballant allà.

Com sempre podeu descarregar els continguts, les diapositives aquí i veure l’enregistrament a baix