accesskey_mod_content

Repositorios oberts d'imatges per a entrenament de models d'Intel·ligència Artificial

  • Escoltar
  • Copiar
  • Imprimir PDF
  • Compartir

"Noticia disponible únicamente con fines históricos y de hemeroteca. La información y enlaces mostrados se corresponden con los que estaban operativos a la fecha de su publicación. No se garantiza que continúen activos actualmente".

19 octubre 2022

Potser, un dels usos més quotidians de la intel·ligència artificial que podem experimentar en el nostre dia a dia sigui mitjançant la interacció amb sistemes de visió artificial i identificació d'objectes.

Potser, un dels usos més quotidians de la intel·ligència artificial que podem experimentar en el nostre dia a dia sigui mitjançant la interacció amb sistemes de visió artificial i identificació d'objectes. Des del desbloquejo del nostre smartphone, fins a la cerca per imatges en Internet. Tots aquestes funcionalitats són possibles gràcies a models d'intel·ligència artificial en el camp de la detecció i classificació d'imatges. En aquest post recopilem alguns dels repositoris oberts d'imatges més importants, gràcies als quals, hem pogut entrenar els models actuals de reconeixement d'imatges.

Introducció

Volvamos por un momento a finales de 2017, principios del 2018. La posibilidad de desbloquear nuestros smartphones con algún tipo de lector de huella dactilar se ha extendido. Con mayor o menor acierto, la mayor parte de los fabricantes habían conseguido incluir el lector biométrico en sus terminales. El tiempo de desbloqueo, la facilidad de uso y la seguridad extra aportada eran excepcionales frente a los clásicos sistemas de contraseñas, patrones, etc. Como viene ocurriendo desde el año 2008, el líder indiscutible en innovación digital en terminales móviles - Apple - volvía a revolucionar el mercado incorporando un novedoso sistema de desbloqueo en el iPhone X mediante la imágen de nuestra cara. El denominado sistema  FaceID(Obre en nova finestra)  escaneja la nostra cara per desbloquejar el terminal en desenes de segon sense haver d'utilitzar les mans. La probabilitat de suplantació d'identitat amb aquest sistema era d'1 a 1.000.000; 20 vegades més segur/segur que el seu predecessor el  TouchID(Obre en nova finestra) .

Valgui aquesta petita història sobre una funcionalitat quotidiana, per introduir un tema important en el camp de la intel·ligència artificial, i en particular del camp del processament d'imatges per ordinador: els repositoris d'imatges d'entrenament de models de IAHemos parlat molt en aquest espai sobre aquest camp de la intel·ligència artificial. Pocs mesos després del llançament de el  FaceID , publiquem  un post sobre IA(Obre en nova finestra) , en el que mencionamos la clasificación de imágenes a nivel casi-humano como uno de los logros más importantes de la IA en los últimos años. Esto no seria possible sense la disponibilitat de bancs oberts de imatges anotades amb els quals poder entrenar models de reconeixement i classificació d'imatges. En aquest post llistem alguns dels repositoris d'imatges (de lliure accés) més importants per a l'entrenament de models.

Probablement els 2 repositoris més coneguts d'imatges són  MNIST(Obre en nova finestra)  i  ImageNET(Obre en nova finestra) .

  • MNIST , és un conjunt de 70.000 imatges en blanc i negre de nombres manuscrits normalitzats en grandària, llistes per entrenar algorismes de reconeixement de nombres. L'article original del professor LeCun és de l'any 1998.
  • ImageNET  és una base de dades enorme de conceptes (paraules o conjunts de paraules). Cada concepte amb significat propi es denomina  synset . Cada  synset  està representat per centenars o milers d'imatges. A la pròpia web de  ImageNET  se cita el projecte com una eina indispensable per al recent avanç de el  Deep Learning  i la visió per ordinador. 

    "The project has been instrumental in advancing computer vision and deep learning research.The data is available for free to researchers for non-commercial use".

    El subconjunt més utilitzat de  ImageNet  és el conjunt de dades de classificació i localització d'imatges  ImageNet Large Scale Visual Recognition Challenge(Obre en nova finestra)   ILSVRC . Aquest subconjunt d'imatges es va utilitzar des de 2010 fins a 2017 per a les competicions de detecció d'objectes i classificació d'imatges a nivell mundial. Aquest conjunt de dades abasta 1000 classes d'objectes i conté més d'un milió d'imatges d'entrenament, 50.000 imatges de validació i 100.000 imatges de prova.  Aquest subconjunt està disponible en Kaggle.(Obre en nova finestra)

A més d'aquests dos clàssics repositoris que ja formen part de la història del processament d'imatges per intel·ligència artificial, disposem d'alguns repositoris temàtics més actuals i variats. Aquests són alguns exemples:

  • Los tan molests  CAPTCHAs  reCAPTCHAs  que trobem en multitud de llocs web per verificar els qui estem intentant accedir som humans són un bon exemple d'intel·ligència artificial aplicat al camp de la seguretat. Per descomptat, els  CAPTCHAs  també necessiten  el seu propi repositori(Obre en nova finestra)  per comprovar cuán efectius són per evitar accessos no desitjats. Et recomanem llegir aquest interessant article sobre la història d'aquests companys de navegació per la web.
  • Com hem vist diverses vegades en el passat, una de les aplicacions més prometedores de la IA en el camp de la imatges és la d'assistir als metges en el diagnòstic de malalties a partir d'una prova d'imágen mèdica (rajos-x, tomografia computerizada, etc.) Per convertir això en una realitat, no són pocs els esforços a recopilar, anotar i posar a la disposició de la comunitat investigadora repositoris d'imatges mèdiques anonimizadas i de qualitat per entrenar models de detecció d'objectes, formes i patrons que puguin revelar una possible malaltia. El 30% de tots els càncers que pateixen les dones al món correspon amb el càncer de mama. D'aquí la importància d'explicar  amb bancs d'imatges (Obre en nova finestra) que facilitin l'entrenament de models específics.
  • El diagnòstic de malalties basades en la sang sovint implica la identificació i caracterització de mostres de sang de pacients.  Els mètodes  automatitzats (mitjançant imatge mèdica)(Obre en nova finestra)  per detectar i classificar els subtipos de cèl·lules sanguínies tenen importants aplicacions mèdiques.
  • Fa 3 anys el Covid19 va irrompre en les nostres vides posant a les societats desenvolupades potes enlaire amb aquesta pandèmia d'abast mundial i conseqüències terribles en termes de pèrdues humanes i econòmiques. La comunitat científica al complet es va bolcar a donar solució en temps record per atallar les conseqüències del nou coronavirus. Van ser molts els esforços en la millora del diagnòstic de la malaltia.  Algunas tècniques van apostar per l'anàlisi d'imatge assistides per IA(Obre en nova finestra) .  Al mateix temps, les autoritats sanitàries van incorporar un element nou en la nostra rutina diària - les mascarillas-. Encara avui a algunes situacions la mascarilla segueix sent d'obligat ús, i durant aquests 3 anys hem hagut de vigilar el seu adequat ús en gairebé tot tipus de llocs. Tant és així que en aquests mesos han proliferat  els bancs d'imatges específics(Obre en nova finestra)  per entrenar models de IA i visió artificial que detectin l'ús de mascarillas de forma autònoma.
  • Per ampliar informació sobre repositoris oberts relacionats amb la salut i el benestar, et deixem  aquest post (Obre en nova finestra) que publiquem fa uns mesos.

A més d'aquests curiosos exemples que hem citat en aquest post, t'animem a explorar la secció de conjunts de dades que Kaggle inclouen imatges com a dades. Tan solament tens 10.000 conjunts per recórrer.

Font original de la notícia(Obre en nova finestra)

  • Informació i dades del sector públic