Le programme des explorateurs NGI recherche les meilleurs chercheurs et innovateurs européens en technologies Internet émergentes pour saisir une occasion unique aux États-Unis.

EXPÉDITION DE 3-6 MOIS AUX ÉTATS-UNIS

Travaillez directement avec un partenaire américain pour accélérer votre idée.

PARRAINAGE À 100%

L'aide financière sera financée à 100% avec des subventions publiques de l'UE.

PROGRAMME DE MENTORAT

Un coach apportera un soutien direct tout au long de l'expédition

Les objectifs

L'apprentissage par renforcement et la prise de décision séquentielle ont été révolutionnés ces dernières années grâce aux progrès des réseaux de neurones profonds. L'une des avancées les plus récentes a été réalisée par le système AlphaGo et sa victoire sur le champion du monde de Go. Cependant, même dans ce système impressionnant, l'agent appris a effectué des actions sous-optimales qui ont rendu perplexes les communautés d'apprentissage Go et Renforcement.
 
De telles défaillances dans la prise de décision justifient le besoin de méthodes pouvant fournir des garanties (statistiques) sur les actions effectuées par un agent. Nous sommes intéressés par l’établissement de telles garanties dans des systèmes à la fois discrets et continus où les agents apprennent des politiques ou des plans d’action grâce à l’expérience acquise en interagissant avec leur environnement.

Les détails

Certains problèmes d’intérêt dans ce domaine incluent, mais ne se limitent pas aux suivants:

  • Prise de décision dans des processus de décision de Markov partiellement observables.
  • Satisfaire les garanties probabilistes sur le comportement d'un agent appris lorsque des fonctions de valeur approximative (c'est-à-dire des réseaux de neurones) sont utilisées pour mesurer l'utilité.
  • Contrôle des systèmes hybrides résultant de la discrétisation de l'espace continu induite par un ensemble donné de spécifications comportementales. De telles spécifications sont généralement définies par une logique temporelle telle que la logique arborescente et la logique temporelle linéaire.
  • Prise de décision dans les jeux stochastiques contradictoires.
  • L'apprentissage par renforcement en tant que problème d'optimisation sous contrainte, dans lequel les avantages attendus à long terme doivent être maximisés tout en respectant les probabilités de satisfaire diverses spécifications comportementales.
Les compétences requises

 Une compréhension de base de l'apprentissage par renforcement.

Date limite pour candidater (en anglais): 31 juillet 2019
 
Traduction non officielle
 
Source: NGI Explorers Program

Photo d'illustration: SISYPHUS est un robot qui apprend à explorer à l'aide d'un simple algorithme d'intelligence artificielle appelé apprentissage par renforcement. Le robot tente d'abord des actions aléatoires et apprend s'il avance ou recule. Au fil du temps, il relie les actions qui le font avancer. (crédits: mangtronix / Flickr Creative Commons Attribution-ShareAlike 2.0 Generic (CC BY-SA 2.0))

Plus d'info

Si votre organisation publie un appel à propositions, un appel à projets ou un appel à candidatures pour les startups, les entrepreneurs ou les chercheurs, nous serons heureux de le publier gratuitement sur notre site web. Nous partagerons aussi votre appel sur les médias sociaux (Facebook, Twitter, LinkedIn, PInterest, Tumblr, Instagram).
Merci de déposer vos fichiers pdf et/ou votre lien URL sur notre WhatsApp +85577778919 ou par courriel à info@adalidda.com


Merci
L'équipe Adalidda

Commentaires

Pas de commentaire à afficher.