Estimating Policy Functions in Payments Systems Using Reinforcement Learning

Disponible en format(s) : PDF

Les systèmes de paiement de grande valeur servent à régler les transactions entre les grandes institutions financières. Ces systèmes sont considérés comme l’infrastructure financière nationale de base. Dans cette étude, nous utilisons des techniques d’apprentissage automatique pour comprendre le comportement des banques qui participent au système de paiement de grande valeur canadien. Les nouvelles connaissances acquises de cette manière pourraient aider les autorités de réglementation à élaborer des politiques permettant d’assurer la sûreté et l’efficience de ces systèmes.

Nous cherchons en particulier à comprendre une décision importante que doit prendre chaque banque participant au système de paiement de grande valeur, à savoir le montant de liquidité qu’elle choisit de fournir en début de journée. La banque participante doit en effet disposer d’un montant de liquidité initial pour traiter les paiements, mais cette affectation lui coûte cher. D’un autre côté, une affectation trop faible de liquidités risque de retarder ces paiements, ce qui lui coûte cher également. Le choix du montant de liquidité initial est une décision stratégique, parce que la banque peut utiliser les paiements entrants d’autres participants pour effectuer ses propres paiements, mais le moment où arrivent ces paiements entrants dépend lui-même du montant de liquidité initial des autres participants.

Comme ce problème est complexe sur le plan analytique, nous recourons à l’apprentissage par renforcement pour estimer la fonction de réaction optimale. Nous évitons ainsi de modéliser les stratégies de la banque participante. Au lieu de cela, l’algorithme d’apprentissage par renforcement apprend une stratégie en interagissant avec l’environnement du système de paiement. Dans un contexte simplifié où nous connaissons le comportement optimal, nous montrons que les techniques d’apprentissage par renforcement permettent de reproduire le comportement attendu de la banque participante. Dans un cadre plus réaliste, les décisions touchant les liquidités sont trop complexes pour qu’on puisse les résoudre de façon analytique. Les agents d’apprentissage par renforcement ont appris à réduire le coût total du traitement des paiements malgré une connaissance partielle de l’environnement ou des flux de paiement. Nos résultats révèlent que les techniques d’apprentissage par renforcement aident à comprendre le comportement des participants aux systèmes de paiement. Des travaux futurs seront menés pour étudier la possibilité de recourir à des politiques d’apprentissage par renforcement basées sur des paramètres estimés en vue de concevoir des systèmes de paiement plus efficients.