DOMINGUES Remi | EURECOM

La personne a quitté EURECOM

Nom : DOMINGUES Remi

Thesis

Un cadre générique pour la détection des fraudes

L'industrie aérienne est exposée à de nombreux facteurs externes tels que l'économie mondiale, la fluctuation des taux de change et les coûts de carburant. Outre ces éléments, la fraude est une menace persistante qui cause d'importantes pertes financières. En 2008, par exemple, les compagnies aériennes ont perdu environ 1,4 milliard de dollars à la fraude [1], ce qui représente 1,3% des revenus des compagnies aériennes mondiales totales. Le taux d'attaque moyen est d'environ 1% - 1,5% du chiffre d'affaires. Dans certaines régions, y compris au Moyen-Orient et en Amérique latine, ce taux atteint même 3% - 4% du chiffre d'affaires. Parmi les différents types de fraudes, les suivantes sont les plus courantes dans l'industrie du transport aérien:

· Fraudes de paiement: ce sont les fraudes classiques visant à subvertir les systèmes de paiement, ce qui peut affecter à la fois les utilisateurs et les fournisseurs de services. Pour cette famille de fraudes, des techniques conçues et discutées dans la vaste littérature sur la détection de la fraude financière peuvent être appliquées, et ne sont donc pas l'objectif principal de ce projet de thèse.

· Fraudes de réservation: cette famille de fraudes vise à abuser des systèmes de réservation en modifiant des dossiers passagers ou des informations connexes. Comme son nom l'indique, ce type de fraudes vise un type très spécifique d'information, ce qui pourrait limiter l'applicabilité des techniques de détection dans un contexte général. En conséquence, aussi ce genre de fraudes ne sera pas l'objectif principal de ce projet de thèse.

· Fraudes fonctionnels: cette famille de fraudes sont le plus complexe et générales, car ils proviennent d'une mauvaise utilisation des API de service exposées par potentiellement tous les composants d'un système. Par exemple, il peut y avoir des fraudes visant les services d'authentification et de sécurité, les services de voyage d'entreprise, et même des fraudes provenant des réseaux de « bot », qui visent à racler les données financière sensibles et de les vendre sur le marché noir.

La plupart des travaux antérieurs portant sur la détection des fraudes sont le système à base de règles. Typiquement, un ensemble A, statique, de règles prédéfinies est spécifié par un expert de l'application, sur la base de la connaissance du domaine, à partir de ce qui a été utilisé pour commettre une fraude dans le passé. Les principaux inconvénients de l'approche à base de règles sont que les règles statiques nécessitent une mise à jour manuelle. Dès qu'une entreprise expose une nouvelle fonctionnalité, des mesures supplémentaires pour créer de nouvelles règles qui aideront à identifier les futures tentatives de fraude seront nécessaires.

L'objectif de cette thèse est de concevoir, analyser et mettre en oeuvre un cadre de détection des fraudes fonctionnel capable de lever des alertes sur les connexions et les activités suspectes, et prendre les mesures correctives appropriées à temps. Les principaux défis identifiés pour construire le « framework » sont les suivantes:

1) la nature générale du cadre. Le cadre devrait être de nature générale, qui permet aux utilisateurs de spécifier une poignée de paramètres de travail et laissez le système s'adapter aux données et aux fonctions objectives décrivant les anomalies.

2) les problèmes de passage a l'échelle.Dans ce travail, la détection des fraudes en apprend davantage sur le comportement des utilisateurs sur la base des données historiques et met en évidence les anomalies comme des valeurs différentes par rapport à un modèle de comportement normal. Les données historiques prennent la forme de fichiers, qui sont massivement générés par tous les services liés d'une infrastructure. En conséquence, il est nécessaire, pour faire face à l'échelle massive de données, concevoir des algorithmes parallèles. Par exemple, Amadeus génère des fichiers de log de environs 10 Go chaque seconde.

3) les caractéristiques des données.Les principaux défis de cette proposition de thèse portent sur les caractéristiques des données de formation, qui est, les journaux fonctionnels générés par les composants du système. En effet, ces données sont de nature hétérogène, mêlant information numérique, catégorique et basé sur du texte. Cela rend la définition des fonctions de comparaison (par exemple, les fonctions de distance, des fonctions de similitude, etc.) difficiles, entravant ainsi la tâche de l'analyse des données. En outre, le genre d'anomalies ciblées par cette thèse sont difficiles à être connu et spécifié à l'avance: cela signifie qu'il y a peu de place pour les techniques supervisées pour la détection de la fraude, comme la fraude et l'utilisation abusive du système sont largement inconnus et peuvent évoluer dans le temps. Un exemple précis d'un détournement fonctionnelle qui donnent lieu à une fraude est celui des appels inhabituels aux API qui composants du système: les appels d'API peuvent être traités comme des séquences d'actions impliquant deux ou plusieurs parties (y compris les utilisateurs finaux et les services internes). En tant que tel, la littérature du domaine de « pattern matching » constitue le point de départ pour résoudre les problèmes évoqués ci-dessus.

4) Mise à jour dynamique de modèle de comportement de l'utilisateur. Le « framework » devrait avoir la capacité de modéliser avec précision le comportement des utilisateurs sur la base de l'analyse statistique. Un tel modèle devrait être construit d'une manière progressive, telle qu'elle peut s'adapter en permanence aux changements de comportement des utilisateurs et du système.

5) Détection en temps réel.La détection d'anomalie devrait avoir la capacité de prendre les mesures correctives appropriées à temps. En outre, le « framework » devrait être en mesure d'anticiper quelle combinaison d'anomalies pourrait être les plus pertinentes à l'avenir, et de détecter de nouvelles tentatives de fraude.

Enfin, un autre objectif de cette proposition de thèse est de développer de nouvelles mesures techniques pour évaluer la performance du « framework » de détection de fraude, ce qui va grandement bénéficier de experts du domaine. Ceci est une des raisons pour lesquelles, une étroite collaboration avec Amadeus, une société affiliée à EURECOM, qui sera finance la thèse selon le programme de bourses CIFRE, est vraiment souhaitable. En outre, la valeur ajoutée au travail de l'industrie est de profiter de l'un des plus grand centre de données dans l'industrie du Voyage (9 PB de stockage sur plus de 5000 serveurs [2]).