Name: Hadoop en Production : Architecture, Optimisation et Patterns Avancés
Author: Preparetoi.academy

1. Architecture HDFS : Au-delà des Fondamentaux

Définition

HDFS (Hadoop Distributed File System) est un système de fichiers distribué conçu pour stocker des fichiers volumineux de manière fiable et en streaming. Il utilise un modèle maître-esclave avec un NameNode (maître) gérant l'espace de noms du fichier et les DataNodes (esclaves) effectuant la réplication et la gestion des blocs.

Analogie

Imaginez une bibliothèque géante où le bibliothécaire en chef (NameNode) tient un catalogue complet de tous les livres et de leurs emplacements physiques dans différentes succursales (DataNodes). Quand vous demandez un livre, il consulte son registre sans avoir à vérifier chaque succursale. Les livres sont dupliqués dans plusieurs succursales pour éviter leur perte.

Tableau Comparatif : Configurations HDFS Critiques

Paramètre	Valeur Recommandée	Impact Production
dfs.replication	3 (standard) ou 2 (économique)	Tolérance aux pannes et consommation disque
dfs.blocksize	256MB/512MB (HDFS) vs 128MB (cloud)	Localité des données et volume d'objets
dfs.namenode.handler.count	20-30 par 1000 DataNodes	Capacité concurrence serveur NameNode
dfs.datanode.max.transfer.threads	4096	Bande passante et charge système
dfs.namenode.heartbeat.recheck-interval	300000ms	Détection défaillance DataNode

Astuce Professionnelle

Dans les environnements de production critiques, configurez des Secondary NameNodes dans une architecture haute disponibilité (HA) avec Zookeeper. Cela évite la perte totale du cluster en cas de défaillance du NameNode principal. Utilisez également NFS ou QJM (Quorum Journal Manager) pour persister les journaux de transactions.

Attention ⚠️

Le NameNode charge TOUTE la métadonnée en mémoire RAM. Avec 1 million de fichiers, vous aurez besoin de 1GB RAM minimum. Dans les clusters bancaires contenant 500M+ fichiers, le NameNode peut nécessiter 100-200GB RAM. Planifiez votre scaling infrastructure en conséquence et surveillez constamment la métrique FSNamesystem.MemoryUsage.

2. MapReduce Avancé : Patterns d'Optimisation

Définition

MapReduce est un paradigme de programmation distribuée qui décompose les traitements en deux phases : Map (transformation locale des données) et Reduce (agrégation des résultats). La phase Shuffle-Sort, souvent invisible, est le cœur du système et représente 30-40% du temps total.

Analogie

Imaginez un processus de tri massif de bulletins de vote : la phase Map correspond à des agents qui distribuent les bulletins par candidat dans différentes boîtes (shuffle), la phase Reduce correspond au dépouillement local de chaque boîte par des équipes dédiées. Le shuffle-sort est l'organisation logistique complexe garantissant que tous les votes pour un candidat arrivent au même site de dépouillement.

Tableau : Combiner vs Reducer - Quand les Utiliser

Aspect	Combiner (optionnel)	Reducer (obligatoire)
Exécution	Sur chaque mapper	Sur nœuds collecteurs
Fréquence	Une fois par mapper	Peut être appelé plusieurs fois
Type d'opération	Associatif et commutatif (count, sum, min, max)	Toute opération d'agrégation
Réduction réseau	40-60% en moyenne	Non applicable
Exemple	Sum(100) + Sum(100) = Sum(200)	Moyenne composite

Astuce Professionnelle

Implémentez toujours un Combiner pour les opérations associatives. Dans Spotify, cela a réduit le trafic réseau d'analyse de 45%. Utilisez également la compression Snappy ou LZ4 pour les données intermédiaires (mapreduce.map.output.compress) : cela accélère le shuffle de 20-30% sans surcharge CPU significative.

Attention ⚠️

Un anti-pattern courant : définir un Combiner non-commutatif pour les moyennes. Si vous écrivez un Combiner qui calcule (sum / count), puis un Reducer qui recalcule (sum / count), vous obtiendrez un résultat incorrect. Utilisez uniquement des fonctions where f(f(a,b),c) = f(a,f(b,c)) pour le Combiner.

3. YARN et Gestion des Ressources : Stratégies de Cluster

Définition

YARN (Yet Another Resource Negotiator) est le gestionnaire de ressources centralisé introduit dans Hadoop 2.x. Il sépare les concepts de gestion des ressources (allocation CPU/RAM) de la logique applicative, permettant l'exécution de multiples frameworks (Spark, Flink, Hive) sur le même cluster.

Analogie

YARN fonctionne comme un hôtel 5-étoiles avec un concierge (ResourceManager) qui reçoit les demandes (applications), puis affecte les chambres disponibles (conteneurs) via des réceptionnistes régionaux (NodeManagers). Chaque étage dispose d'une capacité définie. Le concierge optimise l'allocation pour maximiser la satisfaction (throughput) tout en évitant la surréservation.

Tableau : Queues YARN - Stratégies de Partage

Queue	Capacité	Priority	Timeout	Use Case
production	60%	HIGH	UNLIMITED	Batch quotidien, requêtes critiques
analytics	25%	MEDIUM	3600s	Exploratory analysis, Data Scientists
dev-test	10%	LOW	1800s	Développement, tests, debugging
interactive	5%	HIGH	60s	Requêtes interactives Hive/Spark

Astuce Professionnelle

Utilisez la stratégie "Capacity Scheduler" plutôt que "Fair Scheduler" pour les environnements de production multi-tenant. Configurez des limites par utilisateur (user.max.running.apps=10) pour éviter qu'un développeur ne tue le cluster. LinkedIn utilise cette approche avec 4 niveaux de queues hiérarchiques pour isoler les charges de travail sensibles.

Attention ⚠️

Le memory overhead (mémoire supplémentaire allouée au-delà du container) peut atteindre 1GB pour les JVM Hadoop. Si vous demandez 4GB et configurez yarn.nodemanager.resource.memory-mb à 50GB, une erreur courante est d'oublier le overhead, causant des rejets de tâches. Calculez toujours : RAM_effectif = (ram_demandée * 1.5) + 512MB.

4. Haute Disponibilité et Disaster Recovery : Patterns Éprouvés

Définition

La haute disponibilité (HA) en Hadoop consiste à éliminer les points de défaillance unique (SPOF) par la redondance et le basculement automatique. Le Disaster Recovery (DR) prépare le système à récupérer après des catastrophes majeures (perte de datacenter entier) en maintenant des copies synchronisées sur sites géographiquement distants.

Analogie

Un système HA est comme avoir un doubleur d'acteur sur un plateau de cinéma : en cas de problème, le doubleur prend le relais instantanément sans interruption de tournage. Un système DR est comme avoir toute l'équipe de production et le stock de films dans un studio alternatif à 500km, prêt à reprendre en cas de catastrophe majeure. La HA opère à la minute, le DR à l'heure.

Tableau : Architectures HA Hadoop - Comparaison

Approche	RTO*	RPO**	Complexité	Coût
NameNode HA + QJM	<1min	~10s	Moyen	Modéré (+3 serveurs)
NFS HA + Heartbeat	<2min	~30s	Élevé	Moyen
Cloudera Manager Backup	<5min	~1min	Faible	Élevé (licence)
Réplication HDFS inter-DC	<30min	Temps sync	Très élevé	Très élevé (WAN)

*RTO = Recovery Time Objective (temps avant récupération)
**RPO = Recovery Point Objective (perte de données acceptable)

Astuce Professionnelle

Implémentez un basculement HA automatique avec Zookeeper et une fraction de seconde de downtime. Déployez 3 nœuds Zookeeper en quorum pour garantir la détection des défaillances. Pour le DR multi-site, utilisez DistCp (Distributed Copy) avec la stratégie -update -delete pour maintenir une réplica chaude asynchrone : hadoop distcp -update hdfs://dc1.com/data hdfs://dc2.com/data.

Attention ⚠️

Un piège critique : les logs du journal de transactions partagé (QJM) peuvent atteindre 100GB. Configurez le nettoyage automatique (dfs.namenode.num.checkpoints.retain=2). Si vous n'avez pas de système de nettoyage, le NameNode s'arrêtera à cause d'un disque plein, ce qui s'est produit chez Netflix en 2014. Intégrez des alertes monitoring pour l'espace disque des journaux avec seuil critique à 80%.

5. Optimisation de Performance : Métriques et Tuning Production

Définition

L'optimisation Hadoop en production consiste à identifier et éliminer les goulots d'étranglement (CPU, mémoire, réseau, disque) via l'instrumentation métrique, le profiling et le tuning itératif des paramètres. C'est un processus continu intégré au cycle DevOps.

Analogie

Un cluster Hadoop est un moteur automobile : vous ne pouvez pas augmenter simplement la cylindrée (ajouter des nœuds) sans analyser quel système (injection, échappement, transmission) freine vraiment les performances. Le tuning requiert des instruments de diagnostic (métriques), puis des ajustements ciblés. Un mauvais tuning équivaut à mettre de l'essence premium dans un moteur conçu pour du carburant régulier.

Tableau : Métriques Critiques et Seuils d'Alerte

Métrique	Source	Seuil Jaune	Seuil Rouge	Action
GC Pause Time	JVM GC Log	>500ms	>2s	Augmenter heap, réduire workload
DataNode CPU Utilisation	Ambari/Prometheus	>70%	>90%	Ajouter nœuds, optimiser code map
Network Bandwidth Utilization	/proc/net/dev	>60%	>85%	Réduire taille shuffle, compresser
Disk I/O Latency	iostat	>20ms	>50ms	Ajouter SSD, rééquilibrer blocs
NameNode Heap Memory	JVM Memory	>75%	>90%	Augmenter -Xmx, nettoyer fichiers

Astuce Professionnelle

Utilisez des profilers Hadoop intégrés : mapreduce.job.profile=true capture automatiquement les statistiques par tâche. Analysez les counters natifs (org.apache.hadoop.mapreduce.TaskCounter) qui exposent les événements SPILLED_RECORDS et BYTES_READ. Un ratio SPILLED_RECORDS/INPUT_RECORDS > 0.1 indique un shuffle inefficace nécessitant un augmentation de mapreduce.task.io.sort.mb. Chez Airbnb, cette optimisation seule a réduit les temps de job de 25%.

Attention ⚠️

Le tuning par essai-erreur est dangereux. Une configuration mapreduce.reduce.memory.mb=8192 sans augmenter correspondant yarn.nodemanager.resource.memory-mb causera des rejets silencieux de tâches. Validez toujours les changements en environnement de staging avec une charge test représentative (benchmark utilisant vos vraies données) avant production. Documentez chaque changement avec la raison et la métrique d'amélioration associée.

Hadoop en Production : Architecture, Optimisation et Patterns Avancés

1. Architecture HDFS : Au-delà des Fondamentaux

Définition

Analogie

Tableau Comparatif : Configurations HDFS Critiques

Astuce Professionnelle

Attention ⚠️

2. MapReduce Avancé : Patterns d'Optimisation

Définition

Analogie

Tableau : Combiner vs Reducer - Quand les Utiliser

Astuce Professionnelle

Attention ⚠️

3. YARN et Gestion des Ressources : Stratégies de Cluster

Définition

Analogie

Tableau : Queues YARN - Stratégies de Partage

Astuce Professionnelle

Attention ⚠️

4. Haute Disponibilité et Disaster Recovery : Patterns Éprouvés

Définition

Analogie

Tableau : Architectures HA Hadoop - Comparaison

Astuce Professionnelle

Attention ⚠️

5. Optimisation de Performance : Métriques et Tuning Production

Définition

Analogie

Tableau : Métriques Critiques et Seuils d'Alerte

Astuce Professionnelle

Attention ⚠️

Examens associés