Comme on le voit dans ce diagramme, HDInsight est au c%u0153ur de la plateforme Big Data de Microsoft.

L’offre Azure Data Lake Analytics et l’offre HDInsight ont un positionnement similaire. Suivant que vous pr%u00e9f%u00e9rez utiliser un code portable tout en b%u00e9n%u00e9ficiant d’un service g%u00e9r%u00e9, d’une part ou que vous voulez %u00eatre dans un monde plus centr%u00e9 sur Microsoft d’autre part, vous choisirez plut%u00f4t HDInsight ou plut%u00f4t Azure Data Lake Analytics.

Dans le cas d’HDInsight, vous pouvez ex%u00e9cuter du code Hive, Pig, Java, Python, Scala, sur Hadoop, Storm ou Spark Cela n’est pas tr%u00e8s co%u00fbteux puisque vous pouvez cr%u00e9er les ressources de calcul n%u00e9cessaires uniquement pendant le temps d’ex%u00e9cution des batches, et ce de fa%u00e7on automatis%u00e9e. Si on prend par exemple 2 heures de batch pendant 30 j par mois, cela donne un co%u00fbt de moins de 500 pour un cluster avec 2 n%u0153uds principaux et 10 n%u0153uds de calcul :

NB : cela inclut du support qui permet de poser des questions sur votre code. En effet, supposons que vous ayez un probl%u00e8me avec une requ%u00eate HIVE par exemple; si c’est sur HDInsight, vous pouvez demander au support Microsoft.

 

Cela dit, si vous devez d%u00e9velopper sur cet environnement HDInsight, c’est moins optimal puisque l’environnement va tourner plus r%u00e9guli%u00e8rement (ex : 8 %u00e0 10 h / jour). De plus, on peut cr%u00e9er ou d%u00e9truire un cluster HDInsight qui va retrouver ses donn%u00e9es, mais il peut %u00eatre plus confortable de travailler sur une machine virtuelle que l’on personnalise un peu avec ses outils, qu’on %u00e9teint ou allume en fonction des besoins. Il n’est pas n%u00e9cessaire d’avoir un cluster complet en d%u00e9veloppement tant qu’on n’en n’est pas %u00e0 la phase d’optimisation.

On peut aussi vouloir tester des fonctionnalit%u00e9s nouvelles d’Hadoop.

Pour tout cela, il y a le bac %u00e0 sable (Sandbox) d’Hortonworks, disponible dans la marketplace d’Azure.

Ce mod%u00e8le de machine virtuelle comprend des tutoriels, exemples, des outils pour d%u00e9couvrir Hadoop, Spark et aussi l’utiliser comme VM de d%u00e9veloppement.

Au niveau du prix, cela co%u00fbte le prix de la VM. Le mod%u00e8le de licence est du Bring Your Own License. Voir https://azure.microsoft.com/en-us/marketplace/partners/hortonworks/hortonworks-sandbox/ pour plus d’informations.

Cette page contient un lien pour instancier une VM.

Il faut ensuite remplir un certain nombre de champs, comme pour la cr%u00e9ation d’une machine virtuelle standard. Dans les quelques copies d’%u00e9crans suivantes, on se place dans le cas de la cr%u00e9ation dans le mode %u00ab Resource Manager %u00bb.

Ce mode permet ensuite, lorsque la VM est cr%u00e9%u00e9e, de configurer des r%u00e8gles de pare-feu depuis le portail (dans le mode %u00ab classic %u00bb, il peut %u00eatre n%u00e9cessaire de passer par quelques lignes de commande).

Voici donc comment configurer les acc%u00e8s %u00e0 votre VM :

Depuis le panneau (%u00ab blade %u00bb) de la VM dans le portail portal.azure.com, cliquez sur le groupe de ressources qui vous donnera acc%u00e8s au NSG (Network Security Group) du vNet. L%u00e0, vous avez acc%u00e8s aux diff%u00e9rentes r%u00e8gles entrantes vers le r%u00e9seau

auxquelles vous pouvez ajouter deux r%u00e8gles :

Une pour autoriser votre ou vos adresses IP %u00e0 acc%u00e9der %u00e0 la VM et l’autre pour interdire toutes les autres adresses IP d’Internet. Remarquez le champ %u00ab Priority %u00bb.

Exemple :

et

 

Optionnellement, vous pouvez %u00e9galement donner un nom %u00e0 l’adresse IP publique de votre VM, comme suit :

Par exemple, si vous avez d%u00e9ploy%u00e9 en North Europe et que vous avez donn%u00e9 comme nom hdp23sandbox, vous pouvez ensuite naviguer vers http://hdp23dansbox.northeurope.cloudapp.azure.com:8888 et voir une page d’accueil qui contient entre autres des tutoriels :

Il est bien s%u00fbr aussi possible de se connecter %u00e0 votre VM en ssh.

Vous pouvez configurer l’acc%u00e8s aux comptes de stockage Azure en ajoutant des clefs valeurs dans le fichier /etc/hadoop/conf/hdfs-site.xml (sudo vi /etc/hadoop/conf/hdfs-site.xml)

– key: fs.azure.account.key.{storage account name}.blob.core.windows.net

– value: {{storage account name} account key (primary or secondary)}

Exemple:

Ce qui permet ensuite de travailler sur les fichiers du compte de stockage comme on travaillerait avec HDFS.

Pour rappel, la syntaxe est :

wasb://{container}@{storage account name}.blob.core.windows.net/[{dossier1/dossier2()}[/{file name}]

exemple :

qui correspond %u00e0

Vous pouvez instancier votre propre %u00ab sandbox %u00bb depuis cette page : https://azure.microsoft.com/en-us/marketplace/partners/hortonworks/hortonworks-sandbox/. Cliquez sur le bouton %u00ab Create Virtual Machine > %u00bb

@benjguin

Blog Post by: Benjamin GUINEBERTIERE