Développeurs et rédacteurs du monde entier, réjouissez-vous ! Microsoft vient de sortir un convertisseur Markdown pour les fichiers Office, et a même trouvé un moyen d'y ajouter une touche d'IA.
Markdown a beau être devenu un format incontournable, passer aisément d’un document Word ou PDF à du texte brut bien structuré relève encore du parcours du combattant. Avec MarkItDown, Microsoft propose enfin un outil capable de résoudre ce problème : une bibliothèque Python open-source qui transforme fichiers bureautiques, images ou même contenus audio en texte Markdown. Objectif : simplifier la conversion, tout en ajoutant une dose d’intelligence pour les projets les plus exigeants.
Un convertisseur polyvalent en libre accès
Convertir des fichiers Word, PDF ou même des images en Markdown n’a jamais été une partie de plaisir. Les outils existants font souvent le strict minimum, et il faut généralement bricoler pour s’en sortir. Microsoft a donc décidé de s’attaquer au problème avec MarkItDown, une bibliothèque Python open-source censée enfin automatiser le travail.
MarkItDown prend tout en charge, ou presque. Word, Excel, PowerPoint, PDF, HTML, ZIP, images, sons, textes… On apprécie la prise en charge de la reconnaissance optique de caractères qui facilite l’extraction et l’exploitation de texte visuel, au même titre qu’on salue la gestion de la transcription vocale pour les fichiers audio. Objectifs : faciliter l’indexation, l’analyse ou la réutilisation des contenus simplifiés.
Mais là où le convertisseur marque vraiment des points, c’est dans sa capacité à intégrer et à tirer profit de l’intelligence artificielle. Capable d’interagir avec de nombreux grands modèles de langages, dont GPT-4, il se propose de générer des descriptions précises d’images sans intervention manuelle.
Celles et ceux qui souhaitent tester les fonctionnalités de MarkItDown peuvent l’installer en utilisant la commande pip install markitdown
, après avoir téléchargé les fichiers officiels sur la page GitHub du projet. Pour plus de simplicité, vous pouvez également passer par le service en ligne qui vous permettra de convertir vos fichiers à la volée. À noter enfin que le convertisseur est distribué sous licence MIT, ce qui autorise chacun et chacune à l’adapter et à le distribuer dans des projets personnalisés.
Source : Microsoft