Faire sens des données du web

Il y a beaucoup de données sur Internet. En fait, c’est la source de données la plus importante au monde. De nombreuses entreprises et particuliers souhaitent utiliser ces informations dans leurs projets, allant de l’extraction des prix des concurrents à la prise d’un instantané des cours des actions à un moment donné. Le problème est que ces données sont stockées de manière non structurée, ce qui rend difficile la lecture et l’interprétation automatique par les ordinateurs.

C’était le problème que GrabzIt avait été créé pour résoudre. Notre première priorité était de permettre aux utilisateurs de créer une copie exacte d’une page Web en fournissant un service de capture de sites Web sous forme d’images ou de documents PDF, permettant ainsi la capture instantanée d’une copie de la page Web entière.

Notre priorité suivante était d’extraire les données d’une page Web. Pour ce faire, nous avons créé un service qui convertit les pages Web contenant des tableaux HTML en fichiers CSV ou Excel. Cela permettrait aux logiciels de lire facilement les tableaux HTML et aux utilisateurs de capturer des instantanés de tableaux HTML, ce qui est utile pour obtenir des données historiques sur des sujets tels que les scores de football.

Cependant, cela ne fournit pas la flexibilité souhaitée par de nombreux utilisateurs. Nous avons donc créé le Web Scraper. Il s’agit d’un outil extrêmement flexible qui peut extraire des données de n’importe quelle page Web ou document PDF en explorant un site Web et en extrayant les données au fur et à mesure. En fait, il est si puissant qu’il peut non seulement extraire du texte, des images, des liens et des fichiers à partir de sites Web. Il peut même extraire du texte à partir d’images, vérifier qu’un lien est valide ou prendre des captures d’écran de chaque page d’un site Web.

Pour ce faire, un utilisateur doit spécifier les données à extraire, seo la plupart pouvant être effectuées via un assistant en ligne. Une fois que le Web Scraper a extrait les données, il les met ensuite dans un format structuré qui est essentiel pour qu’un ordinateur puisse les lire. Cela va des documents CSV, Excel et HTML à un script SQL, qui permet aux données d’être chargées directement dans une base de données.

Alors que beaucoup de gens sont impressionnés par ce que nous faisons, GrabzIt souhaite aller plus loin et vise à rendre le Web entièrement lisible par une machine, comme toute autre source de données.