News API scraper

Extraction des données sur un Blog avec l’API Zyte

Une collecte fiable des données  d’actualités et d’articles est essentielle pour des analyses réussies. Elle participe aussi de manière très considérable à  la construction de la  notoriété des marques, lors des  lancements de produits, de la recherche de sujets et de sentiments par des mots clés. 

Zyte fournit une collecte  de données alimentée par l’IA (Intelligence Artificielle) pour les données d’actualités et d’articles à grande échelle avec une meilleure qualité sur l’échelle du marché des données.

Tous les champs essentiels sont extraits automatiquement : titre, corps de l’article, le HTML nettoyé de l’article, date de publication, auteurs, images.

L’API de Zyte Automatic Extraction news prend en charge une liste complète de types de métadonnées et les résultats sont directement livrés dans votre panier  AWS S3, ce qui garantit la flexibilité nécessaire pour évoluer avec vos besoins.

Zyte utilise le deep learning pour extraire des données d’articles et d’actualités sur des pages web.

News API catégories des données extraites

  • Headline
  • Article body
  • Article body HTML
  • Data published
  • Date modified
  • Author
  • Language
  • Main image
  • Images
  • Breadcrumbs
  • Description
  • Video URLs
  • Audio URLs

News API exemple des données sortie

[
    {
        "article": {
            "headline": "Article headline",
            "datePublished": "2019-06-19T00:00:00",
            "datePublishedRaw": "June 19, 2019",
            "dateModified": "2019-06-21T00:00:00",
            "dateModifiedRaw": "June 21, 2019",
            "author": "Article author",
            "authorsList": [
                "Article author"
            ],
            "inLanguage": "en",
            "breadcrumbs": [
                {
                    "name": "Level 1",
                    "link": "http:\/\/example.com"
                }
            ],
            "mainImage": "http:\/\/example.com\/image.png",
            "images": [
                "http:\/\/example.com\/image.png"
            ],
            "description": "Article summary",
            "articleBody": "Article body ...",
            "articleBodyHtml": "<article><p>Article body ... <\/p> ... <\/article>",
            "articleBodyRaw": "<div id=\"an-article\">Article body ...",
            "videoUrls": [
                "https:\/\/example.com\/video.mp4"
            ],
            "audioUrls": [
                "https:\/\/example.com\/audio.mp3"
            ],
            "probability": 0.95,
            "canonicalUrl": "https:\/\/example.com\/article\/article-about-something",
            "url": "https:\/\/example.com\/article?id=24"
        },
        "webPage": {
            "inLanguages": [
                {
                    "code": "en"
                },
                {
                    "code": "es"
                }
            ]
        },
        "query": {
            "id": "1564747029122-9e02a1868d70b7a3",
            "domain": "example.com",
            "userQuery": {
                "pageType": "article",
                "url": "http:\/\/example.com\/article?id=24"
            }
        },
        "algorithmVersion": "20.8.1"
    }
]

Résumé

zyte fournit une interface utilisateur avec une barre de recherche dans laquelle vous pouvez coller l’URL dont vous souhaitez extraire les données. Après avoir inséré l’url, vous pouvez cliquer sur le bouton « start extraction » et l’api commencera automatiquement l’extraction en fonction des champs de base tels que le nom, le prix, l’url de l’article, etc…

CAS PRATIQUE:

Voici un exemple de collecte de données avec le site Amazon

 

Dans l’image, vous pouvez voir les informations collectées d’Amazon. Après la collecte, il vous est possible de déterminer l’emplacement des informations collectées. Pour exporter les données collectées cliquez sur le bouton « Export data » .

Impressions

Nous pouvons ainsi affirmer que l’API Zyte est facile d’utilisation car, en  seulement deux clics, vous pouvez obtenir des informations d’un site web et réutiliser celles-ci dans une quelconque autre application ou site web.

Sources

https://www.zyte.com/

Leave a Comment

EN