記録

Anglesharpというライブラリの話。

久しぶりに技術的なお話の記事を書きます。AnglesharpというのはC#などでスクレイピングするときにスクレイピングを補助してくれるライブラリで結構人気のあるライブラリなるようです。スクレイピングするコードは下記のようになります。この書き方が至ってシンプルで書きやすいのではないかなと思っています。

http://anglesharp.github.io/

var Url = $"https://zip358.com/";
var querySelector = $"#index_post_list > li.clearfix.num1.type1 > div > h3";
var document = BrowsingContext.New(Configuration.Default.WithDefaultLoader()).OpenAsync(Url).Result;
var element = document.QuerySelector(querySelector);
Console.WriteLine($"blogtitle is {element.InnerHtml}");

このライブラリはとても良いのですが、一つ問題があります。スクレイピングするのですが・・・これjavascriptがOFFの状態でスクレイピングされるのですね。どうもこのコードではJSがONにはならないようですね。因みに自分はそのことを知っていなかったのでどハマリしました。大手の検索サイトなどはjavascriptがOFFの状態でも閲覧できるようになっている事を知りました、試しにブラウザをOFFの状態にしてみるとソースコードがかなり違っていてJSのONの状態とは情報が差異がある事が理解できると思います。

Anglesharpのコンフィグ設定(init)でエージェントなどを設定してあげると上手くJSがONの状態をスクレイピングすることが可能なのかもしれません。動画を見る限りではまだかもしれません・・・。

近況:クラウドで単発のお仕事を探しつつ。前のページ

つかみに滑った感があるけど、中身はスベってない機械学習の数学講座。次のページ

関連記事

  1. 記録

    非同期通信の2重ループは素人にはオススメしません。

    非同期通信の2重ループは素人にはオススメしません。そして、2重ループ…

  2. 記録

    自動化の波。

    自動化の波がすぐそこまで来ているような気がする。ITエンジニア…

  3. 記録

    FBのQの意味。

    3つの戯言。◎フェイスブックのQイメージは謎めいている感じや賢いな…

  4. 記録

    四宮しのの新刊「俺は性格が悪い。」が、5月15日に茜新社より発売された。

    『俺は性格が悪い。』が面白そう!?。中身を観たわけではないのですが・…

  5. 記録

    仕事は楽しいものという考え方。

    仕事は楽しいものという考え方。そういった内容のつぶやきが流てきた、…

PAGE TOP