記録

Anglesharpというライブラリの話。

久しぶりに技術的なお話の記事を書きます。AnglesharpというのはC#などでスクレイピングするときにスクレイピングを補助してくれるライブラリで結構人気のあるライブラリなるようです。スクレイピングするコードは下記のようになります。この書き方が至ってシンプルで書きやすいのではないかなと思っています。

http://anglesharp.github.io/

var Url = $"https://zip358.com/";
var querySelector = $"#index_post_list > li.clearfix.num1.type1 > div > h3";
var document = BrowsingContext.New(Configuration.Default.WithDefaultLoader()).OpenAsync(Url).Result;
var element = document.QuerySelector(querySelector);
Console.WriteLine($"blogtitle is {element.InnerHtml}");

このライブラリはとても良いのですが、一つ問題があります。スクレイピングするのですが・・・これjavascriptがOFFの状態でスクレイピングされるのですね。どうもこのコードではJSがONにはならないようですね。因みに自分はそのことを知っていなかったのでどハマリしました。大手の検索サイトなどはjavascriptがOFFの状態でも閲覧できるようになっている事を知りました、試しにブラウザをOFFの状態にしてみるとソースコードがかなり違っていてJSのONの状態とは情報が差異がある事が理解できると思います。

Anglesharpのコンフィグ設定(init)でエージェントなどを設定してあげると上手くJSがONの状態をスクレイピングすることが可能なのかもしれません。動画を見る限りではまだかもしれません・・・。

近況:クラウドで単発のお仕事を探しつつ。前のページ

つかみに滑った感があるけど、中身はスベってない機械学習の数学講座。次のページ

関連記事

  1. 記録

    映画、ザ・サークルを観てきましたよ。

    映画ザ・サークルの感想はツイッターに掲載しましたので特に書かないで…

  2. 記録

    得しないこと。

    FBとTwitterやブログを結びつけても著名人でもない限りマイナ…

  3. 記録

    そのままでそのままで。

    コンビニのお買い物でエコバッグを使わなくなる。あるコンビニのお…

  4. 記録

    TEST投稿

    TEST投稿…

  5. 記録

    時代を感じる。そんな時代になったんだね。ワードプレス!

    学生さんがワードプレスと独自のドメインでブログを更新しているのを目…

  6. 記録

    WordPress:仕事の現場でサッと使える!デザイン教科書。

    【Wordpress:仕事の現場でサッと使える!デザイン教科書】をぱ…

PAGE TOP