[UiPath]WEBサイトのスクレイピングをする方法

はじめに

しばらくぶりの更新となってしまいましたが、ブログの執筆を再開していこうと思います!
前回の記事ではUiPathでバッチファイルを実行する方法をご紹介しました。皆様のお役に立てたでしょうか?

今回は、UiPathでWEBサイトの情報をスクレイピングする方法をご紹介いたします。
スクレイピングができると大量のデータを自動で集めることができるため、様々な業務効率化に役立ちます!

スクレイピングを行う際の注意点

WEBサイトはそれぞれ作成者がおり、基本的には作成者が著作権を持っています。
著作権者の同意を得ず著作物をコピーしたり、自社のサーバに保存するなどの行為は原則として違法となってしまいます。

そのため、以下の方法でスクレイピングが許可されているかを確認し、許可されている場合のみスクレイピングを行うようにしましょう。

WEBサイトのURLに「/robots.txt」をつけ、robots.txtを確認する。
例:https://www.densan-kikaku.co.jp/robots.txt

robots.txt内のAllowで表示されているパスが、スクレイピングでデータを取得してよい範囲となっています。
また、Disallowになにも記載がない場合は、全てのデータの取得を許可していることになります。

実際にやってみましょう!

実際にスクレイピングをUiPathで実行してみましょう。

まずはブラウザでスクレイピングを行いたいサイトを開きます。

今回はこのブログの記事一覧ページを使用します。

次に、UiPathの画面上で「データスクレイピング」を選択します。

「データスクレイピング」を選択するとウインドウが表示されます。

「次へ」をクリックすると、データを選択する画面になるので、抽出したいデータをクリックします。

今回はブログのタイトルを抽出するため、タイトル部分をクリック。

データの規則性をとるために同じ内容の違う項目を選択する必要があります。

次の項目を選択するためのウィンドウが表示されるので、「次へ」をクリック。

先ほどと同じようにブラウザ上でタイトル部分をクリック。

すると、抽出したデータのテキスト列名を編集する画面が出てくるので、列名をわかりやすい
タイトル」に変更。

次へを押すと、スクレイピングして取得したデータの一覧が表示されます!

「完了」をクリックすると、スクレイピングするページが複数にあるか確認するページが開きます。
ページが複数ある場合は「はい」をクリックし、次のページへ遷移するボタンを記事のタイトルをクリックしたときと同じ要領で選択してください。
今回は次のページがないため、「いいえ」をクリックします。

UiPath上にスクレイピングを行う際のワークフローが自動的に追加されます。

スクレイピングの処理はこれで完了となりますが、このままでは取得したデータを使用することができないため、今回は取得したデータをcsvファイルに保存する処理を追加していきます。

一番下にある+ボタンをクリックして、「csvに書き込み」アクティビティを追加します。

アクティビティを追加すると「書き込み元」と「書き込み先ファイル」の設定があるので、それぞれ次の内容を入力してください。

  • 書き込み元:「ExtractDataTable」
  • 書き込み先ファイル:任意のファイル名をダブルコーテーション(”)で囲む

ここまで設定した状態でファイルを実行してみましょう。

UiPath画面上の「ファイルを実行」をクリック。

処理が完了すると、画面左下の「出力」に「実行が終了しました。」と表示されます。

実行完了後、プロセスが保存されているフォルダにcsvファイルが保存されています。

このcsvファイルの中に、取得したデータが保存されます!

取得したデータがcsvファイルに保存されていることを確認できました。お疲れさまでした!

まとめ

今回はUiPathを用いてスクレイピングをする方法をご紹介させていただきました。

WEB上には様々なデータがあり、それらを自動で収集し活用することでさらなる業務効率化につながっていきます!

当ブログでは、こういった技術系の解説記事を投稿しております。今後も様々な情報を更新予定ですので、よろしくお願いいたします!

""

NDKのRPA・AI-OCRサービス

NDKでは、UiPathを使用したRPAサービスや、自動文字認識を行うAI-OCRサービスを提供しております。

RPA・AI-OCRを利用すれば、単純作業などの面倒な仕事をロボットに任せることができます。

こちらのボタンより開くことができる活用事例ページでは、RPAやAI-OCRを実際に導入するとどのようなことができるかがわかりますので、是非クリックしてみてください!

お問合せフォームはこちらです。お気軽にご相談ください。

RPA・AI-OCRサービスのお問い合わせ

RPA・AI-OCRサービスに関する、導入のご相談、資料請求、お見積もりなど、
小さなことからお気軽にお問い合わせください!

「[UiPath]WEBサイトのスクレイピングをする方法」へのコメント

コメントはありません

コメントを残す

メールアドレスが公開されることはありません。