X



天才プログラマいたら聞きたいんだけど正規表現にマッチするURL全て検索するにはどうすればいいの? [623230948]
■ このスレッドは過去ログ倉庫に格納されています
0001安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 1f4c-uFij)
垢版 |
2024/02/12(月) 08:29:44.51ID:mHsuxH+X0?2BP(1000)

例えば
pattern = r"http:\/\/www\.kaitorimax\.com\/signkai\/\d{4}\/\d{4}_toda_makoto\/toda_makoto\.html"

と検索すれば買取りまっくすの戸田真琴のサイン会レポートのURLが全て手に入るみたいなこういうシステムを作りたい

URLを入力してください: http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/toda_makoto.html
画像URL一覧:
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/1.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/2.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/3.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/4.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/5.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/6.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/7.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/8.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/9.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/10.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/11.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/12.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/13.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/14.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/15.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/16.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/17.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/18.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/19.jpg

[Program finished]
0002安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 1f4c-uFij)
垢版 |
2024/02/12(月) 08:30:37.67ID:mHsuxH+X0?2BP(1000)

好きなAV女優の買取りまっくすイベントを簡単に検索できる魔法ツールを作りたい、Google検索でもヒットしないからな

総当たりしたらできないこともなさそうだけど
できれば総当たりはしたくない
0009番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW c661-5AU2)
垢版 |
2024/02/12(月) 08:37:59.85ID:stcEMOoc0
それよりハイ美女ん風呂で検索総取り出来た方が有能だわ
0010安倍晋三🏺 ◆.abeshinZo (ワッチョイW 6684-ffuv)
垢版 |
2024/02/12(月) 08:38:53.86ID:LMvgy3SO0
googleカレンダーならAPIあるんじゃない
知らんけど
0012🏺 (ワッチョイW 6b12-+162)
垢版 |
2024/02/12(月) 08:39:37.84ID:XUn2uT+X0
それ正規表現というか、昔のリゲットとかアーバインとかであった機能だろ
0014番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 62a8-tTkk)
垢版 |
2024/02/12(月) 08:41:26.42ID:0NzaaPGu0
転載プログラマー以外は書き込むなよ
恥ずかしくないのか?
なあ?
0015番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 1657-PZY7)
垢版 |
2024/02/12(月) 08:42:45.32ID:ckRYQrW00
日付を取得して、日付からその日のレポートページのURLを作って
羅列したいってこと?
0017安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 1f4c-uFij)
垢版 |
2024/02/12(月) 08:44:15.95ID:mHsuxH+X0?2BP(1000)

本当だ!全部あるじゃん!
0018番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 2239-XyAm)
垢版 |
2024/02/12(月) 08:44:59.56ID:0WXpMmtD0
え?AIに聞けよ
0019番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW f710-43hX)
垢版 |
2024/02/12(月) 08:45:06.11ID:qQdKKKQ80
天才だけど、わからない人に教えるの難しいから書きたくない
0020安倍晋三🏺 ◆ABeSHInzoo (ワッチョイW 1e56-IPRC)
垢版 |
2024/02/12(月) 08:47:05.13ID:T/gepJX80
大前提として全ページスクレイプしてURLリスト作る必要があるから一般化できるプログラムだと効率悪いものしかできない

ターゲットにするサイトの階層とかHTML構造調べて自分で作れとしか言いようがない

100%網羅しなくてもokなら、Wayback MachineのAPI叩いてURLリストぶっこ抜くのが楽
https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server
0022安倍晋三🏺 ◆ABeSHInzoo (ワッチョイ 724c-XyAm)
垢版 |
2024/02/12(月) 08:50:24.64ID:5Dvj4jj10
そもそも日本の場合、ページを収集してサーバーに負荷をかけたら捕まる可能性があるんじゃないのか
0024安倍晋三🏺 (ワッチョイW ef8f-J1F2)
垢版 |
2024/02/12(月) 09:06:11.92ID:elJIuD4S0
>>21
これでいいんじゃねえの
負荷かけるとヤバいから、平均で5秒に1アクセスくらいにして、アクセス時間も適度にランダム化しておくべきだが
0026安倍晋三🏺 ◆ABeSHInzoo (ワッチョイ ff14-XyAm)
垢版 |
2024/02/12(月) 09:18:04.73ID:oZLbclED0
ゲットしたHTMLソースから抜くだけだろ
0027安倍晋三 (ワッチョイ efa2-6uJS)
垢版 |
2024/02/12(月) 09:22:15.99ID:PRvMUaL50
昔あったダウンロードツール使えばいいだけだろ
0028番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 1657-PZY7)
垢版 |
2024/02/12(月) 09:24:08.99ID:ckRYQrW00
ボタン押したらページ内でカレンダーが変化するだけの特殊なページだから難しいのか
0029番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 634e-IqbK)
垢版 |
2024/02/12(月) 09:26:40.98ID:lefGKJJA0
import re

# パターン
pattern = r"http:\/\/www\.kaitorimax\.com\/signkai\/\d{4}\/\d{4}_toda_makoto\/toda_makoto\.html"

# URLを入力
input_url = input("URLを入力してください: ")

# 正規表現でパターンを検索
match = re.match(pattern, input_url)

if match:
print("URLはパターンと一致しました。")
else:
print("URLはパターンと一致しませんでした。")
0031安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 1f4c-uFij)
垢版 |
2024/02/12(月) 09:34:17.89ID:mHsuxH+X0?2BP(1000)

ありがとう、ソフトウェア完成した
0033番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW e319-+162)
垢版 |
2024/02/12(月) 11:51:07.24ID:DpVbb02Z0
正規表現訳わかんなさすぎて俺には無理。ChatGPTさんにいつも聞いてる。
0035番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 6fdd-aAsb)
垢版 |
2024/02/12(月) 13:28:45.89ID:Jm66WBCC0?2BP(1000)

調べてみたが、過去のサイン会のページが1800以上あって、それぞれ15くらいの写真があって
サーバーにすげえ負担かかるから、書くのやめとくわ
大量アクセスで鯖止まって営業妨害とか言われて逮捕されると嫌だし
0036安倍晋三🏺 ◆ABeSHInzoo (ワッチョイW efdd-enaZ)
垢版 |
2024/02/12(月) 13:30:47.08ID:39lA1ct70
馬鹿なスクレイピングは犯罪になりうるからな
0037番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 6fdd-aAsb)
垢版 |
2024/02/12(月) 13:32:10.21ID:Jm66WBCC0?2BP(1000)

コンソールでjavascript使って、サイン会の女優ごとの個別ページへのリンクを正規表現で拾って
そこから画像リンクの親パスだけ抜き出して、async awaitで非同期でアクセスしながら2分法で有効なリンクの数字を判定していくのを繰り返せば
2万7000くらいのリンクが得られる
大人数で一気にアクセスしたらサーバーの負荷が大きい
0038番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 6fdd-aAsb)
垢版 |
2024/02/12(月) 13:32:47.09ID:Jm66WBCC0?2BP(1000)

>>836
ほんまやで
0040番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 6fdd-aAsb)
垢版 |
2024/02/12(月) 13:40:56.48ID:Jm66WBCC0?2BP(1000)

>>39
無視してsleep(実際はinterval)してる部分を消して速攻アクセス繰り返すバカが大量に出て来るので
第三者に向けてスクレイピングのスクリプトを公開するのは危険
0041安倍晋三🏺 ◆ABeSHInzoo (アウアウウー Sac3-m9Rh)
垢版 |
2024/02/12(月) 13:46:24.89ID:JisA/sBPa
誰かが画像だけまとめてアップロードするとか
AI学習用の用途で
0042番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 1ec8-DzsE)
垢版 |
2024/02/12(月) 14:02:25.23ID:CcPj8ZTt0
全部落としてから考えれば
0043安倍晋三エクスプローラー🏺 (ワッチョイ 6f4a-QrxV)
垢版 |
2024/02/12(月) 14:04:32.10ID:HlxPqZYj0?2BP(2000)

正規表現はChatGPTに聞くのが手っ取り早いぞ
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況