This torrent contains 4464 out of 5097 videos from the first four volumes which I originally posted to nyaa.se and 1114 new videos.
I have also made a YouTube channel for the videos in this torrent (https://www.youtube.com/channel/UC5-NI9LvFBwLnFCY87zz6QQ/videos).
I selected the videos in the fourth and fifth volumes among about a million videos posted by about 600,000 users first based on the thumbnails of the videos and then based on the actual videos. The first three volumes also contained images, and I selected the users whose images and videos I checked when I made them among about a million users mostly based on a single profile picture of each user. I had to reject most of the users because they were too old, not female, or not Japanese, because Instagram profiles don't have fields for age, sex, or location.
Other torrents like this:
http://1337x.to/torrent/2164383/Instagram-pictures-of-Finnish-girls-vol-12/ http://1337x.to/torrent/2060720/Facebook-pics-of-Finnish-girls-vol-9/
I made the first volume through Instagram's API, but in June 2016 Instagram made most of the functionality of their API available only to applications that have passed a review process. They still however provide JSON data on the pages for users, posts, and search results for tags, and you can add the parameter __a=1 to a URL to only include the JSON data.
I used a script like this to search for posts with specific tags:
for tag in バレー部 バスケ部 制服ディズニー 文化祭 体育祭 ドッジボール バド部 \
ソフト部 テスト前 部活 修学旅行 美術部 陸上部 水泳部 テニス部 \
中学卒業 柔道部 ユニバ バスケ テスト バレー 女バレ 女バス \
バレーボール 部活帰り ハンド部 ソフトボール 女テニ インターハイ \
セーラー服 バトン部 女サカ インハイ予選 スポーツ大会 女バド \
ソフトテニス 女ハン 部活終わり 合唱コン スポ大 \
バースデーサプライズ クラス会 また遊ぼう 放課後 みんな大好き \
テスト終了 遊びたい 高校卒業 テスト期間 はぴば 入学 笑いすぎた \
双子コーデ テスト勉強 女ッカー 球技大会 テスト終わり バド \
ドッヂボール ドッヂ イヤホンガンガン伝言ゲーム 遊んだ また遊ぼ \
合唱コンクール 女子サッカー お化け屋敷 幼なじみ メンバー \
大好きな先輩 練習試合 高校生;do
max=
while :;do
c=$(curl -s "https://www.instagram.com/explore/tags/$tag/?__a=1&max_id=$max")
jq -r '.tag|.name as$name|.media.nodes[]?|$name+" "+.owner.id+" "+.id+" "+.display_src+" "+(.is_video|tostring)'<<<"$c"
max=$(jq -r .tag.media.page_info.end_cursor<<<"$c")
jq -e .tag.media.page_info.has_next_page<<<"$c">/dev/null||break
done
done
I used a script like this to make a list of all media posted by users:
while read username;do
max=
while :;do
c=$(curl -s "https://www.instagram.com/$username/?__a=1&max_id=$max")
jq -r '.user|.id as$user|.media.nodes[]?|$user+" "+.id+" "+.display_src+" "+(.is_video|tostring)'<<<"$c"
max=$(jq -r .user.media.page_info.end_cursor<<<"$c")
jq -e .user.media.page_info.has_next_page<<<"$c">/dev/null||break
done
done
I used a script like this to find users who have liked posts:
<post_shortcodes parallel -j10 curl -s https://www.instagram.com/p/{}/\\\?__a=1|
jq -r '.graphql.shortcode_media|.owner.id as$owner|.edge_media_preview_like.edges[]?.node|$owner+" "+.id+" "+.username'
Here are thumbnails of some of the videos in the fifth volume:
|