This is repo for analysing anime from big anime databases. The main datasource will be MyAnimeList (MAL), and maybe later some others.
Anime sources:
The main source: kaggle CSV dataset, all data used in this analysis is based on this data.
- contains all needed data
There is official API for MAL
and then there is unofficial one which provides more information
Taiga - desktop app which stores anime data offline in xml file
there is one unofficial API
- but it is not working
Kuristina - API for animelists and manga lists, provides both json and xml responses: /~
MAL anime data from 31.5.2019
there other kaggle CSV dataset
other kaggle dataset
- but probably not much useful, probably as inspiration
- /~ python project on github
- wraps the websites loader and scrapper behind nice API. Can not load gender and location
- /~
- other wrapper of crawler behind nice API. This one seems pretty advances. Can get username from user ID via comments. Seem to be way for discovering all users who commented more effectively. Because I know user ID of already crawled users, I can search only for missing users this way
- can load also location and gender, which is nice
- it seems to work only with python 2, but there is fork /~ which just adds python 3 compatibility
User sources:
As the first source, I am using the Dibakarroy1997/myanimelist-data-set-creator repo, for that I need user IDs.
So I need user ids (ideally active users) for scrapping ratings per user.
So far I am scraping forum topics to get user ids:
command for scrapping with sample id: python .\ 1582476 user-lists/UserListPost1582476.txt
Topics scraped so far - all 8 watching challenge threads
user location and gender must be scraped from official page :(
- they have their own dataset with over 200 million records on their github /~
- maybe contact them and exchange datasets?
Some data are already scraped and can be downloaded here They are not cleaned and normalized, and far from complete yet. It contains:
- 204 334 unique usernames
- 19 200 users with downloaded ratings and animelists
- 6 014 042 animelist records
- 3 564 447 ratings in animelists
- 13 983 unique anime ids based on ratings and animelists
- 11 800 anime with downloaded data
The newer version of part of scraped data can be downloaded here: As above, data are not normalized, only in pickle for easier manipulation and compression during scraping. It contains:
- 204 334 unique usernames
- 46 800 users with downloaded ratings and animelists
- 14 704 980 animelist records
- 8 634 113 ratings in animelists
- 13 983 unique anime ids based on ratings and animelists
- 13 983 anime with downloaded data The newer version is also available in CSV form, more useful to work with. It can be downloaded here: It contains same data as binary files above.
3rd version of harvested data can be downloaded here: It contains both pickle and CSV files. It contains:
- 302 841 unique usernames
- 75 800 users with downloaded ratings and animelists
- 23 753 842 animelist records
- 14 009 170 ratings in animelists
- 14 426 unique anime ids based on ratings and animelists
- 14 269 anime with downloaded data
4th version of harvested data can be downloaded here: It contains both pickle and CSV files. It contains:
- 302 841 unique usernames
- 125 200 users with downloaded ratings and animelists
- 39 184 237 animelist records
- 23 096 715 ratings in animelists
- 14 430 unique anime ids based on ratings and animelists
- 14 269 anime with downloaded data
5th version of harvested data can be downloaded here: It contains both pickle and CSV files. It contains:
- 302 841 unique usernames
- 146 700 users with downloaded ratings and animelists
- 45 626 200 animelist records
- 26 832 473 ratings in animelists
- 14 441 unique anime ids based on ratings and animelists
- 14 269 anime with downloaded data
- 68 975 of users also have demographics data
6th version of harvested data can be downloaded here: It contains only CSV files. It contains:
- 302 841 unique usernames
- 235 200 users with downloaded ratings and animelists
- 65 233 633 animelist records
- 37 987 916 ratings in animelists
- 14 466 unique anime ids based on ratings and animelists
- 14 269 anime with downloaded data
- 183 188 of users also have demographics data
7th, final version of harvested data can be downloaded here: It contains only CSV files. It contains:
- 302 841 unique usernames
- 302 675 users with downloaded ratings and animelists
- 80 076 112 animelist records
- 46 358 322 ratings in animelists
- 14 478 unique anime ids based on ratings and animelists
- 14 478 anime with downloaded data
- 302 573 of users also have demographics data loaded
- 217 817 of them have gender
- 217 800 of them have ratings and gender
- 282 918 of them have all annotations and some anime in animelist
last dataset with filtered data (only users with location, birth date and gender) can be downloaded here:
The native .rick
version can be loaded into python as
import pickle
with open('UserList.rick', 'rb') as f:
users = pickle.load(f)
with open('AnimeList.rick', 'rb') as f:
animes = pickle.load(f)
The CSV can be loaded with pandas as you are used to
import pandas as pd
animes = pd.read_csv('AnimeList.csv')
users = pd.read_csv('UserList.csv')
animeLists = pd.read_csv('UserAnimeList.csv')
or you just can open it in Excel or whatever.
tools and other ideas: voyager - web based tool for datasets exploratory analysis:
vega-lite - other tool for visualizations, specifications in json:
lyra - completely code-less, only web-based GUI:
jinak klasika: paraview, tableau, gephi
pro python: networkx pro grafy, + dash na interaktivní vizualizace
d3 for nice javascript graphs: /~
- zjistit velké rozdíly v hodnocení anime, s velkým rozptylem, kde je hodnotí hodně lidí velmi kladně a hodně lidí velmi záprně
- podívat se na rozdíly mezi hodnoceními v čase
- rozdíl mezi lidmi co hodnotili málo a co hodnotili hodně anime, co viděli a co hodnotili za díla
- korelace score, žánrů, sledovanosti, a času, a lidí, co sledují hodně, málo
- rozclusterovat lidi na málohodnotící, a hodně hodnotící, podle střední hodnoty hodnocení apod.
- prozkoumat recency bias u vydání anime, gender split
- prozkoumat plan to watch listy
- prozkoumat sledovatnost žánrů v závislosti na zemi, věku, pohlaví, ale i času, a časový vývoj různých věcí, zkusit změnu trendů v čase, vývoj počtu děl v žánru, průměrné oblíbenosti žánrů v čase apod
- udělat časový vývoj podobně jako
- vývoj do spiral chartu, například průměrné hodnocení anime podle data vydání:
- časový výoj počtu anime různých žánrů a proměrné hodnocení jako video podobné 200 years? průměr hodnocení na ose a počet kusů jako velikost kolečka?
- u těch žánrů to zkusit kumulativně, anime do té doby, a anime co vyšly v daném roce, nebo v intrvalu např. 5 let a posouvat interval v čase
- zjistit vztahy mezi žánry na základě toho, kolik anime dané řánry sdílí (vzdálenost žánrů podle anime, co je mají, a embedding, případě ukáztat v čase)
- podívat se na nejdropovanější série
- korelace mezi dokončenými a dropnutými žánry?
- zkusit nějaké graphical models a podmíněné grafové věci jako jsme měli v SMU?
- ukázt source v závislosti na čase u anime, i žánry a studia v čase
- ukázat jointploty kde, bude to vypadat hezky
- zkusit metriky co popisuje Šlerka
- spojitost studií a žánrů, prozkoumat žánrové zastoupení, demografii fanoušků a vývoj v čase u jednotlivých studií
- tohle nešlo dohledat jinde a tím pádem to může být hodně zajímavé
- souvislost průměrného hodnocení a žánrů u jednotlivých studií? komu jaký žánr "jde lépe"?
- zkusit znormovat hodnocení anime na normální rozdělení s mean=5.5, upravit podle toho hodnocení a ukázat, jak si některé tituly povedou
- zkusit embeddované žánry sgroupovat do menšího počtu žánrů -> představit menší počet ensemble žánrů?
- zkusit rozdělit anime podle ratingů? (slide na anime is not for children apod.), a pak zkusit studia a ratingy apod.
- funny nápad:
- stahnout data o seyiu, a v jakých anime byli
- definovat Erdosovo číslo
- napočítat to samé pro seiyu (kolaborace = stejné anime)
- definovat Picovo číslo jakožto kolaborativní vzdálenost os seiyu Pica z Boku no Pico
- nějak vizualizovat, napočítat průměrnou vzdálenost apod.
- ukázat na tom míru kolaborace mezi seiyu
- už existuje pro herce Bacona
- zmínit nejdříve Erdose, potom Bacona a vybrat nějakého slavného / neobvyklého seiyu, a definovat čísla pro seiyu
- použít někoho z Hanazawa Kana a Kamiya Hiroshi, ty jsi nejznámější
- spočítat vlastní popularity, porocnat s tou MALovou?
- ukázat rozložení žánrů a studií pro populární anime (top 2k anime?) a porovnat s rozložením pro všechna
- vztah mezi řánry a ratingy? jak hodnocení, tak omezení na věkovou kategorii
- srovnat jak velká část anime je skutečně pro děti
- co porovnávám v čase, porovnat i u všech X populárních anime (jsou tam různá zastoupení žánrů apod.?)
strukturova přednášku:
- pipeline a obecné věci
- současný stav (anime, useři a vůbec)
- useři - jen určitá věková skupina apod.
- anime, nezávisle na userech
- nějaké top 10 apod.?
- vývoj v čase (anime, useři, možná i hodnocení apod.) - kde na ose X je čas
- sem možná vývoj v čase jako gify?
- složitější věci, jako jsou vzdálenosti, embedding apod.
- u metrik (cosine similarity apod.) dát vzorec a malou ukázku pomocí vektorů a šipek na podporu reality
popis podobnosti visual novel v grafech: For the attraction value specifically, IIRC, it went along these lines (for nodes A and B)
bunnyadvocate similarityAB = /
similarityBA = /
attraction = (1-sqrt((1-similarityAB)*(1-similarityBA)))^3 the attraction between two nodes was always the same going each way, A->B and B->A or else you get messy situations where one node is constantly chasing the other as the other is repelled by it more
data notes: days spent watching anime should not be takes seriously because of mismatches. E.g. here: 1 332.1 days are spent watching anime because there are 9001 rewatches for Akira and Perfect Blue
ukázat gif s porovnáním boxplotů a violit plotů a proč je lepší používat violin ploty? pokud tam budu nějaké violin ploty mít ofc