2013年1月30日水曜日

電子書籍&紙書籍 出版点数③ ミクロ編 補遺 生データもあるでよ

 
 先週、更新した「電子書籍&紙書籍 出版点数② ミクロ編」については、非常に好評らしく、多くのアクセスをいただいています。
 どうやら、フォロワー数が10,000人を越える某先生のつぶやきで取り上げていただいたのが功を奏しているようです。
 曰く「まずい統計の例」だそうです。

 …うん、なんというか、ごめんなさい。m(__)m

 ということで、今回は、どういう意図で、ああいう処理をしたのかを、元データを見せつつ、 言い訳 説明したいと思います。
 あと、(上位だけですが)生データを出しますので、興味のある方は、各自、データをいじって、楽しんでいただけたらと思います。

なぜ「平均」を使ったのか


まず、そもそも、「誰のための調査か」というところからお話ししたいと思います。
 実際のところ、第一の目的は、自分の好奇心のためですので、「自分のため」です。

 しかし、公開する以上は、「誰のためのデータか」、すなわち、「どんな電子書籍ユーザー箆撓のデータか」を想定しています。

 では、私は、どのようなユーザーを想定しているか。
 私が想定しているユーザーは、 「一つのストアに決め、そこだけを使うユーザー」です。
 電子書籍が好きな人のなかには、一台のタブレットに、何種類ものストアのアプリを入れ、読みたい本に応じて各ストアから買う人もいるかと思います。かくいう私も、スマートフォンには5ストアのアプリが入っています。
 しかし、私が想定しているのは、そういったユーザーではありません。


  それはなぜかというと、以下のような理由です。

  • 一般のユーザーが、複数のストアに支払い情報を登録し、また、読みたい本を多数のストアで検索する手間をかけるとは考えにくい。
  • Kindle、Kobo、Sony Reader、Booklive! Lideoなどの専用端末で電子書籍を読むユーザーの場合、他のストアにどれだけ配信作品があっても読むことが出来ない。


 さて。
 どのようなユーザーを想定するかで、 どのような値を「各出版社の配信数の代表値」として用いるかが変わって来ると考えます。

 もし、「タブレットに多数のストアのアプリをインストールして、使うユーザー」を想定するのなら、代表値として「最大配信ストアの配信数」を使うのが適切です。
 たとえば、筑摩書房の本を読みたいのならhontoや紀伊國屋のアプリを立ち上げ、平凡社の本が読みたいならebookjapanのアプリを立ち上げればいいわけです(下の表を参照)。
 「その出版社の本を一番多く配信しているストアの配信数」、「そのユーザーが読める本の数」になります。


 でも、上に書いたような「1つのストアだけを使うユーザー」ではそうはいきません。
 たとえば、専用端末だけで電子書籍を読んでいるユーザーは、いつも持ち歩いているその端末では、他ストアの本を読むことが出来ません。
 また、複数ストアを使い分けるというのは、DRMで囲い込み、本棚の共通化すら出来ていない現状では、ユーザーの利便性を大きく損ないます。そういった姿は、決して、理想的な姿とは言えないでしょう。

 …ということを考えたときに、「あるユーザーが、1つのストアに絞って使ったとき、ある出版社の本を読める期待値はどれぐらいか」を表す数字としては、「各ストア配信数の平均」が適切だと考えます。

 仮に、1つのストアで多数の本を配信していたとしても、そのストアのユーザーでない人間には、何の意味もありません。
 そこも含めて、「ユーザーが、本を読める期待値がどれぐらいか」を表すのは平均値のはずです。
 それが、私が平均を使った意味です。



hontoReader StoreGALAPAGOS紀伊國屋ebookjapanKindleKobo平均平均(最大最小除去)配信ストア平均中央値最大最小配信ストア数紙書籍(Amazon・新品)
1講談社11627115231122011619126886753648310273 10548 10273 11523 12688 6483 735000
2小学館677754985504157910707422817245145 4746 5145 5498 10707 1579 725412
3集英社31763105321831892292242820022773 2838 2773 3105 3218 2002 718456
4文芸社00424013354780320 180 746 0 1335 0 315541
5角川書店35712750028081303259610742015 2106 2350 2596 3571 0 69877
6岩波書店26025926025620500177 196 248 256 260 0 59462
7新潮社1501139212251288012210947 1025 1325 1225 1501 0 57866
8秋田書店214726683397266419334244141950 1967 1950 2147 3397 414 77037
9文藝春秋1206121311751182553118310531081 1160 1081 1182 1213 553 76800
10ポプラ社1718181820010 11 15 17 18 0 56453
11河出書房新社1175781195622680212265 256 309 212 578 0 65796
12学研2190135465113252018500939 876 1095 850 2190 0 65710
13ハーレクイン4874501230727104789380026593559 3839 3559 3800 5012 710 75637
14幻冬舎59362267910702271005585683 697 683 622 1070 227 75392
15エンターブレイン445456091459754227347 336 405 445 754 0 65092
16中央公論新社1755191215531890157998311251 1366 1251 1553 1912 15 75048
17光文社316299710189791208901178 1017 1374 997 3162 0 64940
18朝日新聞出版5732498896683399543469866 633 866 573 2498 399 74727
19アスキー・メディアワークス914822087425806144512 534 598 806 914 0 64658
20双葉社16239641435104826337035661282 1155 1282 1048 2633 566 74650
21協同出版00000000 0 0 0 0 0 04460
22徳間書店2846199716922010180001246 1176 1745 1692 2846 0 54396
23PHP研究所15991599159611060152514011261 1445 1471 1525 1599 0 64241
24平凡社19000838200125 8 292 0 838 0 34214
25新風舎00000000 0 0 0 0 0 04096
26明治図書出版00000000 0 0 0 0 0 04028
27竹書房30526687701361171372427 321 427 305 1361 26 74007
28メディアファクトリー1312136811271393172410229611272 1244 1272 1312 1724 961 73950
29筑摩書房56300355000131 71 459 0 563 0 23869
30中央経済社20191919170013 15 19 19 20 0 53851



なぜ、最大最小を抜いたのか。


 これは、もう、表を見ていただくしかないのですが。
 下の表は、電子書籍配信数の平均(最大最小除去なし)の上位から30位までを並べたものです。

 この表で7位に入っている「リブレ出版」。
 各ストアの配信数は、9175、0、4、9、230、192、25です。平均が1376ですから、7位です。

 …これ、納得できますか?

 ちなみに、この9175冊というのは、1話単位の配信が多く、通常の「一冊」という単位とは異なってきます。そういった出版社が、下の表には何社か含まれています。
 また、類似の例として、Reader Storeで雑誌記事を配信している朝日新聞出版などもあります。

 こういった配信について、過去の調査の経験から、以下の傾向がわかっています。
  • ある特定のストアで、「1話」単位で配信しているため、非常に多くの配信数になっている出版社がある
  • そういったストアについては、1ストアのみであり、複数ストアでそういうことが起こっている事例はほとんどない。
 というところで、そういった異常値を除くために、最大最小を除きました。
 

 上位しか使わないので、一個一個見て除いて良いわけですが、そうすると、どうしても、私の判断によるブレが入ります。そういったものを除いて、できるだけ、機械的に処理するために、今回の方法を用いました。

 ebookjapanのみで配信している平凡社、honto、紀伊國屋のみで配信している筑摩書房について、この方法を用いたことによって配信数が非常に少なくなってしまったのは、申し訳なく思っています。
 当日のうちにツッコミをいただきましたので、前エントリーでも追記しました。


hontoReader StoreGALAPAGOS紀伊國屋ebookjapanKindleKobo平均平均(最大最小除去)配信ストア平均中央値最大最小配信ストア数紙書籍(Amazon・新品)
1講談社11627115231122011619126886753648310273 10548 10273 11523 12688 6483 735000
2小学館677754985504157910707422817245145 4746 5145 5498 10707 1579 725412
3ハーレクイン4874501230727104789380026593559 3839 3559 3800 5012 710 75637
4集英社31763105321831892292242820022773 2838 2773 3105 3218 2002 718456
5角川書店35712750028081303259610742015 2106 2350 2596 3571 0 69877
6秋田書店214726683397266419334244141950 1967 1950 2147 3397 414 77037
7リブレ出版9175049230192251376 92 1606 25 9175 0 61433
8笠倉出版社7763164241644754081511307 272 1307 164 7763 24 71328
9双葉社16239641435104826337035661282 1155 1282 1048 2633 566 74650
10メディアファクトリー1312136811271393172410229611272 1244 1272 1312 1724 961 73950
11PHP研究所15991599159611060152514011261 1445 1471 1525 1599 0 64241
12中央公論新社1755191215531890157998311251 1366 1251 1553 1912 15 75048
13徳間書店2846199716922010180001246 1176 1745 1692 2846 0 54396
14光文社316299710189791208901178 1017 1374 997 3162 0 64940
15文藝春秋1206121311751182553118310531081 1160 1081 1182 1213 553 76800
16ゴマブックス4391463109414480136814041031 1151 1203 1368 1463 0 6838
17新潮社1501139212251288012210947 1025 1325 1225 1501 0 57866
18学研2190135465113252018500939 876 1095 850 2190 0 65710
19ぶんか社51950040923760891 208 1559 40 5195 0 41648
20朝日新聞出版5732498896683399543469866 633 866 573 2498 399 74727
21松文館4670750414841660777 153 1087 75 4670 0 5619
22富士見書房11091104010634971161435767 842 895 1063 1161 0 62248
23少年画報社328236819059034121509757 400 757 368 3282 21 71217
24ソフトバンククリエイティブ3492952189020362460731 585 1023 295 2189 0 52442
25オークラ出版377326943516350170726 262 726 269 3773 3 71966
26幻冬舎59362267910702271005585683 697 683 622 1070 227 75392
27扶桑社676846769692879337338648 664 648 692 879 337 71935
28ジュネット41490001312220643 71 1501 0 4149 0 3410
29白泉社10251771020929123000626 630 876 929 1230 0 53745
30祥伝社98210779008114451946611 637 611 811 1077 19 73692


まとめ…というか、今回の反省点


  • 平均を使ったのはともかく、最大最小を除いたのは失敗だった。
    ただ、ああいった出版社を除くために他の方法が思いつかないのも事実。
  • せめて、「最大配信数」や「配信ストアでの平均」など参考になる他の値も同じ表に書けば良かったと思う。
  • そういったのも含めて、データはたっぷり出した方が良い。
  • あ、あと、「電子化率」という表現もマズかったと思う。
    「紙電子比」とか「電子書籍比率」とか、もっとわかりやすい表現はいくらでもあったはず。
以上。

0 件のコメント:

コメントを投稿