【R言語】uniteを使った列の結合

unite関数は、データフレームの列を結合するための関数で、複数の列を結合して新しい列を作成することができます。 unite関数は、以下のような構文を持ちます。 unite(data, col, ..., sep = "_", remove = TRUE) data : データフレーム col : 新しい列名 ..…

SQLのcase whenと同じことをpandas.DataFrameに対して行う

pandas.DataFrameに対してSQLのcase whenと同じことをして、新しい列を作る方法がはいくつかあるようなので、まとめておく。 元データ import pandas as pd import numpy as np df=pd.DataFrame({'fruit':['Strawberry','Apple', 'Peach', 'Banana', 'grapes…

【Python】pd.period_range()を使ってyyyy-MM.parquetのファイルを順番に読み込む

下記のようなディレクトリ構成になっているときに、いい感じにファイル名のyyyy-MMを順番に取得して、処理をしたいときはpd.period_range()が便利です。 GA_log ├── 2017-01.parquet ├── 2017-02.parquet ├── 2017-03.parquet ├── 2017-04.parquet ├── 2017-…

【Python】pd.date_range()で指定した範囲の日付を取得

pandas.date_range()とは pandas.date_range()は、pandasライブラリの関数で、datetime型のindexを作成するために使用されます。戻り値はDatetimeIndexオブジェクトであり、生成された日付がインデックスとして格納されます。この関数は、start引数とend引数…

沖縄って東京より暑いの?

こういったtweetなんかもあって、沖縄と東京どっちあが暑いんだ?と思うようになり、実際どうなのか気象庁のデータを使ってみて沖縄と東京のどちらが暑いのかを何となく確認します。 対象データ 期間:2000年から2021年までの8月 元データ:気象庁 Japan Met…

【R】for文でdate型のベクトルを使うときのTIPS

date型のベクトルをfor文で繰り返し処理をするときに工夫が必要だったのでその対応方法をまとめました。 理由はわからないが、date型のベクトルから要素をfor文で取得するとnumeric型で取得してしまうらしいです。対応方法として思いついたのはseq_along()を…

Rでfor文を使って処理した結果を新しいベクトルに追加

Rでfor文を使って処理した結果を新しいベクトルに追加するのに躓いたので書き留めておきます。わかりやすくするためにいろいろ寄り道するように書いてあります。 今回はfor文を使ってvctという変数に対して各要素に2倍した値を新しいベクトルに追加してみた…

スクレイピングでNPBの年間観客動員数を取得する【R】

NPBの年間観客動員数は2013年から増加しているらしい*1。もう少し細かいデータを見てみたいなと思ったのでスクレイピングでNPBの年間観客動員数をRを使って取得して、前処理までしたので記事にしてみました。 今回スクレイピング対象のページはこちらです。 …

matplotlib.tickerで目盛りの数字を3桁カンマ区切りにする

matplotlibでグラフを作成するときに、目盛りの数字を3桁カンマ区切りにする方法をざっと探したけどあまりピンとくるものがなかったので書き留めたいと思います。 個人のブログですので内容に誤りがある場合があります。きちんとした情報が必要なときはきち…

FQ毎のDAUをPostgresで集計

アプリとかゲーム業界とかでよくあるらしいFQの集計方法のサンプルを書きます。 FQについてはこちらの記事がわかりやすいと思います。 連続性は今回は無視したFQになります。 データ作成 DROP TABLE IF EXISTS training.access_log; CREATE SCHEMA IF NOT EX…

『継続して○○した日数』とその最大値をPostgreSQLで求める

下記の「『継続して○○した日数』とその最大値をSQLで求める」というのをローカルのPostgresで試してみたのですがいろいろとうまくいかなかったので、試行錯誤してPostgres版を作成しました。 tech.tvisioninsights.co.jp ちなみにただの感想ですが、これ考え…

良く使うライブラリ【Python】

pandas 強力なPythonデータ分析ツールキット pip install pandas import pandas as pd できることが多すぎるので例は省略します。 pypi.org matplotlib グラフ作成に使う import matplotlib.pyplot as plt import random normalvariate = [random.normalvari…

df.agg()にgroupbyが使えると聞いて

グループごとに個数・平均値・中央値など複数の集計を出したいときにdf.groupby().agg()を使うと便利ですよ。 これは個人のブログなので間違いがあるかもしれませんので、正しい情報が欲しい人は公式ドキュメントを読んでください。 サンプルコード import p…

pythonの決定木のコードサンプル

毎回決定木を試みるときにどうやって書くのかさっぱり忘れていて、いちから探しているので、とりあえず自分のためにメモを書いておこうと思います。 完全にメモですので、間違いなどがあると思います。参考程度にして、ご自身で実装される際はきちんと公式ド…

tweepyを使って日本語のみのtweetを取得

個人的なブログですので、内容に誤りがある場合があります。間違いのない情報が欲しい場合は公式ドキュメントを読んでください。優しい方は間違いを指摘していただけると嬉しいです。 つい先日まで、tweepyでツイートのテキスト情報を取得するときはなぜか日…

一致推定量と不偏推定量

※ 個人的なメモですので、間違いがいあるかもしれません。 推定量とは サンプルから得た統計量をもとに、母集団のパラメータを推定するとき、サンプルの統計量のこと 一致推定量 サンプルサイズが大きくなると、推定量がだんだんと真のパラメータに近づく 不…

pythonのPILを使って3枚の画像を横に並べる

PILを今まで使ったことがなく、備忘録のために記録していきます。 あくまでも自分の備忘録です。 コピペの部分が多くまだ使いかたが良くわからないので、間違いなどあれば教えていただけると嬉しいです。 PILはOpenCVのように複雑な処理(この辺りはよくわか…

tweepyを使ってブロックしている人の一覧を取得

tweepyを使うことで、自分をブロックしているユーザーの一覧が取得できるようです。 コード import tweepy consumer_key = '***' consumer_secret = ' *** ' access_key = ' *** ' access_secret = ' *** ' auth = tweepy.OAuthHandler(consumer_key, consum…

プロ野球の全選手のデモグラ情報をpythonでスクレイピングして取得する

プロ野球選手のデモグラ情報取得するためのpython 書きましたー

20190127

因子分析 ・測定変数の相関行列を求める 相関行列を求める理由は、因子数を決定することを目的としている? 今のところこれは何のために求めて、何に利用されるのかは不明 積率相関係数を使うのではなく、順序尺度として四分位相関係数などを用いると良いら…

20180808

R ・積み上げグラフ データを行列にする必要があるので「matrix」を用いる 下記の場合。18行1列となる(らしい) > PTS = t$PTS> PTS [1] 5078 5072 4942 4857 4766 4754 4753 4683 4644 4522 4495 4494[13] 4418 4416 4370 4328 4276 4253 > dm=matrix(PTS,…

20180806

単語 ・環境変数 https://wa3.i-3-i.info/word11027.html OS)が提供するデータ共有機能の一つ。 Windows7/8/10→アイコン表示→コントロールパネル→システム→システムの詳細設定環境変数 ・変数 https://wa3.i-3-i.info/word11027.html プログラミング言語にお…