2.1. Wczytywanie przykładowego zbioru danych

# Wczytanie zbiorów danych biblioteki scikit-learn.
from sklearn import datasets

# Wczytanie zbioru danych w postaci cyfr.
digits = datasets.load_digits()

# Utworzenie macierzy cech.
features = digits.data

# Utworzenie wektora docelowego.
target = digits.target

# Wyświetlenie pierwszej obserwacji.
features[0]

array([  0.,   0.,   5.,  13.,   9.,   1.,   0.,   0.,   0.,   0.,  13.,
        15.,  10.,  15.,   5.,   0.,   0.,   3.,  15.,   2.,   0.,  11.,
         8.,   0.,   0.,   4.,  12.,   0.,   0.,   8.,   8.,   0.,   0.,
         5.,   8.,   0.,   0.,   9.,   8.,   0.,   0.,   4.,  11.,   0.,
         1.,  12.,   7.,   0.,   0.,   2.,  14.,   5.,  10.,  12.,   0.,
         0.,   0.,   0.,   6.,  13.,  10.,   0.,   0.,   0.])





# Wczytanie zbiorów danych biblioteki scikit-learn.
from sklearn import datasets

# Wczytanie zbioru danych w postaci cyfr.
digits = datasets.load_digits()

# Wyświetlenie atrybutu.
print(digits.DESCR)

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**
    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998
...





2.2. Tworzenie symulowanego zbioru danych

# Wczytanie biblioteki.
from sklearn.datasets import make_regression

# Wygenerowanie macierzy cech, wektora docelowego i prawdziwych współczynników.
features, target, coefficients = make_regression(n_samples = 100,
                                                 n_features = 3,
                                                 n_informative = 3,
                                                 n_targets = 1,
                                                 noise = 0.0,
                                                 coef = True,
                                                 random_state = 1)

# Wyświetlenie macierzy cech i wektora docelowego.
print('Macierz cech\n', features[:3])
print('Wektor docelowy\n', target[:3])

Macierz cech
 [[ 1.29322588 -0.61736206 -0.11044703]
 [-2.793085    0.36633201  1.93752881]
 [ 0.80186103 -0.18656977  0.0465673 ]]
Wektor docelowy
 [-10.37865986  25.5124503   19.67705609]





# Wczytanie biblioteki.
from sklearn.datasets import make_classification

# Wygenerowanie macierzy cech i wektora docelowego.
features, target = make_classification(n_samples = 100,
                                       n_features = 3,
                                       n_informative = 3,
                                       n_redundant = 0,
                                       n_classes = 2,
                                       weights = [.25, .75],
                                       random_state = 1)

# Wyświetlenie macierzy cech i wektora docelowego.
print('Macierz cech\n', features[:3])
print('Wektor docelowy\n', target[:3])

Macierz cech
 [[ 1.06354768 -1.42632219  1.02163151]
 [ 0.23156977  1.49535261  0.33251578]
[ 0.15972951  0.83533515 -0.40869554]]
Wektor docelowy
 [1 0 0]





# Wczytanie biblioteki.
from sklearn.datasets import make_blobs

# Wygenerowanie macierzy cech i wektora docelowego.
features, target = make_blobs(n_samples = 100,
                              n_features = 2,
                              centers = 3,
                              cluster_std = 0.5,
                              shuffle = True,
                              random_state = 1)

# Wyświetlenie macierzy cech i wektora docelowego.
print('Macierz cech\n', features[:3])
print('Wektor docelowy\n', target[:3])

Macierz cech
 [[ -1.22685609   3.25572052]
 [ -9.57463218  -4.38310652]
 [-10.71976941  -4.20558148]]
Wektor docelowy
 [0 1 1]





# Wczytanie biblioteki.
import matplotlib.pyplot as plt

# Wyświetlenie wykresu.
plt.scatter(features[:,0], features[:,1], c=target)
plt.show()





2.3. Wczytywanie pliku CSV

# Wczytanie biblioteki.
import pandas as pd

# Utworzenie adresu URL.
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.csv'

# Wczytanie zbioru danych.
dataframe = pd.read_csv(url)

# Wyświetlenie dwóch pierwszych wierszy wczytanych danych.
dataframe.head(2)





2.4. Wczytywanie pliku Excela

# Wczytanie biblioteki.
import pandas as pd

# Utworzenie adresu URL.
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.xlsx'

# Wczytanie danych.
dataframe = pd.read_excel(url, sheet_name=0, header=0)

# Wyświetlenie dwóch pierwszych wierszy wczytanych danych.
dataframe.head(2)





2.5. Wczytywanie pliku JSON

# Wczytanie biblioteki.
import pandas as pd

# Utworzenie adresu URL.
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.json'

# Wczytanie danych.
dataframe = pd.read_json(url, orient='columns')

# Wyświetlenie dwóch pierwszych wierszy wczytanych danych.
dataframe.head(2)





2.6. Wczytywanie pliku Parquet

# Wczytanie biblioteki.
import pandas as pd

# Utworzenie adresu URL.
url = 'https://machine-learning-python-cookbook.s3.amazonaws.com/data.parquet'

# Wczytanie danych.
dataframe = pd.read_parquet(url)

# Wyświetlenie dwóch pierwszych wierszy wczytanych danych.
dataframe.head(2)





2.7. Wczytywanie pliku Avro

# Wczytanie bibliotek.
import requests
import pandavro as pdx

# Utworzenie adresu URL.
url = 'https://machine-learning-python-cookbook.s3.amazonaws.com/data.avro'

# Pobranie pliku.
r = requests.get(url)
open('data.avro', 'wb').write(r.content)

# Wczytanie danych.
dataframe = pdx.read_avro('data.avro')

# Wyświetlenie dwóch pierwszych wierszy wczytanych danych.
dataframe.head(2)





2.8. Wykonywanie zapytań do bazy danych SQLite

# Wczytanie bibliotek.
import pandas as pd
from sqlalchemy import create_engine

# Nawiązanie połączenia z bazą danych.
database_connection = create_engine('sqlite:///sample.db')

# Wczytanie danych.
dataframe = pd.read_sql_query('SELECT * FROM data', database_connection)

# Wyświetlenie dwóch pierwszych rekordów z wczytanych danych.
dataframe.head(2)





2.9. Wykonywanie zapytań do zdalnej bazy danych SQL

# Wczytanie bibliotek.
import pymysql
import pandas as pd

# Nawiązanie połączenia z bazą danych.
# Wykorzystanie następującego przykładu do uruchomienia egzemplarza bazy danych:
# https://github.com/kylegallatin/mysql-db-example
conn = pymysql.connect(
    host='localhost',
    user='root',
    password = "",
    db='db',
)

# Umieszczenie w obiekcie DataFrame danych zwróconych przez zapytanie SQL.
dataframe = pd.read_sql("select * from data", conn)

# Wyświetlenie dwóch pierwszych wierszy wczytanych danych.
dataframe.head(2)





2.10. Wczytywanie danych z Google Sheets

# Wczytanie biblioteki.
import pandas as pd

# Utworzenie adresu URL pozwalającego na pobranie dokumentu Google Sheets jako pliku w formacie CSV.
url = "https://docs.google.com/spreadsheets/d/"\
          "1ehC-9otcAuitqnmWksqt1mOrTRCL38dv0K9UjhwzTOA/export?format=csv"

# Wczytanie danych CSV do obiektu DataFrame.
dataframe = pd.read_csv(url)

# Wyświetlenie dwóch pierwszych wierszy wczytanych danych.
dataframe.head(2)





2.11. Wczytywanie danych z kubełka S3

# Wczytanie biblioteki.
import pandas as pd

# Ścieżka dostępu S3 prowadząca do pliku w formacie CSV.
s3_uri = "s3://machine-learning-python-cookbook/data.csv"

# Podanie danych uwierzytelniających AWS credentials (wartości xxx… zastąp własnymi).
ACCESS_KEY_ID = "xxxxxxxxxxxxx"
SECRET_ACCESS_KEY = "xxxxxxxxxxxxxxxx"

# Wczytanie danych CSV do obiektu DataFrame.
dataframe = pd.read_csv(s3_uri,storage_options={
        "key": ACCESS_KEY_ID,
        "secret": SECRET_ACCESS_KEY,
    }
)

# Wyświetlenie dwóch pierwszych wierszy wczytanych danych.
dataframe.head(2)





2.12. Wczytywanie danych nieposiadających struktury

# Wczytanie biblioteki.
import requests

# Utworzenie adresu URL, z którego będzie pobrany plik tekstowy.
txt_url = "https://machine-learning-python-cookbook.s3.amazonaws.com/text.txt"

# Pobranie pliku tekstowego.
r = requests.get(txt_url)

# Lokalne zapisanie pliku tekstowego.
with open('text.txt', 'wb') as f:
    f.write(r.content)

# Odczytanie zawartości pliku.
with open('text.txt', 'r') as f:
        text = f.read()

# Wyświetlenie zawartości pliku.
print(text)

Hello there!
