MoneyDare/predict.py


								import pandas as pd

								import numpy as np

								import matplotlib.pyplot as plt

								import seaborn as sns

								import warnings

								import os

								import tensorflow as tf

								import FinanceDataReader as fdr

								#from Kiwoom import *


								warnings.filterwarnings('ignore')


								plt.rcParams['font.family'] = 'NanumGothic'


								# 삼성전자(005930) 전체 (1996-11-05 ~ 현재)

								# 데브시스터즈(194480)

								# gs리테일(007070)

								# 쎄미시스코(136510)


								#해당시점 이후의 데이터

								#apple = fdr.DataReader('AAPL', '2017')


								STOCK_CODE = '005930'

								stock = fdr.DataReader(STOCK_CODE)

								stock.head()


								stock.tail()

								stock.index


								stock['Year'] = stock.index.year

								stock['Month'] = stock.index.month

								stock['Day'] = stock.index.day

								stock.head()


								#plt.figure(figsize=(16, 9))

								#sns.lineplot(y=stock['Close'], x=stock.index)

								#plt.xlabel('time')

								#plt.ylabel('price')


								#time_steps = [['1990', '2000'],

								 #             ['2000', '2010'],

								  #            ['2010', '2015'],

								   #           ['2015', '2021']]


								#fig, axes = plt.subplots(2, 2)

								##fig.set_size_inches(16, 9)

								#for i in range(4):

								 #  ax = axes[i//2, i%2]

								  # df = stock.loc[(stock.index > time_steps[i][0]) & (stock.index < time_steps[i][1])]

								   #sns.lineplot(y=df['Close'], x=df.index, ax=ax)

								   #ax.set_title(f'{time_steps[i][0]}~{time_steps[i][1]}')

								   #ax.set_xlabel('time')

								   #ax.set_ylabel('price')

								#plt.tight_layout()

								#plt.show()


								from sklearn.preprocessing import MinMaxScaler


								scaler = MinMaxScaler()

								# 스케일을 적용할 column을 정의합니다.

								scale_cols = ['Open', 'High', 'Low', 'Close', 'Volume']

								# 스케일 후 columns

								scaled = scaler.fit_transform(stock[scale_cols])

								scaled


								df = pd.DataFrame(scaled, columns=scale_cols)


								from sklearn.model_selection import train_test_split


								x_train, x_test, y_train, y_test = train_test_split(df.drop('Close', 1), df['Close'], test_size=0.2, random_state=0, shuffle=False)


								x_train.shape, y_train.shape

								x_test.shape, y_test.shape

								x_train


								#데이터셋구성

								def windowed_dataset(series, window_size, batch_size, shuffle):

								    series = tf.expand_dims(series, axis=-1)

								    ds = tf.data.Dataset.from_tensor_slices(series)

								    ds = ds.window(window_size + 1, shift=1, drop_remainder=True)

								    ds = ds.flat_map(lambda w: w.batch(window_size + 1))

								    if shuffle:

								        ds = ds.shuffle(1000)

								    ds = ds.map(lambda w: (w[:-1], w[-1]))

								    return ds.batch(batch_size).prefetch(1)


								WINDOW_SIZE=20

								BATCH_SIZE=32


								train_data = windowed_dataset(y_train, WINDOW_SIZE, BATCH_SIZE, True)

								test_data = windowed_dataset(y_test, WINDOW_SIZE, BATCH_SIZE, False)


								# 아래의 코드로 데이터셋의 구성을 확인해 볼 수 있습니다.

								 #X: (batch_size, window_size, feature)

								 #Y: (batch_size, feature)

								for data in train_data.take(1):

								    print(f'데이터셋(X) 구성(batch_size, window_size, feature갯수): {data[0].shape}')

								    print(f'데이터셋(Y) 구성(batch_size, window_size, feature갯수): {data[1].shape}')


								  #모델

								from tensorflow.keras.models import Sequential

								from tensorflow.keras.layers import Dense, LSTM, Conv1D, Lambda

								from tensorflow.keras.losses import Huber

								from tensorflow.keras.optimizers import Adam

								from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint


								model = Sequential([

								    # 1차원 feature map 생성

								    Conv1D(filters=32, kernel_size=5,

								           padding="causal",

								           activation="relu",

								           input_shape=[WINDOW_SIZE, 1]),

								    # LSTM

								    LSTM(16, activation='tanh'),

								    Dense(16, activation="relu"),

								    Dense(1),

								])


								# Sequence 학습에 비교적 좋은 퍼포먼스를 내는 Huber()를 사용합니다.

								loss = Huber()

								optimizer = Adam(0.0005)

								model.compile(loss=Huber(), optimizer=optimizer, metrics=['mse'])


								# earlystopping은 10번 epoch통안 val_loss 개선이 없다면 학습을 멈춥니다.

								earlystopping = EarlyStopping(monitor='val_loss', patience=10)

								# val_loss 기준 체크포인터도 생성합니다.

								filename = os.path.join('tmp', 'ckeckpointer.ckpt')

								checkpoint = ModelCheckpoint(filename,

								                             save_weights_only=True,

								                             save_best_only=True,

								                             monitor='val_loss',

								                             verbose=1)


								history = model.fit(train_data,

								                    validation_data=(test_data),

								                    epochs=50,

								                    callbacks=[checkpoint, earlystopping])


								model.load_weights(filename)

								pred = model.predict(test_data)

								pred.shape


								plt.figure(figsize=(12, 9))

								plt.plot(np.asarray(y_test)[20:], label='actual')

								plt.plot(pred, label='prediction')

								plt.grid()

								plt.legend(loc='best')

								#plt.tight_layout()

								plt.show()