나에게는 오래전부터 간직해 온 의문이 하나 있었다.

로또 당첨 번호 데이터를 오랫동안의 기간으로 분석을 하면 무엇인가 상관 또는 인과 혹은 다른 무언가라도 관계를 밝힐 수 있는 무언가가 있지 않을까 하는 것이었다.

물론 대학교과정까지 정상적으로 이수했다면, 로또 당첨 번호는 완벽하게 랜덤이라는 점은 따로 증명하지 않아도 사실로 이해할 수 있다.

그러므로 나 역시 그 점을 머리로 알고 있다.

매 회차가 완벽한 랜덤이고, 독립시행이므로, 앞회차가 다음 회차의 추첨에 영향을 주지도 않는다.

 

하지만 누구나 그런게 하나 쯤은 있지 않던가? 머리로는 알지만, 그것을 직접 데이터로 확인하고자 하는 마음, 그리고 데이터를 분석하다보면 혹시 누군가가 발견하지 못한 무엇인가를 발견할 수 있지 않을까 하는 마음.

 

나에게는 로또가 그런 아이템이었다. 하지만 그 데이터를 가지고, 다양한 통계기법을 적용해 보면서 분석/확인하기에는 나는 이론도, 스킬도 부족했고, 그런 부족한 부분들까지 공부하면서 채워가기에는, 다른 더 우선순위 높은 일들에 밀려 버렸고, 그렇게 차일피일 10년이 지나갔다.

 

그러다 ChatGPT의 세상이 왔다. 말만하면 다 해준다고 하니, 이렇게 기쁠 수가!

아주 적은 노력으로 지난 10년간 가져온 의문과 소망을 해결할 수 있는 시대가 되었는데, 이 정도면 시도해봐야만 한다.

그래서 시도해봤다.

 

시도한 과정을 단계별로 보면 아래와 같다

1단계 : 당첨 번호 DB 제작

2단계 : GPT에서 이 DB를 기본 Knowledge로 갖는 GPTs 빌드

3단계 : 빌드된 GPTs와 함께 로또 당첨 번호 물고 뜯고 맛보기

 

1단계 : 당첨 번호 DB 제작

 

먼저, 지난 약 1100회의 로또 추첨 역사를 Excel 데이터로 만들었다. 로또 공홈에 가면, 과거 추첨 DB를 Excel 파일로 제공해 준다. 물론 그 파일을 그대로 쓰기에는 형식과 구성이 탐탁치 않기에, ChatGPT가 이해하기 쉽도록 살짝 가공해서, 아래와 같은 형식으로 만들었다.

 

작성한 Excel 파일의 캡쳐

사실, 데이터 처리를 위해서는 셀병합도 좀 없애고, 나열하기 좋게 변경할 필요가 있다고 생각되었지만, 이 정도만 해도, GPT가 잘 알아서 해주지 않을까 하는 생각에 일단 여기까지만 했다. 원하는데로 동작하지 않으면 나중에 좀 더 만져보면 되지 않을까 하는 생각도 있었다.

 

2단계 : 당첨 번호 DB를 Knowledge로 갖는 GPTs 생성하기

 

일단 GPTs Builder로 간다. 적당히 내가 궁금한 것들을 몇자 적어 Instruction에 넣고, 제작한 DB 파일을 업로드해주었다. 이름은 "로또봇"이라고 지어주었다. 지금와서 생각해보니 "LLM645 (Large Lottery Model 645)"이라고 지을걸 그랬다. 딸둘 아빠에게 로"또봇"은 호감가는 이름이 아니다.

 

3단계 : 로또봇과 함께 로또 당첨 데이터 물고 뜯고 맛보기

 

일단, 기본 셋팅은 끝났다. "일해라 휴먼.. 아니 GPT!"

 

일단 만들었으면, 당연히 이번 주 당첨 예상 번호부터 뽑아봐야지.

당신
이번주 로또번호 알려줘
 
 
로또봇
 
로또 당첨 번호 데이터를 확인했어요. 데이터에는 회차별로 연도, 추첨일, 당첨 번호(1부터 6까지), 그리고 보너스 번호가 포함되어 있네요. 이제 이 데이터를 기반으로 회귀분석을 진행해서 이번 주 로또 번호를 예측해보겠습니다.
데이터 처리 과정에서 예측 모델을 생성하기 위해선 다음 단계를 거칠 예정이에요:
  1. 데이터 전처리: 필요한 컬럼을 정리하고, 데이터 타입을 적절히 조정합니다.
  2. 회귀분석 모델 생성: 과거 당첨 번호를 기반으로 회귀 모델을 만들어 봅니다.
  3. 번호 예측: 생성된 모델을 사용하여 이번 주 예상 당첨 번호를 예측합니다.
진행하기 전에, 데이터를 정확하게 처리하기 위해 컬럼 이름을 재설정하고 필요한 부분만 추출할게요. [1] ​
 
데이터를 정리했습니다. 첫 번째 행(이제는 제거된)에 'NaN'과 '보너스'라는 값이 포함되어 있었는데, 이는 필요없는 데이터였기 때문에 제거하고 컬럼 이름을 재설정했어요. 이제 '회차', '추첨일', '번호1'부터 '번호6'까지의 당첨 번호, 그리고 '보너스' 번호를 포함한 정제된 데이터를 가지고 있습니다.
하지만, 로또 번호 예측에 회귀분석을 직접 적용하기는 적절하지 않을 수 있습니다. 로또 번호는 무작위로 추출되며, 각 번호가 나올 확률은 독립적이고 균등합니다. 이는 과거 데이터로부터 미래의 로또 번호를 예측하는 통계적 모델링에는 적합하지 않다는 것을 의미해요. 그러나 여기서는 데이터를 활용해 재미 삼아 간단한 예측을 시도해볼 수는 있지만, 이는 실제 로또 번호를 예측할 수 있는 신뢰할 수 있는 방법이 아니라는 점을 이해해 주세요.
대신, 과거 데이터로부터 빈도수를 기반으로 무작위 번호를 생성하는 방식을 사용해볼까 합니다. 이 방식은 과거 당첨 번호의 출현 빈도를 분석하여, 가장 자주 나왔던 번호를 기반으로 이번 주 로또 번호를 예측하는 방법이에요. 이렇게 하면 데이터 분석의 재미를 유지하면서도 어느 정도 현실적인 접근을 할 수 있습니다.
이 방법으로 번호를 생성하기 전에, 각 번호가 몇 번 나왔는지 빈도수를 살펴보겠습니다. [2]​
 
각 번호가 과거에 얼마나 자주 나왔는지 빈도수를 확인했습니다. 예를 들어, '1' 번은 155회, '34' 번은 가장 많은 168회 출현했습니다. 반면, '9' 번은 가장 적은 116회 출현했어요.
이 빈도수를 기반으로 각 번호의 출현 확률을 계산하고, 이 확률에 따라 번호를 무작위로 선택하여 5세트의 로또 번호를 생성할 것입니다. 이 방식은 과거 데이터를 기반으로 하지만, 로또 번호의 무작위성을 유지하는 데 도움을 줄 거예요.
각 번호가 선택될 확률을 계산하고, 이 확률에 따라 5세트의 번호를 생성해보겠습니다. [3]
 
이번 주 로또 번호 예측 결과, 5세트의 번호를 생성했어요. 여기 있습니다:
  1. 21, 28, 33, 36, 37, 40
  2. 13, 24, 27, 31, 33, 34
  3. 6, 7, 22, 36, 39, 43
  4. 10, 17, 26, 31, 38, 43
  5. 2, 3, 7, 17, 22, 37
이 번호들은 과거 데이터에 기반한 확률을 사용해서 무작위로 선택된 번호들이에요. 로또 번호의 무작위성을 완전히 반영할 수는 없지만, 과거 출현 빈도를 고려한 재미있는 시도예요. 로또를 즐길 때는 항상 책임감을 가지고 참여해 주세요. 행운을 빕니다! ​[4]

 

위와 같은 과정으로 로또봇은 당첨 번호를 예측해주었다. 일단 기대 이상으로 잘해준다. 가장 많이 당첨에 출현한 번호와 가작 적게 출현한 번호를 확인하였으며, 이에 따라 각 번호의 확률에 기반하여, 당첨 예상 번호를 추출해주었다. 놀랍다!

각 과정에서 정상적으로 수행했는지 코드를 확인해보았다.

# [1]코드

import pandas as pd

# Load the Lotto winning numbers data
df = pd.read_excel('/mnt/data/로또당첨번호.xlsx')

df.head()
결과
  회차별 로또 당첨번호 Unnamed: 1           Unnamed: 2 Unnamed: 3  Unnamed: 4  \
0          연도         회차                  추첨일      당첨 번호         NaN   
1         NaN        NaN                  NaN          1         2.0   
2        2024       1108  2024-02-24 00:00:00          7        19.0   
3         NaN       1107  2024-02-17 00:00:00          6        14.0   
4         NaN       1106  2024-02-10 00:00:00          1         3.0   

   Unnamed: 5  Unnamed: 6  Unnamed: 7  Unnamed: 8 Unnamed: 9  
0         NaN         NaN         NaN         NaN        NaN  
1         3.0         4.0         5.0         6.0        보너스  
2        26.0        37.0        39.0        44.0         27  
3        30.0        31.0        40.0        41.0         29  
4         4.0        29.0        42.0        45.0

역시 Excel Data를 좀 더 만질 걸 그랬다. 추출을 못한 건 아니지만, NaN이 많은 것을 보니 거슬린다.

 

# [2]코드
# 데이터의 첫 번째 행을 컬럼 이름으로 설정하고, 필요없는 행과 컬럼을 제거
df.columns = df.iloc[0] # 첫 번째 행을 컬럼 이름으로 설정
df = df.drop(0) # 첫 번째 행(이제 컬럼 이름이 되었음) 제거
df = df.reset_index(drop=True) # 인덱스 리셋

# 컬럼 이름 재설정
df.columns = ['연도', '회차', '추첨일', '번호1', '번호2', '번호3', '번호4', '번호5', '번호6', '보너스']

# 필요한 컬럼만 남기고 '연도' 컬럼 삭제 (이번 분석에는 필요 없음)
df = df.drop('연도', axis=1)

# 데이터 확인
df.head()
결과
     회차                  추첨일 번호1   번호2   번호3   번호4   번호5   번호6  보너스
0   NaN                  NaN   1   2.0   3.0   4.0   5.0   6.0  보너스
1  1108  2024-02-24 00:00:00   7  19.0  26.0  37.0  39.0  44.0   27
2  1107  2024-02-17 00:00:00   6  14.0  30.0  31.0  40.0  41.0   29
3  1106  2024-02-10 00:00:00   1   3.0   4.0  29.0  42.0  45.0   36
4  1105  2024-02-03 00:00:00   6  16.0  34.0  37.0  39.0  40.0   11

헐, 우리 로또봇이 찰떡같이 알아서 Data를 잘 가공했다. 훌륭하다!

 

# [3]코드
# 당첨 번호들의 빈도수 계산
# 모든 번호 컬럼을 하나의 Series로 합치고, 각 번호의 출현 빈도를 계산
all_numbers = pd.concat([df['번호1'], df['번호2'], df['번호3'], df['번호4'], df['번호5'], df['번호6']]).astype(float)
frequency = all_numbers.value_counts().sort_index()

# 빈도수 출력
frequency
결과
1.0     155
2.0     143
3.0     150
4.0     149
5.0     141
6.0     147
7.0     150
8.0     141
9.0     116
10.0    147
11.0    149
12.0    161
13.0    156
14.0    160
15.0    146
16.0    146
17.0    156
18.0    165
19.0    148
20.0    153
21.0    150
22.0    133
23.0    135
24.0    148
25.0    137
26.0    150
27.0    158
28.0    135
29.0    140
30.0    138
31.0    149
32.0    129
33.0    154
34.0    168
35.0    146
36.0    148
37.0    154
38.0    149
39.0    153
40.0    158
41.0    136
42.0    143
43.0    156
44.0    148
45.0    160
dtype: int64

각 번호별 당첨 횟수까지 잘 뽑아내었다. 정말 훌륭한데?

 

# [4]코드
import numpy as np

# 번호의 출현 확률 계산
probabilities = frequency / frequency.sum()

# 5세트의 로또 번호 생성
predicted_sets = []
for _ in range(5):
    predicted_set = np.random.choice(probabilities.index, size=6, replace=False, p=probabilities.values)
    predicted_sets.append(np.sort(predicted_set))

predicted_sets
결과
[array([21., 28., 33., 36., 37., 40.]),
 array([13., 24., 27., 31., 33., 34.]),
 array([ 6.,  7., 22., 36., 39., 43.]),
 array([10., 17., 26., 31., 38., 43.]),
 array([ 2.,  3.,  7., 17., 22., 37.])]

대박! 각 숫자의 확률을 Seed로 넣어서 Random Number를 5세트 뽑아주었다. 로또봇! 너 일 잘하는 구나! 

 

근데, 내가 이런 예상 당첨 번호 뽑아보자고, 이걸 한게 아니잖아? 지금부터 슛들어갑니다.

당신
추첨 날짜와 추첨 번호 간에 상관관계가 있는지 분석해보고 결과를 그래프로 보여줘
 
지금 번역하기
 
로또봇
추첨 날짜와 추첨 번호 간의 상관관계를 분석하기 위해선, 날짜를 숫자형 데이터로 변환해야 합니다. 이 과정에서 '추첨일' 컬럼을 datetime 형태로 변환한 후, 이를 기준으로 각 날짜를 연속적인 숫자로 표현할 것입니다. 이렇게 하면 날짜와 각 번호 간의 상관관계를 계산할 수 있습니다.
분석을 위해 다음 단계를 진행할게요:
  1. '추첨일' 컬럼을 datetime 형식으로 변환합니다.
  2. 각 날짜를 연속적인 숫자(예: 연도와 일자를 조합한 숫자)로 표현합니다.
  3. 각 번호(번호1~번호6)와 변환된 날짜 간의 상관관계를 계산합니다.
  4. 계산된 상관관계를 바탕으로 그래프를 생성하여 결과를 시각화합니다.
먼저, '추첨일' 컬럼을 datetime 형식으로 변환하고, 각 날짜를 연속적인 숫자로 표현해 보겠습니다.
 
코드 해석 중 오류 발생
분석 과정에서 예상치 못한 내부 오류가 발생했습니다. 다만, 이 과정의 목적과 방법론에 대해서는 설명할 수 있어요.
일반적으로, 추첨 날짜와 추첨 번호 간의 상관관계를 분석하는 것은 로또 번호가 순전히 무작위로 선택되기 때문에 통계적으로 의미 있는 상관관계를 찾기 어렵습니다. 로또 번호 선택 과정은 과거의 날짜나 다른 외부 요인에 영향을 받지 않고 설계되어 있기 때문입니다.
상관관계 분석은 두 변수 간의 선형적 관계의 강도와 방향을 측정합니다. 상관계수는 -1에서 1 사이의 값을 가지며, 0에 가까울수록 두 변수 간에 선형적 관계가 없음을, 1 혹은 -1에 가까울수록 강한 선형적 관계가 있음을 의미합니다. 그러나, 이러한 분석은 변수 간에 인과관계를 나타내지 않습니다.
오류로 인해 직접적인 상관관계 계산 및 그래프 시각화를 제공할 수 없지만, 로또 번호와 같은 무작위 데이터의 경우 일반적으로 추첨 날짜와 같은 시간 변수와의 상관관계는 매우 낮거나 전혀 없을 것으로 예상됩니다. 이는 로또 번호 추첨 과정이 완전히 무작위이기 때문에, 어떤 시간적 요소와도 독립적이어야 하기 때문입니다. ​​
 
지금 번역하기
 
 
당신
이거 중요한 거니까 다시 한번 해봐. 팁 2만달러줄께
 
지금 번역하기
 
로또봇
 
코드 해석 중 오류 발생
 
분석을 다시 진행한 결과, 추첨 날짜와 각 번호 간의 상관관계는 다음과 같습니다:
  • 번호1과의 상관관계: 0.0311
  • 번호2와의 상관관계: 0.0227
  • 번호3과의 상관관계: 0.0028
  • 번호4와의 상관관계: 0.0091
  • 번호5와의 상관관계: 0.0266
  • 번호6과의 상관관계: 0.0404
상관관계 값이 -1에서 1 사이에 위치하는데, 여기서 모든 값이 0에 가까우므로 추첨 날짜와 로또 번호 간에는 거의 또는 전혀 상관관계가 없음을 알 수 있습니다. 이는 로또 번호 추첨이 무작위 과정임을 반영하며, 시간의 흐름에 따라 추첨 번호가 변화하는 경향이 없음을 나타냅니다.
이제 이 결과를 그래프로 시각화해 보겠습니다. 각 번호와 날짜_숫자 간의 상관관계를 바 차트로 표현해보겠습니다. ​
6개의 당첨번호와 추첨날짜간의 상관계수 (편차가 제법 있어보이지만, 모두 한없이 0에 가까운 값이므로, 상관없다는 이야기를 있어보이게 그래프로 만들어주었다. 한글이 깨져 아쉽지만 폰트문제이고, 어렵지 않은 그래프라 그냥 둔다)


상관관계 분석 결과를 바탕으로 한 그래프를 생성했습니다. 이 그래프는 추첨 날짜와 로또 번호 간의 상관관계 값을 시각적으로 보여줍니다. 상관관계 값이 모두 0에 가까운 것을 볼 수 있는데, 이는 추첨 날짜와 로또 번호 사이에 통계적으로 유의미한 선형 관계가 없음을 나타냅니다. 각 번호의 상관관계 값이 매우 낮아, 시간이 지남에 따라 번호의 추첨 패턴이 변한다고 볼 수 있는 증거가 없음을 시사합니다.
이 분석은 로또 번호가 무작위로 선택되며, 과거의 어떤 패턴이나 시간적 요소에 의해 영향을 받지 않는다는 로또의 기본 원칙을 반영합니다. 따라서, 로또 번호 선택 시 과거 데이터를 분석하는 것보다는 운이나 개인적인 선호에 의존하는 것이 더 적합할 수 있습니다. ​

 

오, 그렇구만. 추첨날짜는 관계가 없다고 한다. 제대로 한게 맞는지 코드도 보자. (역시 사람이나 인공지능이나 팁을 주면 일을 더 잘한다. ㅡ.ㅡ;;)

# 필요한 라이브러리 재로딩
import pandas as pd
import numpy as np

# 데이터 파일 다시 로드
df = pd.read_excel('/mnt/data/로또당첨번호.xlsx')

# 데이터 전처리
df.columns = df.iloc[0] # 첫 번째 행을 컬럼 이름으로 설정
df = df.drop(0).reset_index(drop=True) # 첫 번째 행 제거 및 인덱스 리셋
df.columns = ['연도', '회차', '추첨일', '번호1', '번호2', '번호3', '번호4', '번호5', '번호6', '보너스']
df = df.drop('연도', axis=1) # '연도' 컬럼 삭제
df['추첨일'] = pd.to_datetime(df['추첨일'], errors='coerce') # '추첨일'을 datetime 형식으로 변환
df['날짜_숫자'] = df['추첨일'].dt.year * 10000 + df['추첨일'].dt.month * 100 + df['추첨일'].dt.day # 날짜를 연속적인 숫자로 변환
df[['번호1', '번호2', '번호3', '번호4', '번호5', '번호6']] = df[['번호1', '번호2', '번호3', '번호4', '번호5', '번호6']].astype(float) # 번호 컬럼들을 숫자형으로 변환

# '날짜_숫자'와 번호들 간의 상관관계 계산
correlation = df[['날짜_숫자', '번호1', '번호2', '번호3', '번호4', '번호5', '번호6']].corr()

# '날짜_숫자'와 각 번호 간의 상관관계 출력
correlation['날짜_숫자']
결과
날짜_숫자    1.000000
번호1      0.031145
번호2      0.022726
번호3      0.002780
번호4      0.009056
번호5      0.026598
번호6      0.040431
Name: 날짜_숫자, dtype: float64

 

정말 일 제대로 한 것 맞다. 인정!

 

자 다른 것도 해보자. 추첨 연도와 당첨 번호간의 상관계수는 어떨까?

당신
추첨 연도와 당첨 번호의 빈도 간에 상관관계가 있는지 분석해줘
 
지금 번역하기
 
로또봇
추첨 연도와 당첨 번호의 빈도 간 상관관계를 분석하기 위해, 우선 각 연도별로 당첨 번호가 몇 번 출현했는지를 파악해야 합니다. 이후 각 연도별로 당첨 번호의 출현 빈도를 계산하고, 이를 연도와 비교하여 상관관계를 분석할 수 있습니다.
  1. 각 연도별로 당첨 번호(번호1~번호6)의 출현 빈도를 계산합니다.
  2. 연도별 출현 빈도의 합계를 구합니다.
  3. 연도와 출현 빈도의 합계 간 상관관계를 계산합니다.
먼저, 각 연도별로 당첨 번호의 출현 빈도를 계산해보겠습니다.
 
코드 해석 중 오류 발생
분석 과정에서 접근 방식에 오류가 있었습니다. corrwith 메소드는 DataFrame에 대해 사용되어야 하는데, 여기서는 Series 객체에 잘못 적용되었습니다. 또한, 연도별로 각 번호의 출현 빈도를 합산하는 방식을 재검토해야 합니다.
올바른 접근 방식으로 수정하여, 각 연도별 당첨 번호의 출현 빈도를 정확하게 계산하고, 이를 바탕으로 연도와 당첨 번호의 출현 빈도 간 상관관계를 분석해보겠습니다. 이를 위해 다음 단계를 따릅니다:
  1. 각 연도별로 당첨 번호(번호1~번호6)의 출현 빈도를 계산합니다.
  2. 이 데이터를 기반으로 연도별 당첨 번호 출현 빈도의 총합을 구합니다.
  3. 연도와 출현 빈도 총합 간의 상관관계를 직접 계산합니다.
먼저, 각 연도별로 당첨 번호의 출현 빈도를 다시 계산하겠습니다. ​​
 
코드 해석 중 오류 발생
분석 과정에서 또 다른 오류가 발생했습니다. 연도와 당첨 번호의 출현 빈도 간 상관관계 분석을 진행하는 과정에서, 상관관계를 계산하는 방식에 문제가 있었습니다. 상관관계는 두 변수 간의 선형 관계의 강도를 측정하는 것으로, 여기서는 연도와 각 연도별 당첨 번호 출현 빈도의 합계 간의 관계를 측정하려고 했습니다.
올바른 접근 방법으로 수정하기 위해, 각 연도별로 당첨 번호의 출현 빈도를 다루는 대신, 연도별 당첨 번호의 출현 빈도를 적절히 계산하고 이를 연도와 비교하여 상관관계를 계산해야 합니다. 이를 위해 다음 단계를 진행합니다:
  1. 각 연도별로 당첨 번호의 출현 빈도를 집계합니다.
  2. 이 데이터를 사용하여 연도별로 당첨 번호의 출현 빈도의 합계 또는 평균을 구합니다.
  3. 그 후, 이 합계 또는 평균과 연도 간의 상관관계를 계산합니다.
상관관계 계산 방법을 재검토하고, 연도별 당첨 번호 출현 빈도를 다루는 올바른 방법으로 접근하겠습니다. 우선, 각 연도별 당첨 번호의 출현 빈도 합계를 올바르게 계산하고, 이를 연도와 비교하여 상관관계를 다시 계산해보겠습니다. ​​
 
코드 해석 중 오류 발생
분석 과정에서 또 다른 문제가 발생했습니다. '추첨일' 컬럼이 datetime 형식으로 변환되지 않았기 때문에, .dt 접근자를 사용할 수 없는 상황입니다. 이전 단계에서 데이터를 재로드하면서 '추첨일' 컬럼을 다시 datetime 형식으로 변환하는 과정을 건너뛴 것 같습니다.
이 문제를 해결하기 위해, '추첨일' 컬럼을 다시 datetime 형식으로 변환하고, 연도별 당첨 번호 출현 빈도의 계산을 다시 시도하겠습니다. 이번에는 '추첨일' 컬럼의 datetime 변환 확인과 함께, 연도를 추출하여 연도별 당첨 번호의 출현 빈도를 올바르게 계산하고, 그 결과를 바탕으로 상관관계를 분석하겠습니다. ​​
 
분석 결과, 추첨 연도와 당첨 번호의 빈도 간 상관관계 계수는 0.0231입니다. 이 값은 -1과 1 사이에 있으며, 0에 매우 가깝습니다. 이는 추첨 연도와 당첨 번호의 빈도 간에 거의 또는 전혀 상관관계가 없음을 나타냅니다.
상관관계 계수가 0에 가깝다는 것은 두 변수 사이에 선형적인 관계가 거의 또는 전혀 관찰되지 않는다는 것을 의미합니다. 즉, 연도가 변함에 따라 로또 당첨 번호의 출현 빈도에 일관된 경향성이나 패턴이 없다는 것을 시사합니다. 로또 번호의 추첨이 무작위 과정에 기반하고 있음을 고려할 때, 이러한 결과는 예상되는 바입니다. ​

 

스스로 오류를 겪기는 했지만, 정확하게 당첨 번호의 빈도와 연도 간의 상관계수는 0.0231로, 역시 0에 매우 가까운 수이고, 아무 상관없다는 것을, 내가 시킨대로 굳이 계산을 해서 있어보이게 설명을 해주었다.  

 

자 이번엔 그럼 연도별 최빈 숫자를 보자.

당신
연도별로 당첨 빈도가 가장 높은 번호 6개를 뽑아서 표로 만들어줘. 표를 꼭 만들어줘
지금 번역하기
 
3 / 3
 
 
로또봇
 
코드 해석 중 오류 발생
 
코드 해석 중 오류 발생
분석 과정에서 예상치 못한 오류가 발생했습니다. 특정 연도별로 당첨 빈도가 가장 높은 번호 6개를 선택하고 이를 표로 만드는 과정에서, 컬럼 이름을 재설정하는 부분에서 문제가 발생했습니다. 이 문제를 해결하기 위해, 다른 접근 방식으로 결과를 재구성하고 표를 생성해보겠습니다.
연도별로 당첨 빈도가 가장 높은 번호 6개를 뽑는 과정을 다시 검토하고, 이를 표 형식으로 정리해보겠습니다. ​​

연도별로 당첨 빈도가 가장 높은 번호 6개를 선택하여 표로 정리한 결과입니다. 각 연도별로 순위에 따라 가장 자주 출현한 번호를 나열했습니다.

(표는 일부 연도의 데이터만 예시로 보여줍니다.)

이 표는 각 연도에 가장 자주 당첨된 로또 번호를 보여줍니다. 각 연도별로 당첨 번호의 빈도를 기반으로 상위 6개 번호를 선정했으며, 이는 해당 연도의 로또 번호 추첨 경향을 반영합니다. 이 데이터는 과거의 로또 번호 추첨 결과를 기반으로 하며, 로또 번호 선택에 재미있는 통계적 인사이트를 제공할 수 있습니다.

 

오류를 여러번 겪었지만 어쨌든 해준다. 막 오류를 겪는 모습을 보니 주인이 Data 전처리만 신경써줬어도 겪지 않을 오류일 것 같다는 생각에 로또봇에게 미안해졌지만 이내 마음을 다 잡았다.

그런데, 어쭈! 표를 만들다가 말았네? 할 일을 제대로 한 건지 등짝을, 아니 코드를 보자.

 

# 연도별로 빈도가 가장 높은 번호 6개를 선택하는 과정을 수정하여 다시 시도
top_numbers_by_year_corrected = frequency_by_number_and_year.groupby('연도').apply(lambda x: x.nlargest(6, '빈도')).reset_index(drop=True)

# 결과를 연도별로 정리하기 위해 먼저 각 연도별로 가장 빈도가 높은 번호를 리스트로 모음
top_numbers_dict = top_numbers_by_year_corrected.groupby('연도')['번호'].apply(list).to_dict()

# Pandas DataFrame으로 변환
top_numbers_df = pd.DataFrame(list(top_numbers_dict.items()), columns=['연도', '가장 빈도 높은 번호 6개'])

# 각 연도별 가장 빈도 높은 번호 6개를 별도의 컬럼으로 분리하여 표현
top_numbers_df[['순위 1', '순위 2', '순위 3', '순위 4', '순위 5', '순위 6']] = pd.DataFrame(top_numbers_df['가장 빈도 높은 번호 6개'].tolist(), index=top_numbers_df.index)
top_numbers_df.drop('가장 빈도 높은 번호 6개', axis=1, inplace=True)

top_numbers_df
결과
        연도  순위 1  순위 2  순위 3  순위 4  순위 5  순위 6
0   2002.0  21.0  27.0  31.0  40.0  42.0   9.0
1   2003.0  37.0  40.0   7.0  26.0  17.0   2.0
2   2004.0   3.0  24.0  15.0  17.0  29.0  36.0
3   2005.0  42.0  28.0  34.0  36.0  19.0   2.0
4   2006.0  14.0  18.0  24.0  45.0   1.0   2.0
5   2007.0   5.0  27.0  31.0  37.0   4.0  11.0
6   2008.0  45.0   3.0   1.0  18.0  37.0  38.0
7   2009.0   5.0  14.0  16.0  17.0  20.0  29.0
8   2010.0  22.0  40.0  11.0  15.0  26.0   1.0
9   2011.0  20.0  34.0  10.0  13.0  38.0  40.0
10  2012.0  27.0   4.0  23.0  29.0  40.0  22.0
11  2013.0  17.0  20.0  26.0  34.0  31.0  32.0
12  2014.0   8.0   2.0   7.0  14.0  38.0  39.0
13  2015.0  15.0  44.0   7.0  11.0  31.0  27.0
14  2016.0  33.0  11.0   1.0   2.0   7.0  10.0
15  2017.0  12.0  34.0  21.0  24.0  15.0  16.0
16  2018.0  12.0  10.0  13.0  38.0  18.0  19.0
17  2019.0  39.0  43.0  28.0  34.0  45.0  17.0
18  2020.0  38.0  18.0  22.0   3.0  16.0  21.0
19  2021.0   2.0  37.0   9.0  13.0  21.0   1.0
20  2022.0  12.0  14.0  15.0  29.0  11.0  18.0
21  2023.0  30.0  45.0  22.0  35.0   6.0  18.0
22  2024.0   6.0   7.0  37.0  40.0   1.0  13.0

 

할 일을 제대로 한게 맞다. 다만, 표를 만들다가 귀찮아졌을 뿐이다. 주인 닮아서인가, AI가 뺑끼를 부린다.

생각나는 질문이 여기까지 여서, 오늘은 여기까지! 

관련된 의문점이 생각날 때마다 로또봇을 괴롭혀주겠다.