티스토리챌린지

내일배움캠프 35일차 TIL + Python, LLM 개인과제, prompt engineering 2024.11.14 2
내일배움캠프 34일차 TIL + Python, 개인과제(LLM), 수준별 학습반(프롬프트) 2024.11.13 2
내일배움캠프 33일차 TIL + Python, 머신러닝(t-SEN), AI모델활용, 크롤링 2024.11.12 4
내일배움캠프 32일차 TIL + Python, LLM, 머신러닝(LDA), 크롤링 2024.11.11 2
내일배움캠프 WIL 24.11.10 2024.11.10 1

내일배움캠프 35일차 TIL + Python, LLM 개인과제, prompt engineering

onesword 2024. 11. 14. 20:55

2024. 11. 14. 20:55

시작전 마음가짐

오늘은 아직 잠이 덜 깬 상태로 시작하는 학습입니다.

점점 추워지면서 몸이 왜이리 피곤에 절여지는거 같은지..

일단 오늘의 학습은 어제와 비슷하지만 개인과제의 결과 출력을 조금 더 퀄리티 높게 나오게 만들어보고 다른 방법으로 개인과제를 다시 해보려고 합니다.

굉장히 바쁜 하루일것 같습니다.

그럼 학습을 시작하겟습니다.

Python 문제풀이

1. 조건 문자열

처음 풀이가 1번 출력값이 틀림
f포맷팅을 이상하게 사용했나 싶어서 다르게 작성해보다가 안되서 GPT에게 물어보니 너무 긴 조건식을 보여주어서 가독성이 마음에 안들어 다른 방법을 찾아봄
eval함수: 문자열을 직접 조건식으로 평가하는 방법
eval함수를 사용해 완료

# 첫 시도
def solution(ineq, eq, n, m):
    answer = '(f"{n} {ineq}{eq} {m}")'
    if answer == True:
        return 1
    else:
        return 0

# eval함수 사용
def solution(ineq, eq, n, m):
    condition = f"{n} {ineq}{'=' if eq == '=' else ''} {m}"
    return 1 if eval(condition) else 0

2. flag에 따라 다른 값 반환하기

정답이 맞는데 답이 답이 나오지 않음
flag == 'true'를 flag == True 로 바꾸니 맞음

# 나의 정답
def solution(a, b, flag):
    if flag == True:
        return eval(f'{a} + {b}')
    else:
        return eval(f'{a} - {b}')

# 간단한 정답
def solution(a, b, flag):
    return a + b if flag else a - b

# lambda 활용

solution = lambda a,b,f:a+b if f else a-b

3. 코드 처리하기

문제 이해가 안감
진짜 모르겟어서 GPT에게 답을 받음
하지만 이해가 안감
수업시간에 설명을 들어보아야할 듯
준기님께서 설명을 해주셔서 이해 완료

def solution(code):
    mode = 0 
    ret = ""  

    for idx in range(len(code)):
        if code[idx] == "1":
            mode = 1 - mode
        else:
            if mode == 0 and idx % 2 == 0:
                ret += code[idx]
            elif mode == 1 and idx % 2 == 1:
                ret += code[idx]

    return ret if ret else "EMPTY"

def solution(code):
    mode = 0
    ret = ""
    for idx in range(len(code)):
        if code[idx] =! 1 and idx % 2 == 0:
            ret += code[idx]
            if code[idx] == 1:
                mode = 1
        else:
            if code[idx] =! 1 and idx % 2 == 1:
                ret += code[idx]
                if code[idx] == 1:
                    mode = 0

    return ret

개인과제 (LLM)

수정 사항

전체코드에 대한 이해도가 낮아 자세한 내용을 정리해보아야할듯
백업 스토어 설정에서 InMemoryDocstore를 사용해보기
리트리버 변환에서 다른 변환 방법 찾아보고 적용 및 비교해보기
답변 방식을 바꾸는 프롬프트 방법 찾아보기
대화형 Chat봇 코드와 비교해 보았을 때 오히려 가독성이 떨어지게 출력이 되어 프롬프트 수정이 필요해 보임

수정 현황

1. 전체코드 내용 정리

전체 내용의 라이브러리, 패키지, 파라미터, 코드의 흐름에 대한 내용을 정리했습니다.

아직 다음 단계를 시도해보지 못했습니다.

공부하며 추가 수정이 필요한 부분

백터 스토어 생성에서 FAISS.from_documents 대신 FAISS.from_embeddings 사용해서 결과 비교해보기
랭스미스 API키 받아서 LLM평가해보기

수준별 학습반 (prompt engineering)

Prompt Development Cycle의 평가기준

1. 사람이 평가하는 방법

1) LMSys Chatbot Arena(https://chat.lmsys.org/)

동일 질문에 대해 익명의 2개 모델의 답변 중 선택할 수 있는 싸이트
승/패/무 투표 이후에 모델명 공개
각 모델에 대한 랭킹 존재

2. LLM 모델이 평가하는 방법

1) Model Based Evaluation

GPT-4 같은 Strong LLM을 통해 평가하는 방법
Pairwise Comparison: 답변 2개 중 결정하게 만든다.
Single Answer Grading: 답변에 점수를 매긴다.
Reference-Guided Grading: 예시 답변을 주고 점수를 매긴다.

3. 코드로 평가하는 방법

코드 로직을 통한 평가 방법 1) Accuracy, Precision, Recall 등 2) ROUGE: 요약 모델에 사용 3) BLUE: 기계 번역 자동 평가 방법 4) Exact Match, String Match

4. 결론

사람이 직접 평가하는 것이 가장 좋다.
모델이 평가하는 방법도 충분히 사용 가능하다
정량적인 평가와 정성적인 평가 모두 하는게 가장 이상적인 케이스

Prompt engineering의 기법들

1. few shot

참고 할 수 있는 정답 사례들을 Prompt에 추가하여 성능을 높이는 방법
모델 사이즈가 어느정도 커야지 효과가 특출나다.
사전 훈련 단계에서 언어 모델이 패턴을 인지하고 적응하는 능력이있다.
In-Context Learning이라고도 불림

2. Chain-of-Thought

Few Shot에 추가로 문제 해결 과정(Reasoning)도 같이 Prompt에 추가하는 방식
CoT 응용 케이스
1. Self-Consistency: 여러 번의 다양한 CoT 과정을 거쳐 그 중 베스트를 선정
2. Generated Knowledge: 질문을 통해 상식을 끄집어내어 더 정확하게 대답하는 방법
3. Least-to-Most: 질문 A를 바로 물어보지 않고 질문 a, b로 쪼개서 물어보는 분할 정복 방법
4. Prompt Chaining: Prompt A의 Output A를 Prompt B에 사용하는 방법
5. ReAct: Reasoning 외에도 Action까지 추가하는 방법

회고

전체적으로

오늘은 집중이 잘 안되는 하루였습니다.

파이썬 문제도 어려워서 시간이 꽤 걸렸고 개인과제 목표도 전부 달성하지 못했습니다.

하지만 수준별 학습반 수업은 흥미롭고 많은 사람들의 질문에 많은 공부가 되었습니다.

내일을 개인과제의 목표를 모두 수행해보겟습니다.

Python 문제풀이를 하며

파이썬 문제를 풀 때 가장 중요시 생각하는게 나의 머리로만 풀자입니다.

오늘 문제들은 생각이 나지않아 GPT의 도움을 많이 받았습니다.

GPT의 도움을 받아도 코드를 그대로 따라 쓰는게 아닌 어떤 흐름인지 간단하게 파악하고 다시 혼자 코드를 작성하면서 학습 중입니다.

또한 GPT의 답변이 마음에 들지 않는다면 과감히 다른 방법으로 해결하려합니다.

문제 3번은 GPT의 설명을 보아도 이해가 가지않았는데 같은 팀원인 준기님의 설명으로 빠르게 이해를 할 수 있었습니다.

개인 과제를 진행하며

코드는 어제 다 짜놓은 상태지만 거의 따라치다 싶이하여서 코드들의 각 기능에 대해서 공부를 하였습니다.

공부를하며 느끼는 의문점들을 메모해 놓았고 그것을 해결하기 위한 방법들을 적용하는 것이 내일 목표입니다.

또한 LLM모델을 다른 방식으로 만들어보고 두가지 모델을 비교하는게 최종 목적입니다.

수준별 학습 수업을 들으며

오늘은 실습 보다 이론 위주의 수업이였습니다.

제공되는 강의 내용과 비슷하지만 한 가지의 주제(Prompt)를 깊게 이해하는데 도움이 되었으며 확실히 흥미를 가지고 수업에 임하니 이해가 잘되고 집중력이 높았습니다.

또한 간단한 실습을 진행하였는데 반복해서 치다보니 영타가 빨라지고 실습하는 코드를 완벽하진 않지만 외우게 되었습니다.

이렇게 천천히 다져가면 언젠간 단단한 지식이 되어 필요한 지식을 꺼내려할 때 무너지지 않을 것 같습니다.

감사합니다.

'TIL' 카테고리의 다른 글

내일배움캠프 37일차 TIL + Python, LLM특강, 개인과제(LLM) (0)	2024.11.18
내일배움캠프 36일차 TIL + Pytohn,특강(LLM, API), 개인과제(LLM), prompt engineering (3)	2024.11.15
내일배움캠프 34일차 TIL + Python, 개인과제(LLM), 수준별 학습반(프롬프트) (2)	2024.11.13
내일배움캠프 33일차 TIL + Python, 머신러닝(t-SEN), AI모델활용, 크롤링 (4)	2024.11.12
내일배움캠프 32일차 TIL + Python, LLM, 머신러닝(LDA), 크롤링 (2)	2024.11.11

내일배움캠프 34일차 TIL + Python, 개인과제(LLM), 수준별 학습반(프롬프트)

onesword 2024. 11. 13. 21:26

2024. 11. 13. 21:26

시작전 마음가짐

오늘은 상쾌한 아침입니다.

개인과제 발제가 있어 약간 떨리지만 무조건 해내야하는 내 일이니 잘 해내 보겟습니다.

우선 발제를 듣고 Python 문제풀이 다음에 바로 개인과제를 진행해보려고 합니다.

이제 시작해보겟습니다.

Python 문제풀이

1. n의 배수

처음 만났을 때 문제를 어떤 연산자를 사용해서 풀어야지라는 생각으로 천천히 생각해 보았습니다.
분정도 생각하고 %(나머지) 연산자를 사용하면 쉽게 풀수있다는걸 생각해서 쉽게 풀었습니다.
다른 사람 풀이에서 not함수를 사용하는 것을 보았는데 저는 생각지도 못한 것이라 살짝 정리하겟습니다
not함수는 논리 연산에서 사용되는 함수로, 주어진 값의 참(True) 또는 거짓(False) 여부를 반대로 변환해 줍니다. 그래서 나머지가 0이면 1을 1이면 0을 반환하게 만들어주었습니다.

# 나의 풀이
def solution(num, n):
    if num % n == 0:
        return 1
    else:
        return 0

# 좋은 다른 사람 풀이
def solution(num, n):
    return int(not(num % n))

2. 공배수

이 문제에서 해결이 안된 문제가있습니다.
조건식을 number % n == number % m으로 했을 때 문제가 틀렸다고 나옵니다.

직접 코드를 쥬피터 노트북에서 실행시켜보았을 때 1과 0으로 출력이 잘 되었습니다.

# 나의 풀이
def solution(number, n, m):
  if 10 <= number <= 100 and 2 <= n <= 10 and 2 <= m <= 10:
      if number % n == 0 and number % m == 0:
          return 1
      else:
          return 0

3. 홀짝에 따라 다른 값 반환하기

홀짝 구하기 성공
처음엔 리스트 형태로 연산을 하려다 실패해 range함수 적용
홀수 덧셈식 성공
짝수 제곱 식 검색 후 성공

# 나의 풀이
def solution(n):
    if n % 2 == 0:
        return sum(i ** 2 for i in range(0, n + 1, 2))
    else:
        return sum(range(1, n + 1, 2))

# 좋은 다른 사람 풀이
def solution(n):
    if n%2:
        return sum(range(1,n+1,2))
    return sum([i*i for i in range(2,n+1,2)])

개인과제 수행

수정이 필요한 부분

백업 스토어 설정에서 InMemoryDocstore를 사용해보기
답변 방식을 바꾸는 프롬프트 방법 찾아보기
리트리버 변환에서 다른 변환 방법 찾아보고 적용 및 비교해보기
전체코드에 대한 이해도가 낮아 자세한 내용을 정리해보아야할듯
대화형 Chat봇 코드와 비교해 보았을 때 오히려 가독성이 떨어지게 출력이 되어 프롬프트 수정이 필요해 보임

1. API키 등록

완료

2. 모델 토드

ModuleNotFoundError: No module named 'langchain_openai'

!pip install langchain-openai
!pip install --upgrade langchain
!pip install -U langchain-openai
각 단계를 진행하면서 코드를 실행시켰지만 아직 모듈에러

새로운 가상환경을 만들어서 해결.

3. 파일 로드

완료

4. 청크나누기

CharacterTextSplitter & RecursiveCharacterTextSplitter

두 가지 청크 분할 방법의 다른점

1) 분할기준

CharacterTextSplitter: 구분자 기준 텍스트 나누고 cunk_size를 초과하지 않게 분할
RecursiveCharacterText: 구분자 기준 분할 후 cunk_size를 초과하는 덩어리는 재귀적으로 다시 분할해 크기가 적절하게 맞도록 한다

2) 텍스트 나누는 방식

CharacterTextSplitter: 구분자에서만 분할(텍스트가 크면 덩어리로 나누지 못할 수 있다)
RecursiveCharacterText: 텍스트를 재귀적으로 나누어서 큰 텍스트는 더 작은 덩어리로 자동으로 나누어 cunk_size에 맞게 한다.

3)결론: 큰 텍스트를 다루는지 안다루는지4)코드 파라미터 설명

separator="\n\n", # 빈 줄을 구분자로 지정
chunk_size=100, # 텍스트를 100자 이하로 나눈다
chunk_overlap=10, # 중복 문자 수 지정
length_function=len, # 각 텍스트 길이 계산
is_separator_regex=False, # 구분자를 문자열 처리
splits = text_splitter.split_documents(docs) # docs에 분할할 문서 리스트를 입력

5. 벡터 임베딩 생성

다른 임베딩 모델들을 찾아 보았습니다.
KoBERT, KoELECTRA, KLUE 등 이있었지만
text-embedding-ada-002이 비용면에서 효율적이라 과제에 사용했습니다.

6. 백업 스토어 설정

LLM강의 교안의 InMemoryDocstore를 사용해 보려 했으나 어떻게 작동하는지 이해를 못해서 참고자료만을 사용해서 진행했습니다.

7. 리트리버 변환

코드에 대한 이해도 부족
다른 리트리버 변환 방법 찾아보고 적용해보기

8. 프롬프트 템플릿 정의

코드에 대한 이해도 부족
if문을 추가해 작동을 멈추는 코드 추가

수준별 학습반

오늘은 프롬프트의 기초적인 강의를 들었습니다.

구글 드라이브를 연결
API키 등록
ChatGPT 원리 및 간단한 사용
프롬프트 수정으로 비교
프롬프트 생성 Cycle

들에 대한 내용을 배웠습니다.

초반에는 지금까지 들었던 내용과 비슷해 쉽게 따라 갈 수 있었습니다.

이후에 배우게 된다는 프롬프트를 생성 수정의 반복 과정에서 성능 평가 및 여러가지 비교하는 강의가 될 것이라 생각해 기대가 됩니다.

회고

전체적으로

오늘은 개인과제를 진행하는데 시간을 많이 사용하였는데 만족스럽지 못한 결과인 것같아 조금 불만족입니다.

결과적으로는 개인과제의 필수 부분은 모두 작동하게 작성하여 어느 정도 만족입니다.

또한 이때까지 배웠던 내용들이 하나씩 맞춰지는 퍼즐처럼 각자 자리를 찾아가 하나의 그림이 찾아지고있는 느낌입니다.

Python 문제풀이를 하며

파이썬 문제는 내가 아는 내용이 나오면 항상 재미있고 다른 사람의 문제 풀이를 보고 놀라게 되는 과정의 연속입니다.

틀릴 때마다 왜 틀렸지 이 문제가 무엇을 찾고 어떤 방법으로 찾아야하지 생각하는 과정이 즐겁습니다.

개인과제를 진행하며

코드들이 참고 부분에 나와있어서 따라 적으며 작동하는지 오류가 나는지에 대한 학습을 진행한 것 같습니다.

각 코드들이 어떤 내용을 담고있는지 어떤 행동을 하는지 알아보고 더 나은 방법이있는지 공부해서 적용해보고싶습니다.

수준별 학습반을 진행하며

지금까지 배운 내용들에 더욱 자세한 내용들을 배우는 시간이였습니다.

뭔가 간접적으로 다가오던 용어들이 나에게 직접 다가와 나는 이런거였고 이렇게 사용하면 더 좋아라고 본인을 설명하는 느끼이였습니다.

내일까지 배우는 프롬프트 엔지니어링을 완벽하게 이해하고 싶습니다.

'TIL' 카테고리의 다른 글

내일배움캠프 36일차 TIL + Pytohn,특강(LLM, API), 개인과제(LLM), prompt engineering (3)	2024.11.15
내일배움캠프 35일차 TIL + Python, LLM 개인과제, prompt engineering (2)	2024.11.14
내일배움캠프 33일차 TIL + Python, 머신러닝(t-SEN), AI모델활용, 크롤링 (4)	2024.11.12
내일배움캠프 32일차 TIL + Python, LLM, 머신러닝(LDA), 크롤링 (2)	2024.11.11
내일배움캠프 31일차 TIL + LLM & RAG, ML복습 (2)	2024.11.08

내일배움캠프 33일차 TIL + Python, 머신러닝(t-SEN), AI모델활용, 크롤링

onesword 2024. 11. 12. 21:28

2024. 11. 12. 21:28

시작전 마음가짐

오늘은 피로가 많이 축척된듯한 시작입니다. 눈이 크게 안떠지네요ㅎㅎ

내일 새로운 LLM&RAG 개긴과제가 있는 만큼 밀렸던 복습을 빠르게 진행할 예정입니다.

설정한 목표를 빠르게 달성하고 다른 복습까지 진행되었으면 합니다.

그리고 데이터 분석이 중요해 보이는데 관련된 자격증이나 학습자료를 찾아볼 생각입니다.

그럼 학습을 시작하겟습니다.

Python문제풀이

1. 문자열 곱하기

answer에 바로 'my_string*k'는 출력 값 오류 => ''(따옴표를 빼면 정상작동)
answer = print('my_string * k',end = "") 출력 값 오류
join함수를 사용해서 성공

def solution(my_string, k):
    answer = ''.join(my_string * k)
    return answer

2. 더 크게 합치기

문자열로 바꾸고 진행 한 뒤 정수로 데이터 타입 바꾸기 까지 혼자 해냄
max함수가 생각나지 않아서 찾아보았음

def solution(a, b):
    if 1 <= a <= 10000 and 1 <= b <= 10000:
        ab = int(str(a) + str(b))
        ba = int(str(b) + str(a))
        answer = max(ab, ba)
        return answer

# f-스트링 사용
def solution(a, b):
    return int(max(f"{a}{b}", f"{b}{a}"))

3. 두 수의 연산값 비교하기

if, elif, else를 사용했는데 elif문 문법 틀림
완료

def solution(a, b):
    ab = int(str(a) + str(b))
    ab2 = 2 * a * b
    if ab > ab2:
        return ab
    elif ab == ab2:
        return ab
    else:
        return ab2

# 짧게 구하는 식
# max함수는 수가 같을 때 항상 앞의 수를 가져온다.
def solution(a, b):
    return max(int(str(a) + str(b)), 2 * a * b)

머신러닝 t-SEN

이번엔 수학적 개념을 신경 쓰지 않고 오로지 t-SEN이 무엇을 선택하며 진행 되는지 그리고 이 분류방법으로 하는게 무엇인지에 대하여 알아보았습니다.

의외로 접근이 쉬웠지만 뭔가 알다가 마는 느낌이 없지않아 있었습니다.

목적

복잡한 데이터의 시각화
데이터의 군집 구조나 유사성을 시각적으로 파악

결과 해석

숫자가 시각화에서 분리된 형태로 잘 모여 있다면, t-SNE가 숫자 간의 패턴 차이를 잘 포착했다는 것을 의미
특정 숫자들끼리 서로 겹쳐 있다면, 해당 숫자 간의 특징이 비슷하여 모델이 쉽게 구분하지 못할 가능성이 있음을 의미

AI모델활용 복습

오늘은 5-2 ~5-5 강의까지 수강하였고 큰 트러블은 만나지 않았습니다.

복습을 통해 export를 터미널에 사용해서 API키를 사용하는 방법을 알게 되었습니다.

이미지와 음성 생성 Ai 코드를 작성해보았는데 일반적인 코드는 어느정도 어떤 기능이구나 하면서 이해가 갓는데 API키를 입력 시키거나 자신의 목소리 데이터는 어떻게 학습 시키는지 모르겟습니다.

다음에 기회가 생긴다면 직접 진행해보는 것이 가장 좋은 학습 방법이라 생각이 들었습니다.

크롤링 강의(동적 크롤링)

오늘 몸이 안좋아서 크롤링 강의는 영상이 올라오면 다시 각 잡고 공부해야겟다는 생각으로 가볍게 수강하였습니다.

코드를 수정하고 설명하는 부분은 따라가면서 실행은 시켜보지 않았습니다.

이 크롤링을 이용해서 많은 정보를 얻을 수 있을 뿐만 아니라 다양한 형태의 데이터를 가지고 올 수 있어 보여 굉장히 효율적이고 좋은 방법이라 생각이 들었습니다.

대학시절 상권분석을 해본적이있지만 단순히 포털 싸이트에서 파일을 다운받아 일일이 읽으며 분류했던 기억이있습니다.

파이썬과 크롤링을 합치니 포털싸이트의 정보보다 더욱 최신화된 정보와 원하는 정보만을 다룰 수 있어 왜 이렇게까지 인공지능 및 코딩에 열광하는지 조금이나마 알게 된것같습니다.

회고

오늘 오전 학습을 하던 중 아버지께서 응급실에 진료를 보러가신다고 하여 운전을 못하실 상황을 대비해 외출을 하였습니다.

굉장히 오랜만의 외출이기도 하고 오랜만에 운정을 한 탓에 몸이 긴장을 한 것인지 다녀 온 이후로 몸이 굉장한 피로감을 표출 하더군요.

다행히도 아버지는 몸에 이상이 없는 상태셨고 저는 어머니가 대신 보호자 역할로 오셔서 1시간만에 복귀하여 다시 학습을 진행했습니다.

Python문제풀이를 하며

파이썬 문제는 언제나 만나면 머리가 텅 비워지는 것같습니다.

하지만 천천히 생각하고 생각나는대로 써내려가다보면 어디가 틀린지 알게 되는데요 아직 문제를 푼다는것에 익숙치않아 그런듯합니다.

또한 수준별 학습 강의에서 혼동하기 쉬운 형태들과 현업에서 자주 쓰는 함수들을 알려주어 좋았습니다.

머신러닝 결과해석을 하며

이전의 머신러닝 결과를 분석하며 느낀 것인데 수학적 개념과 시각화된 자료들을 찾아보며 이해도는 높아졌지만 굉장한 시간이 걸렸다고 생각합니다.

그래서 오늘은 단순히 t-SEN의 목적과 과정 결과를 보는 방법 등을 위주로 학습하였고 이는 1시간이 조금 넘게 걸리며 짧은 시간만에 끝을 볼 수 있었습니다.

이해력을 높이는 것도 좋지만 저는 현재 커리큘럼을 따라가는 입장이니 빠르게 지나가야할건 분명히 해야할 것입니다.

AI모델활용 복습을 진행하며

음성 및 이미지를 사용하는 AI모델이 작동하는 것을 보는건 언제 봐도 신기하고 재미있습니다.

아직 실행을 시켜보지는 못했지만 진행해보면 많은 아이디어들이 떠올라 한동안 가지고 놀 수 있을 정도로 사용해보지 않을까 싶습니다.

크롤링 강의를 들으며

와 내가 대학 시절에 했던 분석은 거의 무의미한 행동이였구나라는 생각이 머리를 지배하는 강의였습니다. 그만큼 충격으로 다가왔죠

저는 지금 이 커리큘럼 과정을 밟으며 데이터를 분석하는 일에 관심이 많이 가고있습니다.

크롤링을 자세하게 배워보고 싶습니다.

'TIL' 카테고리의 다른 글

내일배움캠프 35일차 TIL + Python, LLM 개인과제, prompt engineering (2)	2024.11.14
내일배움캠프 34일차 TIL + Python, 개인과제(LLM), 수준별 학습반(프롬프트) (2)	2024.11.13
내일배움캠프 32일차 TIL + Python, LLM, 머신러닝(LDA), 크롤링 (2)	2024.11.11
내일배움캠프 31일차 TIL + LLM & RAG, ML복습 (2)	2024.11.08
내일배움캠프 30일차 TIL + 복습(Python, Ai모델활용) (0)	2024.11.07

내일배움캠프 32일차 TIL + Python, LLM, 머신러닝(LDA), 크롤링

onesword 2024. 11. 11. 21:24

2024. 11. 11. 21:24

시작전 마음가짐

지금까지 진행 상황들을 보았을 때 해야할 과제들이 많아지고있습니다.

빨리 끝낼 수 있는 주제들을 먼저 처리하며 마음의 짐을 덜고 싶습니다.

오늘은 해결을 못한 내용들을 처리하고싶으니 매우 바쁜 하루가 될 것 같습니다.

그럼 학습을 시작하겟습니다.

Python 문제 풀이

1. 문자열 겹쳐쓰기

문제를 보고 슬라이싱이 생각남
answer = my_string[:s] + overwrite_string 까지 하고 문자열 뒷부분이 빠짐것을 확인
overwrite_string 만 추가해서 문자열 뒷부분 겹침 확인
s 값을 더해줘서 해결

def solution(my_string, overwrite_string, s):
    answer = my_string[:s] + overwrite_string + my_string[s +len(overwrite_string):]
    return answer

2. 문자열 섞기

분명히 배웠었는데 기억이 나지 않음
join, map 등을 활용해보려했으나 실패
검색을 통해 완료 (이전에 배웠던 부분은 리스트컴프리헨션)

# 조건문을 활용한 섞기
def solution(str1, str2):
    answer = ""
    for i in range(len(str1)):
        answer += str1[i] + str2[i]
    return answer

# 리스트 컴프리헨션
def solution(str1, str2):
    answer = [str1[i] + str2[i] for i in range(len(str1))]
    return ''.join(answer)

# map 함수와 join 사용하기
def solution(str1, str2):
    answer = ''.join(map(lambda i: str1[i] + str2[i], range(len(str1))))
    return answer

3. 문자 리스트를 문자열로 변환하기

조인 함수로 성공
아직 조인 함수를 사용하는데 미숙함이있어 문법에서 에러가 나옴
시도한 함수들 join, 데이터 타입 변환, map

def solution(arr):
    answer = ''.join(arr)
    return answer

LLM 5주차 내용 정리

5주차 5-5 강의 정리를 마쳤습니다.
LLM과 여러 패키지를 활용하는 방법을 코드로 보여주고 코드의 요소 하나하나 설명해주는 강의였습니다.
하지만 강의의 분기점이 강의 자료의 숫자로만 되어있어 처음에는 강의자료에있는 코드들이 한개의 코드박스에 들어가서 진행하는 코드라 생각하고 진행하였지만 반복하는 부분이 많아 정리하기 어려웠습니다.
또한 많은 정보를 담고있어 차근차근 보아야하고 많은 복습 및 실습이 필요해 보입니다.
복습을 위해 명확하게 파트 분리를 진행하고 복습을 해야할 것으로 보입니다.

환경변수 문제 해결

1. 우선 질문하러 가기 전 다시한번 더 API키 및 환경변수 문제 확인

작업 영역 소스파일 열거하는 데는 시간이 오래걸립니다. 대신 하위 폴더를 여는 것이 좋습니다. => 하위폴더 사용방법
대화형 챗봇의 API키 직접 입력시 사용 가능
DOTENV사용 경우: 잘못된 API키를 사용한다는 openai.AuthenticationError 발생 => 환경 변수를 어떻게 설정하는지 봐야할 듯
api키 노출없이 키 사용방법

2. 해결한 문제

vscode를 시작함과 동시에 열려있던 c드라이브 폴더를 그대로 사용해서 문제가 나온거였다. 해결
API키 지정 코드에서 오타 존재 =>client = OpenAI(api_key="api_key")에서 ""제거 => Dotenv로 API키 사용 가능
키 노출 우려 => .env를 활용해도 print문으로 api키를 출력이 되는게 문제라 판단 => 로컬 컴퓨터 환경 변수에 API키값 저장 => OpenAI Python 라이브러리 버전 1.0.0 이상에서는 이 API가 더 이상 지원되지 않아서 문제 발생 => 생각해보니 코드상에서만 노출이 안되면 print문을 써도 같은 값이 출력이 안되는 것이라느걸 깨달음 => .env 사용하자

3. 4주차 강의부터 다시 실습 실행

5-1 강의 까지 들었고 매끄럽게 강의 수강을 했습니다.
또한 이때까지 환경변수 설정 오류로 나오던 실행경로 오류는 가상환경의 파일과 작업중인 파일의 위치 문제였습니다. => 작업중인 디렉토리에 새로운 가상환경을 설정

머신러닝 결과 해석(LDA)

LDA에 대한 해석을 드디어 완료했습니다. 생각보다 간단했는데 수학적 개념으로 된 설명을 읽다보니 머리가 뜨거워진듯 합니다.

LDA란?

우선 LDA는 차원 축소와 분류를 한번에 진행하는 모델이다.
클래스 내의 분산 최소화, 클래스 간의 분산을 최대화 시킨 축을 찾아 차원축소 한다.

간단한 진행과정과 결과 해석

데이터와 레이블을 분리한다.
선형판별 축을 찾는다(클래스 수 -1 개)
찾은 선형판별 축으로 모델학습(선형변환)한다.
첫번째 열(첫 번째 선형판별 축)과 두번째 열(두 번째 선형판별 축)을 사용하여 시각화하고 데이터의 분산이 잘이루어졌는지 확인한다.

분석을 하는 이유?

정확성 향상: 분류 성능이 높아지면 잘못된 예측을 줄일 수 있습니다.
비지니스 성과 개선: 비즈니스 의사결정을 개선하는 데 기여(추천 시스템 등)
리소스 효율성 향상: 운영 및 리소스 비용을 절감(콜센터 등의 챗봇, 인건비 절감)
사용자 경험 향상: 사용자에게 더 나은 경험을 제공(스팸 필터 등)
일반화 성능 향상: 다양한 데이터셋에도 잘 일반화될 수 있다.

크롤링 특강

크롤링 강의를 들으며 가끔 보게 되던 HTML, URL구조, f12를 누르게 되었을 때 만나게 되는 정보들을 알게 되었습니다.
오늘 특강으로 많은 정보를 학습했으니 이 정보들을 더욱 구조화 시켜 내 것으로 만들어야 겟습니다.
특히 신기했던게 URL의 구조를 보고 URL에서 어떤 파라미터들이 어떤 역할인지 알아보고 그것들을 사용한다는게 매우 신기했습니다.
전체적으로 처음듣는 내용이어서 어려웠지만 늘 궁금하던 내용이라 재미있었습니다.

회고

오늘은 전체적으로 학습 시작 전에 생각한대로 흘러가서 학습의 질이 매우 높았습니다.

중간에 크롤링 특강의 존재를 알게 되어 머신러닝 t-SEN의 결과분석은 못했지만 크롤링 특강 자체가 매우 흥미있어 괜찮았습니다.

Python 문제풀이를 하며

파이썬 문제는 풀렸을 때의 쾌감 이 너무 좋습니다.

하지만 한가지 문제로 시간을 많이 사용하게 되면 무형의 압박감이 생겨 GPT의 힘을 빌리고 싶어지지만 꾹 참으며 내가했던 필기 자료나 검색을 통하여 이루어 내고있습니다.

환경 변수 문제를 해결하며

환경 변수 문제 이 때 까지 왜이렇게 고민을 했나 싶을 정도로 쉽게 해결이 되었습니다.

지금까지 가상환경을 설치하며 날린 시간들이 조금 아깝지만 이제 이런 문제들이 해결이 되었으니 마음 놓고 실습을 진행할 수 있습니다.!!

작업중인 디렉토리에 가상환경 파일을 만들어야한다...

머신러닝 결과 분석을 하며

LDA이녀석도 저번주에 생각했던 것보다 매우 간단한 녀석이였습니다.

전문적인 블로그 글과 유튜브 영상을 참고해서 분석했는데 너무 많은 수학적 용어들이 머리를 복잡하게 만들었던 것 같습니다.

추가적으로 분류하는 머신러닝을 공부하고있기에 분류, 분석은 왜 하는 것인지 찾아보았고 그 결과로 왜 이렇게까지 데이터 분석 스킬이 필요한지 이해가 되는 학습이였습니다.

크롤링 특강

평소 궁금해했던지라 신기하고 재미있었습니다.

하지만 어려웠다는... 그리고 마지막에 과제를 주셨는데 날잡고 강의 복습을 진행한 뒤 과제까지 처리해보려 합니다.

감사합니다.

'TIL' 카테고리의 다른 글

내일배움캠프 34일차 TIL + Python, 개인과제(LLM), 수준별 학습반(프롬프트) (2)	2024.11.13
내일배움캠프 33일차 TIL + Python, 머신러닝(t-SEN), AI모델활용, 크롤링 (4)	2024.11.12
내일배움캠프 31일차 TIL + LLM & RAG, ML복습 (2)	2024.11.08
내일배움캠프 30일차 TIL + 복습(Python, Ai모델활용) (0)	2024.11.07
내일배움캠프 29일차 TIL + 복습 (머신러닝, AI모델활용,Python) (5)	2024.11.06

내일배움캠프 WIL 24.11.10

onesword 2024. 11. 10. 18:30

2024. 11. 10. 18:30

1. 어떤것들을 공부했는지

이번주는 AI모델활용, 머신러닝, Python, LLM&RAG 강의를 듣고 GITHUB를 활용한 포트폴리오 작성 및 복습하는 시간이였습니다.

원래의 목표로는 머신러닝 결과를 해석을 가장 중요시했지만 중간에 LLM&RAG 강의를 새롭게 듣게 되어 강의 완강을 최우선 목표로 목표를 수정하게 되었습니다.

LLM&RAG 강의를 완강 하였고

머신러닝의 PCA, k-means-clustering, DBSCAN, 계층적 군집화에 대한 복습을 마무리했습니다.

LDA, t-SEN의 결과해석은 아직 마무리 하지 못했지만 틈이 나는대로 진행할 예정입니다.

포트폴리오 또한 새로운 강의 수강 및 머신러닝 복습, 트러블 이슈 등으로 많이 진행하지 못한 상황으로 빠르게 정리하고 싶습니다.

2. 학습하며 가진 생각들

1) 머신러닝

결과에 대한 해석을 위해선 수학개념을 이해하는게 중요해 보임
왜 사용하는지? 어떻게 결과를 해석하는지 찾고 학습하는 과정이 매우 어려움
코드의 파라미터 등의 기능은 어느정도 숙지했다고 생각함

2) 파이썬

수준별 학습 반에서 진행하는 강의 및 과제로 학습 중
과제를 혼자 풀어보고 다른 해석 및 튜터님의 풀이 방법 등을 보며 공부
다양한 방법이 존재하는 것이 신기하고 실제 현장에서 주로 쓰는 방법이나 그라운드 룰 등에 대한 이야기가 신기했음
많은 질문이 생각나지만 혼자 학습해보고 해결이 안되는 부분을 질문해서 학습 시간이 더 오래걸리나 싶은 생각이 들지만 이게 가장 좋은 학습 방법 같음

3) AI모델활용

아직 API키 활용을 제대로 못하겟음
항상 만나지만 아직 해결 못한 환경변수 설정 튜터님에게 질문해야할 것으로 보임
신기하고 재미있어 보이지만 코드를 다 공부하기에 학습시간이 오래걸릴 것 같음

4) LLM&RAG

1~4주차 강의는 쉽고 반복되는 내용으로 빠르게 이해가 가능했음
5주차 강의 또한 반복되는 내용에 조금씩 내용이 깊어지고있다 생각함
5주차 마지막 강의는 여러번 재수강이 필요해 보임
내가 할 수 있을까? 라는 생각이 들기 시작함

5) 포트폴리오

GITHUB의 웹싸이트 만들기 까지 했지만 꾸미는 방법은 진행하지 못한 상태
언젠간 해야지하면서 다른 학습에 시간을 다 사용해버려 진행이 너무 느림

3. 다음 주 목표

머신러닝 t-SEN, LDA 결과 완벽히 해석
환경변수 설정에 대한 내용 질문 및 찾아보기
LLM&RAG 필기한 내용을 주로 복습하고 개인과제가 나오면 집중 복습
파이썬 강의에서 나오는 내용은 꾸준히 복습하고 다음주 주말에 문제 한번씩 다시 풀어볼 것

'WIL' 카테고리의 다른 글

내일배운캠프 WIL + 머신러닝 (0)	2024.10.27
내일배움캠프 2주차 WIL + 파이썬 데이터 정복 (4)	2024.10.13

PREV 이전 1 2 3 4 NEXT 다음

onesword 님의 블로그

티스토리챌린지

내일배움캠프 35일차 TIL + Python, LLM 개인과제, prompt engineering

목차

시작전 마음가짐

Python 문제풀이

1. 조건 문자열

2. flag에 따라 다른 값 반환하기

3. 코드 처리하기

개인과제 (LLM)

수정 사항

수정 현황

1. 전체코드 내용 정리

공부하며 추가 수정이 필요한 부분

수준별 학습반 (prompt engineering)

Prompt Development Cycle의 평가기준

1. 사람이 평가하는 방법

2. LLM 모델이 평가하는 방법

3. 코드로 평가하는 방법

4. 결론

Prompt engineering의 기법들

1. few shot

2. Chain-of-Thought

회고

'TIL' 카테고리의 다른 글

내일배움캠프 34일차 TIL + Python, 개인과제(LLM), 수준별 학습반(프롬프트)

목차

시작전 마음가짐

Python 문제풀이

1. n의 배수

2. 공배수

3. 홀짝에 따라 다른 값 반환하기

개인과제 수행

수정이 필요한 부분

1. API키 등록

2. 모델 토드

ModuleNotFoundError: No module named 'langchain_openai'

3. 파일 로드

4. 청크나누기

CharacterTextSplitter & RecursiveCharacterTextSplitter

두 가지 청크 분할 방법의 다른점

5. 벡터 임베딩 생성

6. 백업 스토어 설정

7. 리트리버 변환

8. 프롬프트 템플릿 정의

수준별 학습반

회고

'TIL' 카테고리의 다른 글

내일배움캠프 33일차 TIL + Python, 머신러닝(t-SEN), AI모델활용, 크롤링

목차

강의 필기와 코드는 GitHub 링크를 참고해주세요

시작전 마음가짐

Python문제풀이

1. 문자열 곱하기

2. 더 크게 합치기

3. 두 수의 연산값 비교하기

머신러닝 t-SEN

목적

결과 해석

AI모델활용 복습

크롤링 강의(동적 크롤링)

회고

'TIL' 카테고리의 다른 글

내일배움캠프 32일차 TIL + Python, LLM, 머신러닝(LDA), 크롤링

목차

시작전 마음가짐

Python 문제 풀이

1. 문자열 겹쳐쓰기

2. 문자열 섞기

3. 문자 리스트를 문자열로 변환하기

LLM 5주차 내용 정리

환경변수 문제 해결

1. 우선 질문하러 가기 전 다시한번 더 API키 및 환경변수 문제 확인

2. 해결한 문제

3. 4주차 강의부터 다시 실습 실행

머신러닝 결과 해석(LDA)

LDA란?

간단한 진행과정과 결과 해석

분석을 하는 이유?

크롤링 특강