반응형

프로그래밍/데이터 사이언스 공부 39

CUDA, cuDNN, PYTORCH 설치 참고 링크

https://velog.io/@jeon328kr/Pytorch-GPU%ED%99%9C%EC%9A%A9%ED%95%98%EC%97%AC-%EA%B0%80%EC%86%8D%ED%95%98%EA%B8%B0with-Yolov5-CUDA Pytorch GPU활용하여 가속하기(with Yolov5, CUDA) Windows에서 CUDA, Pytorch를 설치하여 Opencv를 사용하기 위한 환경을 구축해보자. velog.io pytorch 설치 과정과 yolov5에서 어떻게 gpu 사용하는지 안내 conda 가상환경 세팅 안내 https://teang1995.tistory.com/17 [ 개발 환경 설정 ] Windows 10 에 CUDA를 설치해보자! 아! 입사 첫 주라 설정해줄 것이 정말 징글징글하게 많다! ..

roboflow 이미지 업로드 시 개수 제한 주의

이미지들을 10000개 넘게 구하고 업로드 했더니 플랜을 업그레이드 하라고 나온다. 업로드 한 이미지들을 삭제해 10000개 이하로 만들면 제한이 해제된다. 업그레이드 플랜은 제법 비용이 나오니 사용할거면 이를 주의해서 프로젝트 당 이미지 업로드 수가 10000개가 넘어가지 않도록 해야겠다. 그리고 이미지 업로드 시 태그는 꼬박꼬박 달자. 이미지 삭제할 때 해당 이미지가 무엇인지 햇갈린다.

YOLOv8 사용해보기

!pip install ultralytics #yolov8과 yolov8 실행에 필요한 라이브러리 설치 yolov8을 사용하기 위한 ultralytics 패키지를 설치한다 import ultralytics ultralytics.checks() 설치한 ultralytics 패키지를 import하고 check() 함수로 제대로 설치 되었는지 확인한다. from ultralytics import YOLO #YOLO('yolov8n.pt')로 모델 다운로드. model = YOLO('yolov8s.pt') #MS COCO Dataset 사전학습 된 yolov8s 모델을 로드함. s 이외에도 n, m, l, x 등이 있음. #모델 크기가 증가할수록 정확도도 증가하지만 메모리 사용률 등 부수적인 부분에서 트레이드 ..

상관행렬(correlation matrix)이 뭐야? 상관행렬의 단점은?

Q. 데이터마이닝에서 상관행렬이 뭐야? A. 상관행렬(correlation matrix)은 데이터마이닝에서 변수 간의 상관관계를 나타내는 행렬입니다. 상관관계는 두 변수 사이의 관련성을 나타내는 지표로, 변수 간의 선형적인 관계를 측정합니다. 상관행렬은 변수 간의 상관관계를 나타내는데, 상관계수(correlation coefficient)를 사용합니다. 상관계수는 -1에서 1 사이의 값을 가지며, 1에 가까울수록 양의 상관관계(두 변수가 함께 증가), -1에 가까울수록 음의 상관관계(두 변수가 서로 반대로 증감)를 나타냅니다. 0에 가까울수록 두 변수 사이에는 상관관계가 없습니다. 상관행렬은 주로 변수 간의 다중공선성(multicollinearity)을 확인하는 데 사용됩니다. 다중공선성은 변수 간의 강..

영-분산 예측변수가 뭐야?

Q. 영-분산 예측변수가 뭐야? A. 영-분산 예측변수(zero-variance predictor)란, 분산(variance)이 0에 가까운 예측변수를 말합니다. 다른 말로는 상수(constant) 예측변수라고도 합니다. 영-분산 예측변수는 예측 모델에서 유용한 정보를 제공하지 않으므로, 모델에 포함시키지 않아도 됩니다. 이는 모델이 불필요한 변수를 학습하는 것을 방지하고, 모델의 성능을 향상시키는 데 도움을 줍니다. 예를 들어, 모든 샘플에서 동일한 값(예: 상수)을 가지는 예측변수는 분산이 0에 가깝기 때문에 영-분산 예측변수가 됩니다. 이러한 예측변수는 모델에 포함시키지 않아도 됩니다. 또한, 특정 샘플에서만 값을 가지는 예측변수도 분산이 0에 가깝기 때문에 영-분산 예측변수가 됩니다. 이러한 경우..

표준 로지스틱 분포의 누적분포함수

Q. 로지스틱 분포의 표준분포함수가 뭐야? A. 로지스틱 분포의 누적분포함수(Cumulative Distribution Function, CDF)는 다음과 같은 수식으로 정의됩니다: F(x) = 1 / [1 + exp(-(x - μ) / σ)] 여기서, x는 로지스틱 분포에서 랜덤 변수의 값, μ는 로지스틱 분포의 평균(mean), σ는 로지스틱 분포의 표준편차(standard deviation)입니다. 로지스틱 분포는 일반적으로 시그모이드 함수와 유사한 형태를 가지고 있으며, 이로 인해 로지스틱 회귀분석에서 사용되기도 합니다. CDF는 x 이하의 값이 나타날 확률을 나타내는데, 로지스틱 분포에서는 CDF 값이 0.5일 때가 중앙값(median)에 해당합니다. Q. μ, σ 이거 두개는 뭐라고 읽고 무슨..

오즈(odds)란 무엇인가?

데이터마이닝에서 오즈(odds)는 어떤 사건이 발생할 확률과 발생하지 않을 확률 간의 비율을 의미합니다. 예를 들어, 동전 던지기에서 앞면이 나올 확률이 1/2라면, 오즈는 앞면이 나올 확률과 뒷면이 나올 확률 간의 비율인 1:1입니다. 오즈는 보통 로그 오즈(log odds)라고도 불리며, 로그 오즈는 로그 함수를 적용한 오즈값입니다. 로그 오즈를 사용하는 이유는, 오즈값이 1보다 작거나 클 경우, 로그 함수를 적용하면 음수값이 나오고, 오즈값이 1과 가까울 경우, 로그 함수를 적용하면 0에 가까운 값이 나오기 때문입니다. 데이터마이닝에서 오즈는 머신러닝 알고리즘에서 사용되는 분류 모델의 성능을 평가하는 데에도 활용됩니다. 예를 들어, 이진 분류 모델에서 오즈비는 모델의 예측력과 관련된 지표 중 하나로..

맷플롯립(matplotlib) 패키지로 산점도(scatter plot) 그리기

파이썬에서 과학계산용 그래프를 그리는 대표적인 패키지는 맷플롯립이다. 이 패키지를 임포트하고 산점도를 그리는 scatter() 함수를 사용해본다. 도미와 빙어를 무게, 길이 데이터로 산점도를 그린다. # 도미의 길이, 무게 데이터 bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0] bream_weight = [242.0, 290.0, 340.0, 363.0,..

데이터 사이언스 입문 강의 정리

https://www.boostcourse.org/ds001/joinLectures/70393 Hello, 데이터 사이언스! 부스트코스 무료 강의 www.boostcourse.org 네이버 부스트코스 강의 'Hello, 데이터 사이언스!'를 수강하고 내용을 정리했다 데이터 사이언스란? 도메인 지식, 수학(통계), 컴퓨터 과학의 교집합 도메인 지식은 특정한 전문화된 학문이나 분야의 지식으로 경험을 통해 쌓이게 된다. 데이터 분석에 필요한 역량 1. 비판적 사고. 정보를 비판적으로 받아들이는 사고 방식을 연습해야함. 자신의 주장을 데이터로 뒷받침하기 위해서도 필요한 훈련. 과학적 절차에서는 가정들이 굉장히 많이 이루어지는데 먼저 한 가정이 잘못되면 전부 잘못된다. 그래서 석박사들 중 몇년동안 훈련하는 사람들..

반응형