ABC 부트캠프 14일차

공부/ABC 부트캠프

ABC 부트캠프 14일차

내가짱이야내가짱이야 2023. 3. 30. 16:49

부-하

안녕하세요 여러분

오늘도 돌아온 14일차 입니다.

그거 아시나요?

부트캠프 강의실을 너무 빨리오게 된다면

문이 열려있지 않을 수도 있습니다...

주의하십시오...

오늘도 아침 자전거를 타고왔는데

친구가 좀비런이라는 어플을 추천하길래

키고 해봤어용,,,

귀에서 들려오는 좀비소리...

재밌었습니다.. 추천합니다..

정규표현식,,

아주 엄청난 자식입니다..

[abc] 대괄호 안에 있는 문자 1개 인식 a or b or c와 같음
[^abc] 대괄호 안에 있는 문자가 아닌 문자를 인식(NOT 연산) a, b, c 이외의 문자
[0-9] 0부터 9까지의 범위 중 한 문자 인식
[a-zA-Z] 소문자, 대문자를 인식
[a-z&&[def]] a~z까지 1문자 and d/e/f 중 1글자 인식
[ ] 문자의 집합 또는 범위를 나타냄 대괄호 안의 ^ 표시는 NOT을 뜻함
{ } 횟수 또는 범위를 나타낸다.
( ) 소괄호 안의 문자를 하나의 그룹으로 인식
. 임의의 한 문자 단, \는 넣을 수 없음
* 앞 문자가 0개 이상 존재
+ 앞 문자가 1개 이상 존재
? 앞 문자가 없거나 하나 존재
^ 문자열의 시작
$ 문자열의 종료
| 패턴 안에서 or 연산 수행
&& 패턴 안에서 and 연산 수행
\s 공백문자. \t\n\x0B\f\r
\S 공백 문자가 아닌 나머지 문자 [^\s]와 동일
\w 영숫자와 _(언더바) [a-zA-Z_0-9]와 동일
\W 영숫자를 제외한 문자 [^\w]와 동일
\d 숫자 [0-9]와 동일
\D 숫자를 제외한 모든 문자 [^0-9]와 동일
\ 확장문자 \ 다음에 일반 문자가 오면 특수문자로 취급
(?i) 대소문자를 구분하지 않음

슥 훑어보기,, ㅎㅎ

한번 정규표현식을 잘 사용해봅시다.

이번주 로또 당첨금은 32,000,000원입니다.

라는 문장에서 32,000,000만 가져오고 싶다!

하면,, 어떻게 해야할까요?

바로,,,,,,,,,,,,,

저 딱 천만원만 주세요

근데 로또 당첨금이 삼천이면,, 너무 적은거 아닙니까?

일단 주세요.

import requests
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://search.naver.com/search.naver?where=news&sm=tab_jum&query=chatgpt'
response = requests.get(url)

bs_obj = BeautifulSoup(response.content, 'html.parser')

# 뉴스 제목만 csv 파일로 저장
def getNews(keyword, p, sort, fname):
    newslist = []
    urllist = []

    for k in keyword.split():
        print("\n\n===",k,'===')
        for i in range(p):  # 5==>0,1,2,3,4
            start = i * 10 + 1  # 1,11,21,31,41
            url = f"https://search.naver.com/search.naver?where=news&sm=tab_pge&query={k}&sort={sort}&photo=0&field=0&pd=0&ds=&de=&cluster_rank=13&mynews=0&office_type=0&office_section_code=0&news_office_checked=&nso=so:r,p:all,a:all&start={start}"
            response = requests.get(url)

            html = response.text
            bs_obj = BeautifulSoup(html, "html.parser")

            titles = bs_obj.select('.news_tit')

            for title in titles:
                newslist.append(title.text)
                urllist.append(title["href"])

    df = pd.DataFrame({'뉴스제목': newslist, '뉴스URL':urllist})
    df.to_csv(fname)
    

keyword = input('어떤 내용을 검색하시겠습니까? ')
page = int(input('몇 번째 페이지까지 읽어오겠습니까? '))
getNews(keyword, page, 1, "네이버뉴스.csv")

df = pd.read_csv("네이버뉴스.csv", index_col=0)
df

이건 냅다 코드네용

근데 굉장히 유용한 코드입니다..

대박이져....굿

즐거운 점심시간~~~!

오늘은 구름식당을 미리 예약하고 갔다왔어용

근데 예약안하고 가도 될듯,,

저희랑 다른테이블 2개만 있었음,, ㅋㅋ

스파이시 치킨카레 냐미~

오늘도 아이스크림 내기를 했는데

오늘은 4등이 사기,,!

수빈이 당첨....!!!

냠

다시 수업 시작~~!

워드클라우드라는 무언가를 만들기 시작합니다....

패키지를 마구마구 설치해주고

명사만 추출할 수 있습니다....

두글자 이상 명사만 추출도 가능합니다.

워드클라우드를 생성하고 그려볼꺼에용..

결과값이에용,, 근데

내가 예쁜 그림으로 하고싶다..

마스크를 씌울 수 있어용...

와~~~ 예쁜 짭 트위터가 되었어요...

너무 힘들다,,,,,,,,,

힘들 때는 귀여운 동물사진!!!!!!!!

스탑워드는 내가 나온 단어중 빼고싶은걸 뺄 수 있어요...

stopwords = set()
stopwords.add("전두환")
stopwords.add("대통령")

# stopwords = {"대통령", "전두환"}

no_stopwords = [n for n in nouns if not n in stopwords]

words = [n for n in no_stopwords if len(n) > 1] 
counted_words = Counter(words)

왼쪽과 오른쪽이 구분 되시나요? 대박..................

오늘은 시간이 정말 빠르게 간 것 같아요,,^^7

아디오스