ネイティブが発音する英単語の発音記号とサウンドファイルを大量取得する

概要

今回はエクセルのマクロ機能を使って、ネット上からデータやファイルを取得することをやってみました。(マクロプログラムの詳細については後日、独学プログラミングのページにアップするつもりです。)

具体的には、あらかじめエクセルに入力しておいた英単語を、オックスフォードの辞書サイトから発音記号とサウンドファイルを自動で入手するスクレイピングと呼ばれるものです。

アルクの究極の英単語を覚えようとしたときにネイティブの発音を聞きたかったことと、さらに究極の英単語Ankiアプリに取り込んだときに発音記号も欲しかったことが、作ろうと考えた動機です。

Duo3.0を使っていて単語単体での発音を確認しておきたいという方も使っていただけると思います。

エクセルファイル

エクセルファイルはこちらからダウンロードしてください。

下準備

エクセルからインターネットエクスプローラーを開いて、ネットから情報やファイルを取得するには以下の簡単なセッティングが事前に必要です。

  1. エクセルの開発タブからVisual BasicタブをクリックしてMicrosoft Visual Basic for Applicationを開く
  2. Microsoft Visual Basic for Application のツールから参照設定を開く
  3. 参照設定ウィンドウが開くので、スクロールしながら頭文字Mを探し、その中から下記の2つのライブラリを見つけてチェックを入れる。
    1. Microsoft HTML Object Library
    2. Microsoft Internet Controls
  4. 以上で下準備は完了です。

知らない人の作ったマクロをダウンロードしたくない場合

知らない人の作ったマクロはコンピューターウィルスを含んでいる可能性があるため、ダウンロードしたくない方も大勢おられると思います。

ですので、下記にエクセルマクロの中身を添付しておきます。

モジュールへプログラムをペーストする

Microsoft Visual Basic for Applicationの標準モジュールを左クリックして、モジュールを用意する。これを4回繰り返してModule1~4を作り(下図を参照)、それぞれのモジュールに下記のプログラムをペーストします。

尚、変数は本来、半角英数字で定義すべきですが、初学者なのでプログラムの流れが理解しやすくなるので日本語で定義しています。後で検索・置換機能を使って変数をまとめて半角英数字に変換すると良いと思います。

Module1に下記のコードをペーストします。

'マクロ連続実行テスト
Sub スクレイピング連続実行マクロ()
    
    ' 連続で実行したいマクロプログラム(プロシージャー)をCallステートメントで呼び出す
    Call Step1_発音記号とサウンドURL同時スクレイピングマクロ
    Call Step2_サウンドファイルのダウンロードマクロ
    
    ' メッセージボックスで処理が完了したことを表示する
    MsgBox "スクレイピング完了しました"
    
End Sub

Module2に下記のコードをペーストします。

' 指定時間だけマクロプログラムの実行を中断するためにMicrosoftが用意したプロシージャーを使うことを宣言しておく
Private Declare Sub Sleep _
    Lib "kernel32" (ByVal dwMilliseconds As Long)
    
    
Public Sub Step1_発音記号とサウンドURL同時スクレイピングマクロ()
   
' 変数を一通り定義する
    Dim 単語番号 As Integer ' 処理する行番号
    単語番号 = 5    '5行目の単語から処理を開始する
    
    Dim 単語 As String  ' オックスフォードの辞書サイトで検索する単語
    
    Dim 最終単語番号 As Integer ' 最終の行番号
    最終単語番号 = Cells(Rows.Count, 2).End(xlUp).Row   ' 2列目の一番下の行番号まで処理する
    
    Dim ie As InternetExplorer  ' InternetExplorer型のオブジェクト変数ieを用意する
    Dim url 'オックスフォードのサイトのURL
    Set ie = CreateObject("InternetExplorer.Application")   ' オブジェクト変数にインターネットエクスプローラーをセットする
    ie.Visible = False  ' インターネットエクスプローラーの中身だけが欲しいので表示はさせない
    
    On Error Resume Next    ' エラーがあっても飛ばして次へ処理を進める。単語のスペルミスなどがあっても処理は継続される

    
' 5行目から最終行まで発音記号とサウンドファイルのURLの入手を繰り返し処理(Do Loop)する
    Do
    
        単語 = Worksheets("SVLデータ").Range("B" & 単語番号)    ' ワークシート(ここではSVLデータと命名)のB列から単語を取得
        url = "https://www.oxfordlearnersdictionaries.com/definition/english/" & 単語   '
        ie.Navigate url
        
        Call Sleep(10000)   ' 冒頭で宣言したsleepプロシージャーで10秒処理を停止し、インターネットエクスプローラーの起動を待つ
        
        ' IEのページ読み込みが完了するのを待つ
        While ie.Busy = True Or ie.ReadyState < READYSTATE_COMPLETE
        DoEvents
        Wend
    
   
        ' IEが準備完了になるとreadyStateプロパティは4を返すので準備完了を判断する
        Do While ie.ReadyState <> 4 Or ie.Busy = True
        DoEvents
        Loop
        STime = Now
        Do While DateAdd("S", 1, STime) > Now
            DoEvents
        Loop
    
'/////////////////////////////////////////////////////////////// 発音記号の取得 ////////////////////////////////////////////
        Dim doc As HTMLDocument ' インターネットエクスプローラーで取得した中身を入れる変数docを定義
        Set doc = ie.Document  ' 変数docに中身を入れる

        ' このモジュールの最後に記載しているFunctionプロシージャー(自分で定義した処理)を使って、
        ' ページのhtmlを読み込んでphonというクラスに設定されている発音記号を取り出す
        Dim 米国式発音記号
        米国式発音記号 = doc.getElementsByClassName("phon")(1).innerText
        米国式発音記号 = Replace(米国式発音記号, "/", "")   ' 発音記号は/で挟まれているので/を取り除く
    
       
        ' ワークシートのC列に発音記号を記入する
        Debug.Print 米国式発音記号
        With Worksheets("SVLデータ")
            .Range("C" & 単語番号) = 米国式発音記号
        End With
        

'////////////////////////////////////////////////////////// サウンド・ファイルのURLの取得 ////////////////////////////////////
        If Worksheets("SVLデータ").Range("C" & 単語番号) = "" Then  ' 発音記号が取得できていることを確認してからサウンドファイルのURLを取得する
        Else
            Dim HTMLString As String    ' オックスフォードのページ内のhtmlを入れる変数HTMLStringを用意
            HTMLString = getHTMLString(ie)  ' htmlを変数HTMLStringに入れる
        
            Dim 米国式HTMLString
            Dim 米国式発音はじめ
            Dim 米国式発音おわり

            ' サウンドファイルのURLは必ずhttps://www.oxfordlearnersdictionaries.com/media/english/us_pron/から始まるので、
            ' その位置をInStr関数で探す
            米国式発音はじめ = InStr(HTMLString, "https://www.oxfordlearnersdictionaries.com/media/english/us_pron/")
            
            ' サウンドファイルのURLより後ろの部分を米国式HTMLStringに入れる
            米国式HTMLString = Mid(HTMLString, 米国式発音はじめ)
            
            ' 米国式HTMLStringの中でのサウンドファイルのURLが始まる文字の位置(つまり1)を米国式発音はじめに入れなおす
            米国式発音はじめ = InStr(米国式HTMLString, "https://www.oxfordlearnersdictionaries.com/media/english/us_pron/")
            
            ' サウンドファイルのURLの表示から28文字後にclas="phon"の表示が必ず来るのでphoneの位置を米国式発音おわりに入れる
            米国式発音おわり = InStr(米国式HTMLString, "phon")
            
            ' Mid関数でサウンドファイルのURLのはじめとおわりの文字位置を指定して取り出す
            米国式発音 = Mid(米国式HTMLString, 米国式発音はじめ, 米国式発音おわり - 28)
            Worksheets("SVLデータ").Range("D" & 単語番号) = 米国式発音  ' ワークシート(SVLデータ)のD列に記入
        End If

'/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
        単語番号 = 単語番号 + 1
        
        ' 変数の中身を空にしておく
        米国式発音記号 = ""
        米国式発音 = ""
        
        If 単語番号 > 最終単語番号 Then Exit Do

    Loop
    

End Sub

' オックスフォードのサイトのhtmlを文字列として取得するファンクション
Private Function getHTMLString(ie As InternetExplorer) As String
    Dim htdoc As HTMLDocument
    Set htdoc = ie.Document
    
    Dim ret As String
    ret = htdoc.getElementsByTagName("HTML")(0).outerHTML & vbCrLf
    
    getHTMLString = ret
End Function




Module3に下記のコードをペーストします。

'// 指定URLファイルのダウンロード
Private Declare Function URLDownloadToFile _
    Lib "urlmon" Alias "URLDownloadToFileA" _
    (ByVal pCaller As Long, _
    ByVal szURL As String, _
    ByVal szFileName As String, _
    ByVal dwReserved As Long, _
    ByVal lpfnCB As Long) As Long
 
'// キャッシュクリア
Private Declare Function DeleteUrlCacheEntry _
    Lib "wininet" Alias "DeleteUrlCacheEntryA" _
    (ByVal lpszUrlName As String) As Long
 
'// スリープ
Private Declare Sub Sleep _
    Lib "kernel32" (ByVal dwMilliseconds As Long)

'// URLを指定してDownloadFile関数を呼び出す
Sub Step2_サウンドファイルのダウンロードマクロ()
    Dim 単語番号 As Integer
    単語番号 = 5
    
    Dim 最終単語番号 As Integer
    最終単語番号 = Cells(Rows.Count, 2).End(xlUp).Row
    
    Dim sUrl    As String   ' ダウンロード対象ファイルのURL
    Dim ファイル名 As String
    Dim N As Long, cnt As Long, cnt2 As Long  'サウンドファイルのURLからファイル名を抜き出すための変数
    Dim path As String  ' ダウンロードファイルを保存するローカルPCのフォルダのパス
    path = Replace(Range("C1"), """", "") ' ワークシート(SVLデータ)のC1セルに入力したパスから"を除去して使用する
    Dim sDir    As String   ' ダウンロードファイルを保存するローカルPCのファイルのパス(上記のパス+ファイル名)
    
    
' 5行目から最終行まで発音記号とサウンドファイルのURLの入手を繰り返し処理(Do Loop)する
    Do
         
        ' URL設定
        sUrl = Worksheets("SVLデータ").Range("D" & 単語番号)
        N = InStr(1, sUrl, "/")
        ' /が何個あるかカウントする
        Do While N > 0
            cnt = cnt + 1
            N = InStr(N + 1, sUrl, "/")
        Loop
        
        ' 最後の/の位置でファイル名を切り出す
        Do While cnt > cnt2
            cnt2 = cnt2 + 1
            N = InStr(N + 1, sUrl, "/")
        Loop
        N = N + 1
        cnt = 0
        cnt2 = 0
        ファイル名 = Mid(sUrl, N)
            
        sDir = path & "\" & ファイル名
    
        
        Worksheets("SVLデータ").Range("E" & 単語番号) = ファイル名
        
        
        ' ダウンロード
        Call DownloadFile(sUrl, sDir)
    
        ' 5秒スリープ
        Call Sleep(5000)
       
       
        単語番号 = 単語番号 + 1
        If 単語番号 > 最終単語番号 Then Exit Do
        
       
    Loop
End Sub
' 指定URLファイルのダウンロードを行う
Sub DownloadFile(a_sUrl As String, a_sDir As String)
    Dim ret             ' 戻り値
    
    ' キャッシュクリア
    Call DeleteUrlCacheEntry(a_sUrl)
    
    ' ダウンロード
    ret = URLDownloadToFile(0, a_sUrl, a_sDir, 0, 0)
    
    ' ダウンロード失敗時
    If ret <> 0 Then
        Debug.Print a_sUrl & ":ダウンロード失敗"
    End If
End Sub

Module4に下記のコードをペーストします。

Sub リセット()
'
' リセット Macro

    Dim last_row As Integer
    last_row = Cells(Rows.Count, 2).End(xlUp).Row
    
    
    Range("C5:E" & last_row).Clear
    
    Range("A1").Select

End Sub

念のため、プログラムをペーストしたModuleの画像を添付します。

Module1

Module2

Module3

Module4

スイッチの取り付けと発音記号・サウンドファイル取得の実行

エクセルの開発から挿入を選択して、一番左上のボタンを選択する

ボタンを描画して左クリックで「マクロの登録」を選択

「マクロの登録」ウィンドウで「スクレイピング連続実行マクロ」を選択し、OKボタンを押して閉じる。

英単語をB列の3行目以降から入力し、スタートボタンを押す

後は放置しておけば発音記号とサウンドファイルがダウンロードされ、処理が完了すると「スクレイピングが完了しました」のメッセージボックスが表示されます。以上で完了です。

最後に

通信環境やパソコンの性能により、インターネットがプログラムに追い付かなくなるのを避けるため、要所要所で待機時間を数秒から10秒程度と少し長めに入れています。

待機時間を短くすると大量の英単を処理する場合などは時間短縮になります。

インターネットがエクセルの動作に追い付かなくならない程度に、通信環境にあわせて待機時間を調整してみるのも良いかもしれません。

Follow me!

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA