ChatGPT Enterprise obsługuje teraz odczytywanie i rozumienie elementów wizualnych (obrazów, wykresów, diagramów itp.) osadzonych w plikach PDF dołączonych do poleceń. Użytkownicy mogą przesłać plik PDF, a ChatGPT może zinterpretować tekst oraz wszystkie elementy wizualne w tym pliku.
Szczegóły znajdziesz w często zadawanych pytaniach o wyszukiwanie wizualne w plikach PDF.
ChatGPT Enterprise umożliwia przesyłanie plików na kilka sposobów:
Bezpośrednio z komputera
Jako wiedza GPT
Jako plik projektu
Ten przewodnik wyjaśnia, jak funkcje ChatGPT Enterprise obsługują pliki w zależności od ich typu, liczby i rozmiaru, oraz omawia strategie ulepszania wyników na podstawie wymagań dotyczących plików.
Podsumowanie
ChatGPT Enterprise traktuje różne typy plików bardzo różnie: wyodrębnia tekst z dokumentów tekstowych, takich jak pliki PDF, prezentacje i pliki Word, analizuje dane strukturalne z arkuszy kalkulacyjnych za pomocą kodu Python oraz opisuje pliki obrazów za pomocą GPT-Vision. Zrozumienie, który typ pliku uruchamia który przepływ pracy, jest kluczowe dla uzyskania oczekiwanego wyniku.
W przypadku dokumentów tekstowych ChatGPT Enterprise umieszcza jak najwięcej istotnego tekstu bezpośrednio obok polecenia i używa systemu wyszukiwania, aby uzyskać dostęp do dodatkowych informacji. Działa to dobrze przy odpowiadaniu na konkretne pytania. Podejście to może jednak mieć trudności ze złożonymi zadaniami, takimi jak streszczanie bardzo dużych dokumentów lub porównywanie wielu dużych plików. Czytaj dalej, aby poznać strategie ulepszania wyników.
Obsługa plików w zależności od typu
ChatGPT Enterprise przetwarza pliki na trzy główne sposoby: wyodrębnianie tekstu, analizę kodu i interpretację obrazów. Typ pliku określa, którym przepływem pracy podąża ChatGPT Enterprise.
| Pobieranie oparte na tekście | Interpreter kodu | Przetwarzanie obrazów | Wyszukiwanie wizualne | |
|---|---|---|---|---|
| Przykłady typów plików | pptx, docx, txt, md, json, xml, pdf* * Pliki PDF przesłane jako wiedza GPT lub pliki projektu | csv, xls, xlsx* *Uwaga: Interpreter kodu może działać na dowolnym typie pliku, ale w przypadku arkuszy kalkulacyjnych ChatGPT Enterprise najczęściej domyślnie używa Interpretatora kodu | jpg, png | pdf* * Pliki PDF dołączone do poleceń użytkowników |
| Zachowanie | Wyodrębnia tekst z pliku – część tekstu jest wklejana („wstawiana”) bezpośrednio do okna kontekstu; część tekstu jest przechowywana na potrzeby wyszukiwania | Interpreter kodu przekazuje plik do Pythona w celu przetworzenia | Obrazy są interpretowane natywnie przez modele wielomodalne, z zastrzeżeniem znanych ograniczeń . | Hybryda pobierania tekstu i przetwarzania obrazów. Tekst jest wyodrębniany cyfrowo, a treść wizualna jest interpretowana natywnie przez modele wielomodalne. |
W przypadku plików wyłącznie tekstowych, plików obrazów lub jasno ustrukturyzowanych plików danych (np. tabeli transakcji w Excelu) te podziały odzwierciedlają najlepsze możliwe zachowanie.
Istnieją pewne szare strefy, które są mniej oczywiste, na przykład:
Obrazy osadzone w plikach innych niż PDF nie są przetwarzane. Aby je uwzględnić, przed przesłaniem przekonwertuj plik na PDF.
ChatGPT Enterprise zawsze będzie używać Interpretatora kodu do interakcji z arkuszami kalkulacyjnymi, nawet jeśli dokument zawiera dużą ilość tekstu. Na przykład jeśli poprosisz ChatGPT Enterprise o przetłumaczenie pliku CSV z 10 wierszami tekstu, spróbuje przetłumaczyć plik przy użyciu biblioteki Pythona, co jest mniej dokładne niż pozwolenie modelowi na bezpośrednie wygenerowanie tłumaczenia. Aby temu zaradzić, spróbuj wyeksportować arkusz kalkulacyjny do formatu tekstowego (na przykład PDF).
Podobnie, jeśli prześlesz ustrukturyzowaną tabelę transakcyjną opisaną w pliku JSON, ChatGPT Enterprise zinterpretuje ten plik jako zwykły tekst. Jeśli chcesz przeanalizować dane zawarte w pliku JSON, poinstruuj model w swoim poleceniu, aby użył Interpretatora kodu.
Obsługa plików w zależności od rozmiaru
ChatGPT Enterprise używa modeli o maksymalnym oknie kontekstu wynoszącym 128 tys. tokenów (około 200 stron tekstu). Nie wszystkie tokeny są jednak używane do uwzględnienia tekstu z przesłanych plików. Liczba „wstawionych” tokenów różni się w zależności od typu użycia.
ChatGPT Enterprise „wstawia” pewną ilość tekstu, a pozostały tekst jest wysyłany do prywatnego indeksu wyszukiwania („magazynu wektorowego”, czyli typu bazy danych zaprojektowanej do wydajnego przechowywania i pobierania dużych ilości tekstu). Gdy zadasz pytanie, ChatGPT Enterprise dołącza uwzględniony tekst wraz z odpowiednimi fragmentami pobranymi z prywatnego indeksu wyszukiwania.
Jeśli prześlesz jeden dokument, ChatGPT Enterprise uwzględni tekst od początku, aż osiągnie swój limit. Jeśli prześlesz wiele dokumentów, ChatGPT Enterprise uwzględni część lub całość każdego dokumentu. Cały tekst z dokumentów jest również wysyłany do prywatnego indeksu wyszukiwania.
Wstawianie kontekstu dla dokumentów tekstowych
Ta funkcja jest aktywnie rozwijana. W związku z tym poniższe informacje mogą ulec zmianie bez powiadomienia.
ChatGPT Enterprise może przetworzyć w oknie kontekstu do 110 tys. tokenów z przesłanych dokumentów. Jeśli prześlesz jeden lub więcej dokumentów o łącznej liczbie poniżej 110 tys. tokenów, uwzględniona zostanie pełna zawartość.
W przypadku pojedynczego dokumentu przekraczającego 110 tys. tokenów uwzględnione zostanie tylko pierwsze 110 tys. tokenów, licząc od początku. Pozostała część zostanie wysłana tylko do prywatnego indeksu wyszukiwania.
Jeśli przesłano wiele dokumentów, a ich łączna liczba przekracza 110 tys. tokenów, ChatGPT Enterprise stosuje dwuetapowy proces, aby zrównoważyć reprezentację dokumentów:
Wyodrębnij do 55 tys. tokenów, podzielonych równo między przesłane dokumenty.
W przypadku dokumentów nie w pełni reprezentowanych w pierwszym kroku przydziel pozostałe 55 tys. tokenów proporcjonalnie na podstawie tokenów pozostałych w każdym dokumencie.
Wszelkie pozostałe tokeny są wysyłane tylko do prywatnego indeksu wyszukiwania.
Liczbę tokenów w dokumencie tekstowym możesz oszacować, kopiując tekst dokumentu do narzędzia OpenAI Tokenizer.
Wstawianie kontekstu dla multimedialnych plików PDF
Gdy użytkownicy przesyłają pliki PDF zawierające zarówno tekst, jak i obrazy, wyszukiwanie wizualne umożliwia ChatGPT natywne przetwarzanie tych obrazów wraz z cyfrowo wyodrębnionym tekstem. Poniższe kroki uzupełniają nasze standardowe procedury obsługi kontekstu dla multimedialnych plików PDF:
Wyodrębnianie i osadzanie obrazów: Obrazy są wyodrębniane i osadzane wraz z powiązanym tekstem cyfrowym.
Inteligentne skalowanie: Obrazy są automatycznie skalowane, aby zachować równowagę między jakością informacji a efektywnym wykorzystaniem dostępnego okna kontekstu.
Gdy przesłane pliki PDF przekraczają limit 110 tys. tokenów, zarówno obrazy, jak i tekst są osadzane w prywatnym indeksie wyszukiwania. Osadzenia tekstu odwołują się do odpowiednich obrazów, co pozwala ChatGPT pobierać właściwe pary tekst–obraz na podstawie zapytań użytkowników. Pobrane obrazy są następnie przetwarzane przy użyciu natywnych możliwości multimodalnych ChatGPT.
Dokładne oszacowanie wymagań dotyczących tokenów dla multimedialnych plików PDF jest trudne. Testy sugerują, że około 350 stron mieszanych tekstów i obrazów w pełni wykorzysta okno kontekstu 110 tys. tokenów.
Strategie wyszukiwania zależne od typu modelu
Zarówno modele z serii GPT, jak i z serii o obsługują przesyłanie plików oraz korzystają z tej samej logiki wstawiania kontekstu i osadzania wyszukiwania. Wszystkie modele wykonują wyszukiwania hybrydowe w prywatnym indeksie wyszukiwania, łącząc metody słów kluczowych i semantyczne. W wyszukiwaniu hybrydowym model generuje frazę wyszukiwania na podstawie polecenia użytkownika, a prywatny indeks wyszukiwania pobiera odpowiednie teksty i obrazy.
Modele te różnią się jednak sposobem przeszukiwania dużych dokumentów, które przekraczają okno kontekstu:
Modele z serii GPT
Jedno wyszukiwanie na polecenie: Modele z serii GPT wykonują jedno wyszukiwanie na polecenie użytkownika.
Skuteczne zastosowania: Idealne do odpowiadania na proste pytania osadzone w obszernej dokumentacji.
Przykładowe zapytania:
„Jakie są zasady HR dotyczące wcześniejszej emerytury?”
„Co robi funkcja
process_order?”
Modele z serii o
Wiele wyszukiwań na polecenie: Może wykonać wiele wyszukiwań (zwykle 2–3) na polecenie użytkownika, każde z unikalną frazą wyszukiwania. Wyszukiwania są wykonywane sekwencyjnie, a model może aktualizować swoje podejście na podstawie informacji pobranych w poprzednich wyszukiwaniach.
Skuteczne zastosowania: Bardziej odpowiednie do złożonych pytań wymagających wielu ukierunkowanych wyszukiwań w obszernej dokumentacji.
Przykładowe zapytania:
„Jakie są zasady HR dotyczące wcześniejszej emerytury, urlopu rodzicielskiego i przeniesienia za granicę?”
„Wyjaśnij, co robi funkcja
process_order, wymień wszystkie metody wywoływane przez tę funkcję i krótko opisz każdą wywoływaną metodę.”
Mimo swoich zalet modele z serii o mogą mieć trudności, gdy zapytanie wymaga więcej niż trzech wyszukiwań.
Wskazówki dotyczące ulepszania wyników wyszukiwania plików
W przypadku złożonych pytań wymagających wielu wyszukiwań spróbuj użyć modelu z serii o.
Pamiętaj, że odpowiedzi mogą się różnić w zależności od typu, liczby i rozmiaru przesyłanych dokumentów.
Ogólnie rzecz biorąc, wczytywanie mniejszej liczby ukierunkowanych dokumentów prowadzi do większej dokładności.
Zamieniaj tematy obejmujące wiele pytań na pojedyncze pytania:
Jeśli potrzebujesz znać zasady HR w każdym stanie, pytaj o nie pojedynczo.
Jeśli musisz streścić wiele dokumentów, proś o jeden dokument naraz. Jeśli dokument ma wiele setek stron, rozważ podzielenie go na mniejsze części.
Możesz poprosić ChatGPT Enterprise o napisanie „podsumowania podsumowań”, jeśli przekażesz mu wiele podsumowań zamiast całych dokumentów.
Jeśli masz plik CSV z RFP (każdy wiersz to inne pytanie), zadawaj te pytania pojedynczo zamiast po prostu wczytywać CSV i prosić o jedną odpowiedź.
Znajdź sposoby audytowania odpowiedzi modelu. Przykładowe instrukcje GPT znajdują się poniżej:
# Kontekst
Jesteś ekspertem w rozumieniu dokumentów. Użytkownik dołączy dokument i zada pytanie. Musi mieć możliwość powiązania Twojej odpowiedzi z dokładnym fragmentem tekstu, z którego pochodzi odpowiedź.
# Instrukcje
1. Odpowiedz na pytanie użytkownika na podstawie dołączonego dokumentu, używając dokładnie poniższego formatu
# Format
- Pytanie: { powtórz pytanie użytkownika }
- Odpowiedź: { udziel odpowiedzi na pytanie użytkownika }
Źródło:
- - Numer sekcji: { podaj numer sekcji, z której pochodzi odpowiedź }
- - Tytuł sekcji: { podaj tytuł sekcji, z której pochodzi odpowiedź }
- - Dokładny tekst: { podaj dokładny tekst, z którego pochodzi odpowiedź }
# Zasady
- Udzielaj odpowiedzi jasnych i zwięzłych
- Podawaj wyłącznie informacje zawarte w dokumencie
- Jeśli nie możesz znaleźć odpowiedzi w dokumencie, po prostu odpowiedz „Nie znaleziono informacji.”